Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Discovering" Factual" and" Implicative" generic association rules

Conférence d’apprentissage CAp 2005 dans le cadre de la plate-forme de l’AFIA (Association Française pour l’Intelligence Artificielle) du 30 mai au 3 juin 2005 à Nice Président du comité de programme François Denis Président de la plate-forme AFIA : Fabien Gandon Site Web de la plate-forme : http ://www-sop.inria.fr/acacia/afia2005/welcome.html CAP 2005 Préface Ce volume contient les Actes de la 7ème Conférence d’Apprentissage (CAp) qui s’est tenue à Nice du mercredi 1er au vendredi 3 juin 2005. CAp, rendez-vous annuel des chercheurs de la communauté francophone du domaine, s’est déroulée au sein de la plate-forme organisée par l’Association Française d’Intelligence Artificielle (AFIA), comme chaque année de millésime impair. Ce regroupement donne l’occasion d’échanges entre participants à trois conférences : CAp, IC (Ingéniérie des connaissances) et RJCIA (Rencontre des Jeunes chercheurs en Intelligence artificielle). Nous avons reçu 51 propositions d’articles cette année, ce qui constitue un nombre record depuis la création de CAp en 1999, attestant du dynamisme des chercheurs français en apprentissage automatique. Trois autres indicateurs me semblent témoigner de la bonne santé de notre thématique de recherche : – le nombre et la diversité des laboratoires et organismes de rattachement des auteurs : CRIL, ENST Paris, ETIS, EURISE, GRAPPA, GREYC, IMAG, INRA, INRIA Rhône-Alpes, INRIA Sophia Antipolis, INSA Lyon, INSA-Rouen, INSERM, IRISA-ENSSAT, LENA, LMGM, LIFO, Lim&Bio, LIF, LIRIS, LIRMM, LORIA, LRI, LTCI, UTC, X, Xerox, univ. Montréal, Australian National Univ., Univ. Cath. de Louvain, Univ. de Tunis, ... – la multiplicité des thèmes traités : inférence grammaticale, théorie de l’apprentissage, modèles probabilistes, règles d’association et treillis de Galois, méthodes à noyaux, réseaux bayésiens, algorithmes génétiques, optimisation, contraintes, . . . et d’autres encore sortant des thèmes usuels ; – la répartition équilibrée des travaux sur un axe théorie-applications, illustrant le lien marqué en apprentissage automatique entre la performance des méthodes et leurs fondements théoriques. Chaque article a été évalué par trois relecteurs. Sur 51 soumissions, le comité de programme a retenu 22 articles en version longue (exposé de 25 mn pendant la conférence et article de 16 pages dans les Actes) et 14 autres en version courte (exposé de 5 minutes, article de 2 pages et poster : 11 auteurs ont accepté cette possibilité). Je tiens à remercier vivement les membres du comité de programme et plus généralement tous les relecteurs pour la très grande qualité de leurs rapports à la fois exigeants et constructifs ainsi que Fabien Torre pour le très efficace logiciel de gestion qu’il a mis à ma disposition. Merci également aux organisateurs de la plate-forme et à Fabien Gandon au premier chef. Je remercie tout particulièrement Cécile Capponi, Yann Esposito et Liva Ralaivola pour le sérieux coup de main qu’ils m’ont donné au quotidien et en particulier pour la composition des présents Actes. François DENIS, Président du comité de programme de CAP 2005, LIF, Université de Provence CAP 2005 Comité de programme : Président : François Denis (LIF, Université de Provence) – Florence d’Alché (LAMI, Université d’Evry) – Frédéric Alexandre (LORIA, Nancy) – Yoshua Bengio (DIRO, Montréal) – Marc Bernard (EURISE, Saint-Etienne) – Olivier Bousquet (Pertinence, Paris) – Laurent Bréhelin (LIRMM, Montpellier) – Stéphane Canu (PSI, INSA Rouen) – Yann Chevaleyre (LIP6, Paris) – Francois Coste (IRISA, Rennes) – André Elisseeff (IBM, Zurich) – Annie Foret (IRISA, Rennes) – Remi Gilleron (GRAPPA, Lille) – Yves Grandvalet (Heudiasyc, Université de Technologie de Compiègne) – Yann Guermeur (LORIA, Nancy) – Jean-Christophe Janodet (EURISE, Saint-Etienne) – Frederic Koriche (LIRMM, Montpellier) – Laurent Miclet (IRISA/ENSSAT, Lannion) – Remi Munos (CMAP, Polytechnique) – Claire Nedellec (MIG-INRA, Jouy-en-Josas) – Engelbert Mephu Nguifo (CRIL, Lens) – Richard Nock (GRIMAAG, Martinique) – Liva Ralaivola (LIF, Université de Provence) – Céline Robardet (INSA, Lyon) – Céline Rouveirol (LRI, Orsay) – Marc Sebban (EURISE, St-Etienne) – Olivier Teytaud (LRI, Orsay) – Marc Tommasi (GRAPPA, Lille) – Véronique Ventos (LRI, Orsay) – Jean-Philippe Vert (Ecole des Mines, Paris) – Christel Vrain (LIFO, Orléans) – Jean-Daniel Zucker (LIM&BIO, Paris 13) Autres relecteurs : Erick Alphonse (INRA, Jouy-en-Josas), Denis Béchet (LINA, Nantes), Sadok Ben Yahia (DSI, Tunis), Armelle Brun (LORIA, Nancy), G. Cleuziou (LIFO, Orléans), Rémi Coletta (LIRMM, Montpellier), Rémi Coulom (LIFL, Lille), Mélanie Courtine (Lim&Bio, Paris), Hugues Delalin (CRIL, Lens), Corneliu Hennegar, (Lim&Bio, Paris), Ingrid Jacquemin, (IRISA, Rennes), Marie Lahaye (IRISA, Rennes), Pierre-Alain Laur (GRIMAAG, Martinique), Michel Liquiere (LIRMM, Montpellier), Myriam Maumy, (IRMA, Strasbourg), Philippe Preux (LIFL, Lille), René Quiniou, (IRISA, Rennes), Valérie Renault (LIUM, Le Mans), Henry Soldano (LIPN, Paris), Frédéric Sur (LORIA, Nancy), Isabelle Tellier (LIFL, Lille), Fabien Torre (LIFL, Lille), Hélène Touzet (LIFL, Lille) CAP 2005 Table des matières Inférence grammaticale et séquences – Coupling Maximum Entropy and Probabilistic Context-Free Grammar Models for XML Annotation of Documents Boris Chidlovskii, Jérôme Fuselier . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 – Constrained Sequence Mining based on Probabilistic Finite State Automata Stéphanie Jacquemont, François Jacquenet, Marc Sebban . . . . . . . 15 – Définitions et premières expériences en apprentissage par analogie dans les séquences Laurent Miclet, Sabri Bayoudh, Arnaud Delhay . . . . . . . . . . . . . . . 31 – Phase transitions in grammatical inference Nicolas Pernot, Antoine Cornuéjols et Michèle Sebag . . . . . . . . . . 49 – Apprentissage par analogie et rapports de proportion : contributions méthodologiques et expérimentales Nicolas Stroppa, François Yvon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 – Inférence grammaticale et grammaires catégorielles : vers la Grande Unification ! Isabelle Tellier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Méthodes à noyaux – Séparateurs à Vaste Marge Optimisant la Fonction Fβ Jérôme Callut et Pierre Dupont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 – Kernel Basis Pursuit Vincent Guigue, Alain Rakotomamonjy, Stéphane Canu . . . . . . . . 93 – Méthodologie de sélection de caractéristiques pour la classification d’images satellitaires Marine Campedel et Eric Moulines . . . . . . . . . . . . . . . . . . . . . . . . . .107 – Semantic Learning Methods : Application to Image Retrieval Philippe Henri Gosselin, Matthieu Cord . . . . . . . . . . . . . . . . . . . . . 109 – Détection de contexte par l’apprentissage Gaëlle Loosli, Sans-Goog Lee, Stéphane Canu . . . . . . . . . . . . . . . 111 Modèles probabilistes – Modèles markoviens pour l’organisation spatiale de descripteurs d’images Juliette Blanchet, Florence Forbes, Cordelia Schmid . . . . . . . . . . 113 – Planification robuste avec (L)RTDP Olivier Buffet, Doug Aberdeen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 CAP 2005 – HMM hiérarchiques et factorisés : mécanisme d’inférence et apprentissage à partir de peu de données Sylvain Gelly, Nicolas Bredeche, Michèle Sebag . . . . . . . . . . . . . 143 Théorie de l’apprentissage – Systèmes inductifs-déductifs : une approche statistique Nicolas Baskiotis, Michèle Sebag, Olivier Teytaud . . . . . . . . . . . . 145 – Statistical asymptotic and non-asymptotic consistency of bayesian networks : convergence to the right structure and consistent probability estimates Sylvain Gelly, Olivier Teytaud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 – Apprentissage statistique et programmation génétique : la croissance du code est-elle inévitable ? Sylvain Gelly, Olivier Teytaud, Nicolas Bredeche, Marc Schoenauer 163 Optimisation – Introduction à l’extraction de l’information à partir des flux de données Toufik Boudellal et David W. Pearson . . . . . . . . . . . . . . . . . . . . . . . 179 – Apprentissage non supervisé de motifs temporels, multidimensionnels et hétérogènes. Application à la télésurveillance médicale Florence Duchêne, Catherine Garbay et Vincent Rialle . . . . . . . . 181 – Taylor-based pseudo-metrics for random process fitting in dynamic programming : expected loss minimization and risk management Sylvain Gelly, Jeremie Mary, Olivier Teytaud . . . . . . . . . . . . . . . . 183 – Acquisition des contraintes ouvertes par apprentissage de solveurs Andreı̈ Legtchenko, Arnaud Lallouet . . . . . . . . . . . . . . . . . . . . . . . . 185 – Policy gradient in continuous time Rémi Munos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 – Multi-objective Multi-modal Optimization for Mining Spatio-temporal Patterns Nicolas Tarrisson, Michèle Sebag, Olivier Teytaud, Julien Lefevre, Sylvain Baillet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Bio-Informatique – Clustering gene expression series with prior knowledge Laurent Bréhélin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 – Exploiter l’information mutuelle inter-gènes pour réduire la dimension des données biopuces : une approche basée sur la construction automatique d’attributs Blaise Hanczar, Jean-Daniel Zucker . . . . . . . . . . . . . . . . . . . . . . . . . 247 – Classification of Domains with Boosted Blast Cécile Capponi, Gwennaele Fichant, Yves Quentin . . . . . . . . . . . 263 – Extraction de concepts sous contraintes dans des données d’expression de gènes Baptiste Jeudy et François Rioult . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Apprentissage semi-supervisé – Semi-supervised Learning by Entropy Minimization Yves Grandvalet et Yoshua Bengio, . . . . . . . . . . . . . . . . . . . . . . . . . 281 – Apprentissage semi-supervisé asymétrique et estimations d’affinités locales dans les protéines Christophe Magnan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 Fouille de données et extraction de motifs – Approximation de collections de concepts formels par des bi-ensembles denses et pertinents Jérémy Besson, Celine Robardet et Jean-François Boulicaut . . . 313 – Discovering ”Factual” and ”Implicative” generic association rules Gh. Gasmi, Sadok Ben Yahia, Engelbert Mephu Nguifo et Yahya Slimani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 – Average Number of Frequent and Closed Patterns in Random Databases Loı̈ck Lhote, François Rioult, Arnaud Soulet . . . . . . . . . . . . . . . . . 345 – Fouille de données biomédicales : apports des arbres de décision et des règles d’association à l’étude du syndrome métabolique dans la cohorte STANISLAS Sandy Maumus, Amedeo Napoli, Laszlo Szathmary, Sophie VisvikisSiest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 Index des auteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 Coupling Maximum Entropy and Probabilistic Context-Free Grammar Models for XML Annotation of Documents Boris Chidlovskii1, Jérôme Fuselier1,2 1 Xerox Research Centre Europe, 6, chemin de Maupertuis, 38240 Meylan, France {chidlovskii,fuselier}@xrce.xerox.com 2 Université de Savoie - Laboratoire SysCom, Domaine Universitaire, 73376 Le Bourget-du-Lac, France jerome.fuselier@univ-savoie.fr Abstract : We consider the problem of semantic annotation of semi-structured documents according to a target XML schema. The task is to annotate a document in a tree-like manner where the annotation tree is an instance of a tree class defined by DTD or W3C XML Schema descriptions. In the probabilistic setting, we cope with the tree annotation problem as a generalized probabilistic context-free parsing of an observation sequence where each observation comes with a probability distribution over terminals supplied by a probabilistic classifier associated with the content of documents. We determine the most probable tree annotation by maximizing the joint probability of selecting a terminal sequence for the observation sequence and the most probable parse for the selected terminal sequence. Nous considérons le problème de l’annotation sémantique de documents semistructurés guidée par un schéma xml cible. Le but est d’annoter un document de façon arborescente où l’arbre d’annotation est l’instance d’une DTD ou d’un schéma W3C XML. Avec notre approche probabiliste, nous traitons le problème de l’annotation comme une généralisation de la dérivation de grammaires horscontextes probabilistes pour des séquences d’observations. Chaque observation possède une distribution de probabilités sur les classes qui est fournie par un classifieur probabiliste associé au contenu du document. L’arbre d’annotation le plus probable est choisi en maximisant la probabilité jointe de la séquence d’observations et de l’arbre de dérivation associé à cette séquence. Mots-clés : Apprentissage artificiel, Web sémantique, Extraction d’informations 1 Introduction The future of the World Wide Web is often associated with the Semantic Web initiative which has as a target a wide-spread document reuse, re-purposing and exchange, 1 CAp 2005 achieved by means of making document markup and annotation more machine-readable. The success of the Semantic Web initiative depends to a large extent on our capacity to move from rendering-oriented markup of documents, like PDF or HTML, to semanticoriented document markup, like XML and RDF. In this paper, we address the problem of semantic annotation of HTML documents according to a target XML schema. A tree-like annotation of a document requires that the annotation tree be an instance of the target schema, described in a DTD, W3C XML Schema or another schema language. Annotation trees naturally generalize flat annotations conventionally used in information extraction and wrapper induction for Web sites. The migration of documents from rendering-oriented formats, like PDF and HTML, toward XML has recently become an important issue in various research communities (Christina Yip Chung, 2002; Curran & Wong, 1999; Kurgan et al., 2002; Saikat Mukherjee, 2003; Skounakis et al., 2003a). The majority of approaches either make certain assumptions about the source and target XML documents, like a conversion through a set of local transformations (Curran & Wong, 1999), or entail the transformation to particular tasks, such as the semantic annotation of dynamically generated Web pages in news portals (Saikat Mukherjee, 2003) or the extraction of logical structure from page images (Skounakis et al., 2003a). In this paper, we consider the general case of tree annotation of semi-structured documents. We make no assumptions about the structure of the source and target documents or their possible similarity. We represent the document content as a sequence of observations x = {x1 , . . . , xn }, where each observation xi is a content fragment. In the case of HTML documents, such a fragment may be one or multiple leaves, often surrounded with rich contextual information in the form of HTML tags, attributes, etc. The tree annotation of sequence x is given by a pair (y, d), where y and d refer to leaves and internal nodes of the tree, respectively. The sequence y = {y1 , . . . , yn } can be seen, on one side, as labels for observations in x, and on the other side, as a terminal sequence for tree d that defines the internal tree structure over y according to the target XML schema. In supervised learning, the document annotation system includes selecting the tree annotation model and training the model parameters from a training set S given by triples (x, y, d). We adopt a probabilistic setting, by which we estimate the probability of an annotation tree (y, d) for a given observation sequence x and address the problem of finding the pair (y, d) of maximal likelihood. We develop a modular architecture for the tree annotation of documents that includes two major components. The first component is a probabilistic context-free grammar (PCFG) which is a probabilistic extension to the corresponding (deterministic) XML schema definition. The PCFG rules may be obtained by rewriting the schema’s element declarations (in the case of a DTD) or element and type definitions (in the case of a W3C XML Schema) and the rule probabilities are chosen by observing rule occurrences in the training set, similar to learning rule probabilities from tree-bank corpora for NLP tasks. PCFGs offer the efficient inside-outside algorithm for finding the most probable parse for a given sequence y of terminals. The complexity of the algorithm is O(n3 · |N |), where n is the length of sequence y and |N | is the number of non-terminals on the 2 PCFG. The second component is a probabilistic classifier for predicting the terminals y for the observations xi in x. In the case of HTML documents, we use the maximum entropy framework (Berger et al., 1996), which proved its efficiency when combining content, layout and structural features extracted from HTML documents for making probabilistic predictions p(y) for xi . With the terminal predictions supplied by the content classifier, the tree annotation problem represents the generalized case of probabilistic parsing, where each position i in sequence y is defined not with a specific terminal, but with a terminal probability p(y). Consequently, we consider the sequential and joint evaluations of the maximum likelihood tree annotation for observation sequences. In the joint case, we develop a generalized version of the inside-outside algorithm that determines the most probable annotation tree (y, d) according to the PCFG and the distributions p(y) for all positions i in x. We show that the complexity of the generalized inside-outside algorithm is O(n3 · |N | + n · |T | · |N |), where n is the length of x and y, and where |N | and |T | are the number of non-terminals and terminals in the PCFG. We also show that the proposed extension of the inside-outside algorithm imposes the conditional independence requirement, similar to the Naive Bayes assumption, on estimating terminal probabilities. We test our method on two collections and report an important advantage of the joint evaluation over the sequential one. 2 XML annotation and schema XML annotations of documents are trees where inner nodes determine the tree structure, and the leaf nodes and tag attributes refer to the document content. XML annotations can be abstracted as the class T of unranked labeled rooted trees defined over an alphabet Σ of tag names (Neven, 2002). The set of trees over Σ can be constrained by a schema D that is defined using DTD, W3C XML Schema or other schema languages. DTDs and an important part of W3C XML Schema descriptions can be modeled as extended context-free grammars (Papakonstantinou & Vianu, 2000), where regular expressions over alphabet Σ are constructed by using the two basic operations of concatenation · and disjunction | and with occurrence operators ∗ (Kleene closure), ? (a? = a|ǫ) and + (a+ = a · a∗). An extended context free grammar (ECFG) is defined by the 4-tuple G = (T, N, S, R), where T and N are disjoint sets of terminals and nonterminals in Σ, Σ = T ∪N ; S is an initial nonterminal and R is a finite set of production rules of the form A → α for A ∈ N , where α is a regular expression over Σ = T ∪ N . The language L(G) defined by an ECFG G is the set of terminal strings derivable from the starting symbol S of G. Formally, L(G) = {w ∈ Σ∗ |S ⇒ w}, where ⇒ denotes the transitive closure of the derivability relation. We represent as a parse tree d any sequential form that reflects the derivational steps. The set of parse trees for G forms the set T (G) of unranked labeled rooted trees constrained with schema G. In practical cases, we deal with the structure of the documents which can be represented by DTD. Moreover, as DTD are strictly less powerful than CFG, we can work 3 CAp 2005 with CFG or its probabilistic extension, given the fact that it will always be possible to map our results to DTD. 2.1 Tree annotation problem When annotating HTML documents accordingly to a target XML schema, the main difficulty arises from the fact that the source documents are essentially layout-oriented, and the use of tags and attributes is not necessarily consistent with elements of the target schema. The irregular use of tags in documents, combined with complex relationships between elements in the target schema, makes the manual writing of HTML-to-XML transformation rules difficult and cumbersome. In supervised learning, the content of source documents is presented as a sequence of observations x = {x1 , . . . , xn }, where any observation xi refers to a content fragment, surrounded by rich contextual information in the form of HTML tags, attributes, etc. The tree annotation model is defined as a mapping X → (Y, D) that maps the observation sequence x into a pair (y, d) where y={y1 , . . . , yn } is a terminal sequence and d is a parse tree of y according to the target schema or equivalent PCFG G, S ⇒ y. The training set S for training the model parameters is given by a set of triples (x, y, d). To determine the most probable tree annotation (y, d) for a sequence x, we attempt to maximize the joint probability p(y, d|x, G), given the sequence x and PCFG G. Using the Bayes theorem, we have p(y, d|x, G) = p(d|y, x, G) · p(y|x, G), (1) As d is independent of x given y and y is independent of G, we can rewrite the equation 1 as follows : p(y, d|x, G) = p(d|y, G) · p(y|x), (2) where p(y|x) is the probability of terminal sequence y for the observed sequence x, and p(d|y, G) is the probability of the parse d for y according the PCFG G. The most probable tree annotation for x is a pair (y, d) that maximizes the probability in (2), (y, d)max = argmax p(d|y, G) · p(y|x). (3) (y,d) In the following, we build a probabilistic model for tree annotation of source documents consisting of two components to get the two probability estimates in (3). The first component is a probabilistic extension of the target XML schema; for a given terminal sequence y, it finds the most probable parse p(d|y, G) for sequences according to the PCFG G, where rule probabilities are trained from the available training set. The second component is a probabilistic content classifier C, it estimates the conditional probabilities p(y|xi ) for annotating observations xi with terminals y ∈ T . Finally, for a given sequence of observations x, we develop two methods for finding a tree annotation (y, d) that maximizes the joint probability p(y, d|x, G) in (2). The figure 1 outlines the tree annotation problem with the decomposition in two components. 4 HTML tree Content (PCDATA) x1 x2 ... xn x y1 y2 ... yn y XML terminals XML inner nodes d Probabilistic classification of the leaves + Derivation of the most probable parse ^d given y Figure 1: HTML to XML conversion schema. 3 Probabilistic context-free grammars PCFGs are probabilistic extensions of CFGs, where each rule A → α in R is associated with a real number p in the half-open interval (0; 1]. The values of p obey the restriction that for a given non-terminal A ∈ N , all rules for A must have p values that sum to 1, ∀A ∈ N : X p(r) = 1. (4) r=A→α,r∈R PCFGs have a normal form, called the Chomsky Normal Form (CNF), according to which any rule in R is either A → B C or A ∈ b, where A, B and C are non-terminals and b is a terminal. The rewriting of XML annotations requires the binarization of source ranked trees, often followed by an extension of the nonterminal set and the underlying set of rules. This is a consequence of rewriting nodes with multiple children as a sequence of binary nodes. The binarization rewrites any rule A → B C D as two rules A → BP and P → C D, where P is a new non-terminal. A PCFG defines a joint probability distribution over Y , a random variable over all possible sequences of terminals, and D, a random variable over all possible parses. Y and D are clearly not independent, because a complete parse specifies exactly one or few terminal sequences. We define the function p(y, d) of a given terminal sequence y ∈ Y and a parse d ∈ D as the product of the p values for all of the rewriting rules R(y, d) used in S ⇒ y. We also consider the case where d does not actually correspond to y, p(y, d) =  Q r∈R(y,d) p(r), 0, if d is a parse of y otherwise. The values of p are in the closed interval [0; 1]. In the cases where d is a parse of y, all p(r) values in the product will lie in the half open interval (0; 1], and so will the 5 CAp 2005 product. In the other case, 0 is in [0; 1] too. However, it is not always the case that P p(y, d) = 1. d,y The training of a PCFG takes as evidence the corpus of terminal sequences y with corresponding parses d from the training set S. It associates with each rule an expected probability of using the rule in producing the corpus. In the presence of parses for all terminal sequences, each rule probability is set to the expected count normalized so that the PCFG constraints (4) are satisfied: count(A → α) . A→β∈R count(A → β) p(A → α) = P 3.1 Generalized probabilistic parsing PCFGs are used as probabilistic models for natural languages, as they naturally reflect the “deep structure” of language sentences rather than the linear sequences of words. In a PCFG language model, a finite set of words serve as a terminal set and production rules for non-terminals express the full set of grammatical constructions in the language. Basic algorithms for PCFGs that find the most likely parse d for a given sequence y or choose rule probabilities that maximize the probability of sentence in a training set, represent (Lari & Young, 1990) efficient extensions of the Viterbi and Baum-Welsh algorithms for hidden Markov models. The tree annotation model processes sequences of observations x = {x1 , . . . , xn } from the infinite set X, where the observations xi are not words in a language (and therefore terminals in T ) but complex instances, like HTML leaves or groups of leaves. Content fragments are frequently targeted by various probabilistic classifiers that produce probability Pestimates for labeling an observation with a terminal in T , p(y|xi ), y ∈ T , where y p(y|xi ) = 1. The tree annotation problem can therefore be seen as a generalized version of probabilistic context-free parsing, where the input sequence is given by the probability distribution over a terminal set and the most probable annotation tree requires maximizing the joint probability in (3). A similar generalization of probabilistic parsing takes place in speech recognition. In the presence of a noisy channel for speech streams, parsing from a sequence of words is replaced by parsing from a word lattice, which is a compact representation of a set of sequence hypotheses, given by conditional probabilities obtained by special acoustic models from acoustic observations (Hall & Johnson, 2003). 4 Content classifier To produce terminal estimates for the observations xi , we adopt the maximum entropy framework, according to which the best model for estimating probability distributions from data is the one that is consistent with certain constraints derived from the training set, but otherwise makes the fewest possible assumptions (Berger et al., 1996). The distribution with the fewest possible assumptions is one with the highest entropy, and closest to the uniform distribution. Each constraint expresses some characteristic of the training set that should also be present in the learned distribution. The constraint is 6 based on a binary feature, it constrains the expected value of the feature in the model to be equal to its expected value in the training set. One important advantage of maximum entropy models is their flexibility, as they allow the extension of the rule system with additional syntactic, semantic and pragmatic features. Each feature f is binary and can depend on y ∈ T and on any properties of the input sequence x. In the case of tree annotation, we include the content features that express properties on content fragments, like f1 (x, y) =“1 if y is title and x’s length is less then 20 characters, 0 otherwise”, as well as the structural and layout features that capture the HTML context of the observation x, like f2 (x, y)=“1 if y is author and x’s father is span, 0 otherwise”. With the constraints based on the selected features f (x, y), the maximum entropy method attempts to maximize the conditional likelihood of p(y|x) which is represented as an exponential model: ! X 1 exp λα · fα (x, y) , (5) p(y|x) = Zα (x) α where Zα (x) is a normalizing factor to ensure that all the probabilities sum to 1, ! X X Zα (x) = exp λα fα (x, y) . y (6) α For the iterative parameter estimation of the Maximum Entropy exponential models, we have selected one of the quasi Newton methods, namely the Limited Memory BFGS method, which is observed to be more effective than the Generalized Iterative Scaling (GIS) and Improved Iterative Scaling (IIS) for NLP and information extraction tasks (Malouf, 2002). 5 Sequential tree annotation We use pairs (x, y) from triples (x, y, d) of the training set S to train the content classifier C and pairs (y, d) to choose rule probabilities that maximize the likelihood for the instances in the training set. C predicts the terminal probabilities p(y|x) for any observation x, while the inside-outside algorithm can find the parse d of the highest probability for a given terminal sequence y. By analogy with speech recognition, there exists a naive, sequential method to combine the two components C and G for computing a tree annotation for sequence x. First, from C’s estimates p(y|x), we determine the (top k) most probable sequences ymax,j for x, j = 1, . . . , k. Second, we find the most probable parses for all ymax,j , dmax,j = argmax p(d|ymax,j , G); and finally, we choose the pair (ymax,j , dmax,j ) d that maximizes the product p(ymax,j ) × p(dmax,j ). The sequential method works well if the noise level is low (in speech recognition) or if the content classifier (in the tree annotation) is accurate enough in predicting terminals y for xi . Unfortunately, it gives poor results once the classifier C is far from 100% 7 CAp 2005 accuracy in y predictions, as it faces the impossibility of finding any parse for all the top k most probable sequences ymax,j . Example. Consider an example target schema given by the following DTD: <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT <!ELEMENT Book Section author title para footnote (author, Section+)> (title, (para | footnote)+)> (#PCDATA)> (#PCDATA)> (#PCDATA)> (#PCDATA)> The reduction of the above schema definition to the Chomsky Normal Form will introduce extra non-terminals, so we get the PCFG G = (T, N, S, R), where the terminal set is T ={author, title, para, footnote}, the nonterminal set is N = {Book, Author, SE, Section, TI, ELS, EL}, S= Book, and R includes twelve production rules. Assume that we have trained the content classifier C and the PCFG G and have obtained the following probabilities for the production rules in R: (0.3) Book → AU Section (0.4) SE → Section Section (0.8) Section → TI ELS (0.4) ELS → EL EL (1.0) AU → author (0.8) EL → para (0.7) Book → AU SE (0.6) SE → Section SE (0.2) Section → TI EL (0.6) ELS → EL ELS (1.0) TI → title (0.2) EL → footnote. Assume now that we test the content classifier C and PCFG G on a sequence of five unlabeled observations x = {x1 , . . . , x5 }. Let the classifier C estimate the probability for terminals in T as given in the following table: author title para footnote x1 0.3 0.4 0.1 0.2 x2 0.2 0.4 0.2 0.2 x3 0.1 0.3 0.5 0.1 x4 0.1 0.3 0.2 0.4 x5 0.2 0.3 0.2 0.2 According to the above probability distribution, the most probable terminal sequence ymax is composed of the most probable terminals for all xi , i = 1, . . . , 5. It is ’title title para footnote title’ with probability p(ymax ) = p(ymax |x) = Πi · p(yimax |xi ) = 0.4 · 0.4 · 0.5 · 0.4 · 0.3 = 0.0096. However, ymax has no corresponding parse tree in G. Instead, there exist two valid annotation trees for x, (y1 , d1 ) and (y2 , d2 ), as shown in Figure 2. In Figure 2.b, the terminal sequence y2 =‘author title para title para’ with the parse d2 =Book(AU SE(Section (TI EL) Section (TI EL))) maximizes the joint probability p(y, d|x, G), with p(y2 ) = 0.3 · 0.4 · 0.5 · 0.3 · 0.2 = 0.0036, and p(d2 )=p(Book → AU SE) · p(AU → author) × p(SE → Section Section) · p(Section → TI EL) × 8 p(TI → title) · p(TI → title) × p(EL → para) · p(EL → para) × p(Section → TI EL) =0.7 · 1.0 · 0.4 · 0.2 · 1.0 · 1.0 · 0.8 · 0.8 · 0.2 = 0.007172. Jointly, we have p(y2 ) × p(d2 ) ≈ 2.58 · 10−5 . Similarly, for the annotation tree in Figure 2.a, we have p(y1 ) × p(d1 ) = 0.0048 · 0.0018432 ≈ 8.85 · 10−6 . a) b) Book Book Section SE ELS ELS AU TI EL EL Section AU EL y2 author x x1 y1 author title para footnote para x x1 x2 x3 x4 x5 TI EL title para x2 x3 Section TI EL title para x4 x5 Figure 2: Tree annotations for the example sequence. 6 The most probable annotation tree As the sequential method fails to find the most probable annotation tree, we try to couple the selection of terminal sequence y for x with finding the most probable parse d for y, such that (y, d) maximizes the probability product p(d|y, G)·p(y|x) in (3). To this end, we extend the basic inside-outside algorithm for terminal PCFGs (Lari & Young, 1990). It is a dynamic programming algorithm which is efficient at calculating the best parse tree which yields a given sentence of the PCFG. As in the Viterbi algorithm where only the forward function may be used, we may only use the inside probability. We redefine the inside probability as the most probable joint probability of the subsequence of y beginning with index i and ending with index j, and the most probable partial parse tree spanning the subsequence yij and rooted at nonterminal A: βA (i, j) = maxA,yj p(Ai,j ⇒ yij ) · p(yij |x). (7) i The inside probability is calculated recursively, by taking the maximum over all possible ways that the nonterminal A could be expanded in a parse, βA (i, j) = maxi≤q≤j p(A → BC) · p(B ⇒ yiq ) × j p(C ⇒ yq+1 ) · p(yij |x). To proceed further, we make the independence assumption about p(y|x), meaning j that for any q, i ≤ q ≤ j, we have p(yij |x) = p(yiq |x) · p(yq+1 |x). Then, we can rewrite the above as follows 9 CAp 2005 βA (i, j) = maxi≤q≤j p(A → BC) · p(B ⇒ yiq ) × j yq+1 ) p(yiq |x) j |x) p(yq+1 p(C ⇒ · · = maxi≤q≤j p(A → BC) · βB (i, q) · βC (q + 1, j) (8) (9) (10) The recursion is terminated at the βS (1, n) which gives the probability of the most likely tree annotation (y, d), βS (1, n) = max p(S ⇒ y1n ) · p(y1n |x), where n is the length of both sequences x and y. The initialization step requires some extra work, as we should select among all terminals in T being candidates for yk : βA (k, k) = maxyk p(A → yk ) · p(yk |x). (11) It can be shown that the redefined inside function converges to a local maximum in the (Y, D) space. The extra work during the initialization step takes O(n · |T | · |N |) time which brings the total complexity of the extended IO algorithm to O(n3 · |N | + n · |T | · |N |). The independence assumption established above represents the terminal conditional Qn independence, p(y|x) = i=1 p(yi |x) and matches the Naive Bayes assumption. The assumption is frequent in text processing; it simplifies the computation by ignoring the correlations between terminals. Here however it becomes a requirement for the content classifier. In other words, as far as the PCFG is assumed to capture all (shortand long- distance) relations between terminals, the extended inside algorithm (10)(11) imposes the terminal conditional independence when building the probabilistic model. This directly impacts the feature selection for the maximum entropy model, by disallowing features that include terminals of neighbor observations yi−1 , yi+1 , etc, as in the maximum entropy extension with HMM and CRF models (McCallum et al., 2000; Lafferty et al., 2001). 7 Experimental results We have tested our method for XML annotation on two collections. One is the collection of 39 Shakespearean plays available in both HTML and XML format.1 60 scenes with 17 to 189 leaves were randomly selected for the evaluation. The DTD fragment for scenes consists of 4 terminals and 6 non-terminals. After the binarization, the PCFG in CNF contains 8 non-terminals and 18 rules. The second collection, called TechDoc, includes 60 technical documents from repair manuals. 2 The target documents have a fine-grained semantic granularity and are much deeper than in the Shakespeare collection; the longest document has 218 leaves. 1 http://metalab.unc.edu/bosak/xml/eg/shaks200.zip. 2 Available from authors on request. 10 Method ME MEMM Seq-ME-PCFG Jnt-ME-PCFG Jnt-MEMM-PCFG TechDoc TER NER 86.23 – 78.16 – 86.23 9.38 87.59 72.95 75.27 56.25 Shakespeare TER NER 100.0 – 99.91 – 100.0 82.87 99.97 99.79 98.09 94.01 Table 1: Evaluation results. The target schema is given by a complex DTD with 27 terminals and 35 nonterminals. The binarization increased the number of non-terminals to 53. For both collections, a content observation refers to a PCDATA leaf in HTML. To evaluate the annotation accuracy, we use two metrics. The terminal error ratio (TER) is similar to the word error ratio used in natural language tasks; it measures the percentage of correctly determined terminals in test documents. The second metric is the non-terminal error ratio (NER) which is the percentage of correctly annotated sub-trees. As content classifiers, we test with the maximum entropy (ME) classifier which gives us the best results and is the most convenient to use all kind of features. For the ME model, we extract 38 content features for each observation, such as the number of words in the fragment, its length, POS tags, textual separators, etc. Second, we extract 14 layout and structural features include surrounding tags and all associated attributes. Beyond the ME models, we use the maximum entropy Markov models (MEMM) which extends the ME with hidden Markov structure and terminal conditional features (McCallum et al., 2000). The automaton structure used in MEMM has one state per terminal. In all tests, a cross-validation with four folds is used. ME and MEMM were first tested alone on both collections. The corresponding TER values for the most probable terminal sequences ymax serve a reference for methods coupling the classifiers with the PCFG. When coupling the ME classifier with the PCFG, we test both the sequential and joint methods. Additionally, we included a special case MEMM-PCFG where the content classifier is MEMM and therefore the terminal conditional independence is not respected. The results of all the tests are collected in Table 1. The joint method shows an important advantage over the sequential method, in particular in the TechDoc case, where the ME content classifier alone achieves 86.23% accuracy and the joint method reduces the errors in terminals by 1.36%. Instead, coupling MEMM with the PCFG reports a decrease of TER values and a much less important NER increase. 11 CAp 2005 8 Relevant Work Since the importance of semantic annotation of documents has been widely recognized, the migration of documents from rendering-oriented formats, like PDF and HTML, toward XML has become an important research issue in different research communities (Christina Yip Chung, 2002; Curran & Wong, 1999; Kurgan et al., 2002; Saikat Mukherjee, 2003; Skounakis et al., 2003a). The majority of approaches either constrain the XML conversion to a domain specific problem, or make different kinds of assumptions about the structure of source and target documents. In (Saikat Mukherjee, 2003), the conversion method assumes that source HTML documents are dynamically generated through a form filling procedure, as in Web news portals, while a subject ontology available on the portal permits the semantic annotation of the generated documents. Transformation-based learning is used for automatic translation from HTML to XML in (Curran & Wong, 1999). It assumes that source documents can be transformed into target XML documents through a series of proximity tag operations, including insert, replace, remove and swap. The translation model trains a set of transformation templates that minimizes an error driven evaluation function. In document analysis research, Ishitani in (Skounakis et al., 2003a) applies OCRbased techniques and the XY-cut algorithm in order to extract the logical structure from page images and to map it into a pivot XML structure. While logical structure extraction can be automated to a large extent, the mapping from the pivot XML to the target XML schema remains manual. In natural language tasks, various information extraction methods often exploit the sequential nature of data to extract different entities and extend learning models with grammatical structures, like HMM (McCallum et al., 2000) or undirected graphical models, like Conditional Random Fields (Lafferty et al., 2001). Moreover, a hierarchy of HMMs is used in (Skounakis et al., 2003b) to improve the accuracy of extracting specific classes of entities and relationships among entities. A hierarchical HMM uses multiple levels of states to describe the input on different level of granularity and achieve a richer representation of information in documents. 9 Conclusion We propose a probabilistic method for the XML annotation of semi-structured documents. The tree annotation problem is reduced to the generalized probabilistic contextfree parsing of an observation sequence. We determine the most probable tree annotation by maximizing the joint probability of selecting a terminal sequence for the observation sequence and the most probable parse for the selected terminal sequence. We extend the inside-outside algorithm for probabilistic context-free grammars. We benefit from the available tree annotation that allows us to extend the inside function in a rigorous manner, and avoid the extension of the outside function which might require some approximation. The experimental results are promising. In future work, we plan to address different challenges in automating the HTML-to-XML conversion. We are particularly interested 12 in extending the annotation model with the source tree structures that have been ignored so far. 10 Acknowledgement This work is partially supported by VIKEF Integrated Project co-funded by the European Community’s Sixth Framework Programme. References B ERGER A. L., P IETRA S. D. & P IETRA V. J. D. (1996). A maximum entropy approach to natural language processing. Computational Linguistics, 22(1), 39–71. C HRISTINA Y IP C HUNG , M ICHAEL G ERTZ N. S. (2002). Reverse engineering for web data: From visual to semantic structures. In 18th International Conference on Data Engineering (ICDE’02), San Jose, California. C URRAN J. & W ONG R. (1999). Transformation-based learning for automatic translation from HTML to XML. In Proceedings of the Fourth Australasian Document Computing Symposium (ADCS99). H ALL K. & J OHNSON M. (2003). Language modeling using efficient best-first bottomup parsing. In IEEE Automatic Speech Recognition and Understanding Workshop, p. 220–228. K URGAN L., S WIERCZ W. & C IOS K. (2002). Semantic mapping of XML tags using inductive machine learning. In Proc. of the 2002 International Conference on Machine Learning and Applications (ICMLA’02), Las Vegas, NE, p. 99–109. L AFFERTY J., M C C ALLUM A. & P EREIRA F. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proc. 18th International Conf. on Machine Learning, p. 282–289: Morgan Kaufmann, San Francisco, CA. L ARI K. & YOUNG S. J. (1990). The estimation of stochastic context-free grammars using the inside-outside algorithm. Computer Speech and Language, 4, 35–56. M ALOUF R. (2002). A comparison of algorithms for maximum entropy parameter estimation. In Proc. 6th Conf. on Natural Language Learning, p. 49–55. M C C ALLUM A., F REITAG D. & P EREIRA F. (2000). Maximum entropy Markov models for information extraction and segmentation. In Proc. 17th International Conf. on Machine Learning, p. 591–598: Morgan Kaufmann, San Francisco, CA. N EVEN F. (2002). Automata Theory for XML Researchers. SIGMOD Record, 31(3), 39–46. PAPAKONSTANTINOU Y. & V IANU V. (2000). DTD Inference for Views of XML Data. In Proc. of 19 ACM Symposium on Principles of Database Systems (PODS), Dallas, Texas, USA, p. 35–46. S AIKAT M UKHERJEE , G UIZHEN YANG I. R. (2003). Automatic annotation of content-rich web documents: Structural and semantic analysis. In International Semantic Web Conference. S KOUNAKIS M., C RAVEN M. & R AY S. (2003a). Document transformation system from papers to xml data based on pivot document method. In Proceedings of the 7th International Conference on Document Analysis and Recognition (ICDAR’03), Edinburgh, Scotland., p. 250– 255. 13 CAp 2005 S KOUNAKIS M., C RAVEN M. & R AY S. (2003b). Hierarchical hidden markov models for information extraction. In Proceedings of the 18th International Joint Conference on Artificial Intelligence, Acapulco, Mexico. 14 Constrained Sequence Mining based on Probabilistic Finite State Automata ⋆ Stéphanie Jacquemont, François Jacquenet, Marc Sebban Equipe de Recherche en Informatique de Saint-Etienne Université Jean Monnet, 23 rue du Dr. Paul Michelon, 42023 Saint-Etienne Cedex 2 {jacqstep,jacquene,sebbanma}@univ-st-etienne.fr Résumé : Dans ce papier, nous présentons un nouvel algorithme de sequence mining ayant la particularité d’extraire des patterns fréquents sous contraintes à partir d’un automate probabiliste (PDFA). Alors que les PDFAs ont été très peu étudiés jusqu’à présent dans le domaine du sequence mining, nous montrons dans cet article l’avantage d’exploiter une telle représentation condensée, apprise à partir des données, plutôt que de manipuler les séquences elles-mêmes, souvent très (trop) nombreuses. Nous proposons deux types de contraintes afin d’extraire du PDFA des patterns spécifiques permettant ainsi de réduire considérablement l’espace de recherche. Les expériences menées sur des bases de données artificielles et réelles montrent l’efficacité de notre approche. Mots-clés : sequence mining, automates probabilistes, contraintes. 1 Introduction The sequence mining task consists in finding patterns, i.e sequences of events shared in a database by a large number of instances which can take the form of texts, DNA sequences, web site usage logs, etc. By automatically extracting such frequent patterns, one aims at discovering useful knowledge, for example about a particular disease, customer behaviors, network alarms, web site access strategies, etc (Han et al., 2002). We say that a sequential pattern w is frequent if the number of sequences of the database that contain w (called support or frequency) is greater than a threshold given by the user (called the minimal support) (Agrawal & Srikant, 1995). In such a context, many sequence mining algorithms have been proposed during the last decade (Agrawal & Srikant, 1995; Srikant & Agrawal, 1996; Mannila et al., 1997; Zaki, 1998). However, over the past few years two new trends seem to independently emerge. The first one concerns the way the database is scanned while discovering frequent patterns among millions of sequences. Some works have been done, for example (Han ⋆ This work was supported in part by the IST Programme of the European Community, under the PASCAL Network of Excellence, IST-2002-506778, and by the ACI Masses de Données 2004 Bingo. This publication only reflects the authors’ views. 15 CAp 2005 et al., 2000; Pei et al., 2001), in order to build a subtile representation of the database to avoid multiple naive scannings of it. However, in case of huge databases, this exact representation of sequences requires all the same high computational and storage costs. Then, rather than building a costly exact representation of the data, an other solution would consist in learning a more compact summary of the database in the form of a generative model, such as a grammar or an automaton. This idea of using a learned and generalized representation of the sequences has been proposed in (Hingston, 2002). Hingston shows how one can use a probabilistic deterministic finite automata (PDFA) for providing answers efficiently to queries of sequence mining algorithms about frequencies of patterns. He also proposes a sequence mining algorithm for extracting frequent patterns by analyzing the transitions of the PDFA. In this paper, we also claim that a learned PDFA is a suitable and relevant representation of the sequence database to extract knowledge. We provide here interesting improvements of Hingston’s approach by introducing constraints on the frequent sequences extracted from a PDFA. This concept of constraint is a second current trend in sequence mining. Actually, despite the use of minimal support tuned by the user (that is in practice a tricky task), an unconstrained search can produce millions of patterns or may even be intractable. A new recent strategy consists in extracting frequent patterns under constraints: length and width restrictions, minimum or maximum gap between sequence elements, time window of occurrence (Zaki, 2000), or regular expressions (Garofalakis et al., 2002) (see also (Pei et al., 2002)). Moreover, as Zaki claims in (Zaki, 2000), there exist many domains (such as in bio-informatics) where the user may be interested in interactively adding syntactic constraints on the mined sequences. In this paper, we introduce two new constraints that we adapt to the specific context of PDFAs. The first belongs to the same family of constraints as the one of time window proposed in (Zaki, 2000), and consists in extracting only frequent sequences which begin after a given prefix length. To take into account this constraint in the computation of probability estimates, we propose an extension of Hingston’s formulae. The second constraint on the extracted frequent sequences is based on their statistical relevance. Roughly speaking, we mean that a frequent sequence does not always express a significant information: frequent does not mean relevant? Let us take a simple example for describing that. Two series of experiments A and B are carried out by tossing a coin respectively 10 and 10000 times. Let us assume we obtain respectively 8 and 8000 tails (and of course 2 and 2000 heads), resulting in two databases of 10 and 10000 sequences (of only one event). We fix the minimal support to 70%, i.e. respectively 7 and 7000 sequences. In such a context, the sequence tails is frequent in both databases. Does it mean that the knowledge “tails is frequent in A with a support of 80%” expresses the same information than “tails is frequent in B with a support of 80%”? Absolutely not. Actually, while it is highly probable, with a non-unbalanced coin, to obtain more than 70% of tails over 10 trials, this event is so improbable over 10000 trials, that it could lead to challenge the balance of the coin itself. We see that for two same frequent patterns deduced from the same relative support, the extracted knowledge (and its consequences !) is very different. Since tuning the minimal support is a tricky task, we propose to contrain a frequent sequence to be also statistically relevant. We introduce in this paper a statistical test-based approach that we adapt to sequence 16 Constrained Sequence Mining mining from PDFA. The rest of this paper is organized as follows. First, after a presentation of the advantages of an automaton-based sequence mining algorithm, we describe Hingston’s method. We carry out here a series of experiments that shows the efficiency of a PDFA for estimating true probabilities. In Section 3, we outline the main steps of our methodology by defining our constraints and combining them in a sequence mining algorithm. Section 4 deals with experiments, carried out using the algorithm ALERGIA (Carrasco & Oncina, 1994) for learning the PDFA, that show the efficiency of our approach. 2 On using PDFA for sequence mining 2.1 Advantages of an automaton-based approach Using a PDFA for mining sequences has not received wide attention. However, the advantages of using such a generalized representation of the sequences are undeniable. First, as we will see later, it allows us to extract frequent patterns by analyzing the paths of the automaton. However, we must make here an important remark concerning the kind of information we will be able to find from a PDFA. By definition, the problem of mining sequences is to find all frequent patterns in the database according to a given minimal support sup. However, by learning a generalized representation of data in the form of an automaton, and by mining it instead of the input sequences themselves, we can not claim that the extracted sequences occur exactly more than sup times in the database. In other words, since we use a probabilistic representation of the data, we can only ensure that the extracted sequences are probably frequent. Fortunately, if the size of the database is large enough, the probabilities estimated from the PDFA converge to the ones observed in the set of sequences. In this case, all the extracted sequences from the automaton will be also frequent in the database. To illustrate this phenomenon, we present in the next section some empirical results showing that, when the number of sequences increases, the estimated probabilities computed from the PDFA get closer to the ones issued from the database. Then, they can be used efficiency for discovering knowledge from PDFA. The second advantage of an automaton-based approach is directly linked to the previous remark. The fact that an learned PDFA is a generalized representation of the inputsequences, using it for sequence mining might result in the discovery of new knowledge. In other words, it is possible to extract patterns that do not occur in the database. This amazing phenomenon is due to the fact that the most of the learning algorithms (such as ALERGIA (Carrasco & Oncina, 1994) that we will use in our experiments) work with a state merging procedure, starting from a prefix tree acceptor and merging states that are judged statistically compatible. From a theoretical standpoint, if the database contains characteristic sequences, it is possible to prove that one can exactly learn the target distribution of the sequences (see theoretical results about learning in the limit (Oncina, 1992; Higuera, 1997)). Let us take a simple example from which one can discover interesting knowledge that does not occur in any sequence of the database. We asked a group of children to geometrically describe a square. We gave them an alphabet of five characteristics: A: four congruent sides, B: quadrilateral, C: polygon, D: four right angles, 17 CAp 2005 A: 4 congruent sides (2/6)D: 4 right angles (5/8) 0 B: quadrilateral (2/6) 1 E: parallelogram (3/8) 2 C: polygon (2/6) F IG . 1: An example of PDFA. Final states characterizing the end of a sequence are described with a double circle. The observed proportion of sequences which use each transition is indicated between parentheses. E: parallelogram. We obtained the 6 following necessary, but insufficient answers, to describe this shape, ordered according to the letters of their components: BD (quadrilateral and four right angles), CD (polygon and four right angles), AD (four congruent sides and four right angles), AE (four congruent sides and parallelogram), BDE (quadrilateral, four right angles and parallelogram), CDE (polygon, four right angles and parallelogram). Let us assume now that we have learned from these sequences the automaton shown in Figure 1. Beyond of the paths describing the 6 input-sequences, this generalized automaton expresses additional information. Assuming that no sequence uses more than one time the cycle of state 1, the automaton describes also the knowledge ADE (four congruent sides, four right angles and parallelogram), BE (quadrilateral and parallelogram) and CE (polygon and parallelogram). Among them, the first one is the only one which describes perfectly, i.e. with necessary and sufficient conditions, a geometrical square. Interestingly, we can observe than this knowledge is also the only one which has been used in part by input-sequences. In part means that ADE does not occur in the database, but some input sequences have followed the transitions AD, and others the transitions DE. We will see later that this information will be important for estimating the relevance of a frequent pattern. The model we are going to handle is then a PDFA, which can come from an expert knowledge or from a learning pre-process. Let us now more formally define a PDFA. Definition 1 A PDFA is a tuple A =< Q, Σ, q, q0 , π, πF > where: - Q is a finite set of states - Σ is the alphabet - q : Q × Σ → Q is an application called transition function - q0 is the initial state - π : Q × Σ × Q → [0, 1] is a probability function which associates at each transition its probability. - πF : Q → [0, 1] is a probability function which associates to each state S ∈ Q a probability to be final. - A must be deterministic, that means that ∀S ∈ Q, ∀z ∈ Σ, the cardinality of the set {x|q(S, z) = x} is bounded by 1. Since the automaton is deterministic, it results that the two first arguments of the func- 18 Constrained Sequence Mining b (0.348) 1 (0.0) b (0.468) a (0.54) a (0.532) a (0.314) 0 (0.338) 2 (0.0) b (0.46) F IG . 2: An example of PDFA. tion π are sufficient to characterize a transition, that means that π(S, z) will represent in the following the probability π(S, z, q(S, z)). Figure 2 shows an example of PDFA where Q = {0, 1, 2}, Σ = {a, b}, q(0, a) = 2 for instance, q0 = 0, and πF (0) = 0.338. 2.2 Related work As we said before, very few work has been done in automata-based sequence mining. As far as we know, the first main work in this domain is probably the one of Hingston (Hingston, 2002), which uses an Apriori-like system for mining sequences from PDFA . He claims that such a strategy can provide answers efficiently to queries about frequencies asked by sequence mining algorithms. One of the objectives of this paper aims at extending Hingston’s method to constrained sequence mining. For this reason, we now detail the main steps of his method, consisting in estimating the probability of occurrence of particular patterns. By combining them, it is possible to derive formulae to compute probabilities for any desired ordering of symbols and n-grams. 2.2.1 Estimation of the probability that a sequence contains a symbol x Given a PDFA A =< Q, Σ, q, q0 , π, πF >. To assess with p̂(x) the true proportion p(x) of sequences of the database that contain the letter x, Hingston defines first the probability P (S, x) that a random path in A starting from state S contains an x. This is ensured either if a path begins with an x (with probability π(S, x)), or if it begins with some other symbol z ∈ Q and is followed by a path starting at the next state (given by q(S, z)) containing an x. This can be written with the following recursive formula: X (π(S, z) × P (q(S, z), x)) (1) P (S, x) = π(S, x) + z6=x∈Σ which can be easily rewritten as follows:  X  P (S, x) = π(S, x) + T ∈Q X z6=x,q(S,z)=T  π(S, z) × P (T, x) (2) Obviously, if S = q0 , P (S, x) is exactly equal to p̂(x), i.e. the probability we are looking for 1 . Compute P (S, x) requires to solve a system of linear equations for which 1. Note that p̂(x) must only depend on prefixes that explains why the probabilities πF are not used here. 19 CAp 2005 Hingston proposes an efficient solution based P on matrix products. He defines the matrix ρ(x) whose components are ρS,T (x) = z6=x,q(S,z)=T π(S, z). Let P (x) be the vector of values of P (S, x) and π(x) the vector of values of π(S, x), ∀S. Equation 2 becomes: P (x) = π(x) + ρ(x)P (x) = (I − ρ(x))−1 π(x) (3) where I is the identity matrix. Since the matrix ρ(x) and the vector π(x) are directly built from the conditional probabilities of the PDFA, the computation of the vector P (x) becomes very easy to achieve. Example : Let us take again the PDFA of Figure 2 to explain these formulae. We aim at assessing with p̂(a) = P (0, a) the true proportion p(a) of sequences that contain the letter a. In this case, the vector π(a) has the following components π(0, a) = 0.314, π(1, a) = 0.532, π(2, a) = 0.54. For the matrix ρ(a), we get:   0 0.348 0  0 0 0.468 0.46 0 0 Computing (I − ρ(x))−1 , we get   1.081 0.376 0.176 0.233 1.081 0.506 0.498 0.173 1.081 We deduce that P (x) = (0.635, 0.921, 0.832) and that p̂(a) = P (0, a) = 0.635. The estimation of the proportion of sequences that contain an a is then equal to 0.635. 2.2.2 Estimation of the probability that a sequence contains a pattern xy Based on the same principle, Hingston shows that it is possible to estimate the proportion of strings that contain a bi-gram xy. Let P (S, xy) be the probability that a path starting at state S contains the bi-gram xy. One can derive as in the previous section: P (xy) = (I − ρ(x))−1 τ (xy) (4) where τ (xy) = π(S, x)π(q(S, x), y). It is also possible to assess the proportion of strings containing the symbol x, followed later by a y, noted P (S, < x, y >). This quantity can be split in two parts: – the proportion of strings that contain in a first part the symbol x. One must compute F (S, T, x) that corresponds to the probability that a random path starting at state S and ending at state T contains exactly one x, which is the last symbol on the path (for more details see (Hingston, 2002)), – the proportion of strings that, in a following part, contain a y (i.e. P (T, y)). P One can easily deduce that P (S, < x, y >) = T F (S, T, x)P (T, y). By combining P (S, x), P (S, xy) and P (S, < x, y >), one can derive formulae to compute probabilities for any desired ordering of symbols and n-grams. 20 Constrained Sequence Mining 0.14 [a-c] [a-f] [a-i] [a-c][a-c] [a-f][a-f] [a-i][a-i] Distance between both distributions 0.12 0.1 0.08 0.06 0.04 0.02 0 0 1000 2000 3000 Size of the database 4000 5000 6000 F IG . 3: Average difference between estimated and observed probabilities of patterns composed of one letter or one bi-gram (according to a given regular expression). 2.2.3 Experimental results Hingston claims, despite the fact that no empirical study has been done in (Hingston, 2002), that the estimates P (S, x), P (S, xy) and P (S, < x, y >) converge toward the true proportions in the database when the number of sequences increases. To assess the efficiency of a PDFA to correctly estimate these frequencies, we have implemented Hingston’s algorithm and carried out a series of experiments. The experimental setup was the following. We simulated a target distribution from a given alphabet Σ. In order to simplify, this theoretical distribution has been modelized in the form of an automaton with only one state and |Σ| output transitions. From this automaton, we generated by sampling learning sets in function of an increasing number of sequences (from 10 to 6000). For each of them, we learned a PDFA using ALERGIA (Carrasco & Oncina, 1994), and then we computed P (q0 , x) and P (q0 , < x, y >) 2 and compared them with the true frequencies p(x) and p(< x, y >) observed in the database. Figure 3 shows the behavior of the average difference between the estimated and the true frequencies. We can observe that in all cases the difference converges toward 0 while the size of the set of sequences increases. We can then confirm that, at the limit, a PDFA is able to correctly estimate the true proportion of patterns in the database. Before concluding this section, note that Hingston proposed a sequence mining algorithm using the previous estimates (for more details see (Hingston, 2002)). Moreover, his method has been efficiently used in a new classification rule induction algorithm proposed in (Psomopoulous et al., 2004) in the particular case of proteins, for which patterns are not ordered. Finally, we also dealt with the extraction of decision rules from non-probabilistic finite automata in (Jacquenet et al., 2004). However, this work was limited to the discovery of rules located at the end of the input-sequences. 2. Since the behavior of P (S, xy) follows the one of P (S, x), we did not carry out experiments for it. 21 CAp 2005 3 On using PDFA for constrained sequence mining In the following, we improve Hingston’s approach by constraining the sequence mining algorithm to discover particular frequent patterns. Two types of constraints are proposed. The first one allows us to discover frequent patterns according to a given prefix-length. This constraint is interesting in domains, such as in bio-informatics, where the location in the sequence (and not only the frequency) can express the meaning of the pattern. In order to take into account this constraint in a PDFA-based mining algorithm, and then to permit us the computation of the estimates, we must adapt Hingston’s formulae to this new framework. This is the goal of the following subsection. Then, we present our second constraint based on the statistical inference theory. This constraint aims at extracting among the frequent patterns only the ones that are statistically relevant. Adapted in this article to the context of PDFA, they can be obviously used by standard sequence mining algorithms. 3.1 A prefix length constraint We aim at modifying P (S, x) and P (S, xy) to take into account a prefix length constraint of size δ, that can result in an interesting reduction of the search space. Let us recall that P (S, x) (resp. P (S, xy)) is an estimation of the proportion of sequences that contain, from state S, the symbol x (resp. the bi-gram xy). We want to extend them respectively to P (S, x, δ) and P (S, xy, δ), i.e we are looking for the proportion of sequences that contain the symbol x (resp. the pattern xy) after a prefix of length δ. Note we will not extend the probability P (S, < x, y >), that explains why we did not enter in the previous section in the details of the calculation of the function F (S, T, x). We think that imposing a prefix length constraint in this context would not be relevant. Actually, in such frequent patterns, the most important information is that the symbol y occurs after (the location is here not important) the symbol x. 3.1.1 From P (S, x) to P (S, x, δ) First, we are interesting in converting P (S, x) into P (S, x, δ) for taking into account the constraint δ. A component P (S, x, δ) of the vector P (x, δ) corresponds to the proportion of sequences of the database containing the symbol x at a distance δ from the state S. Note that it means that x can also occur before the distance δ. Let us take again the example of Figure 2. If we assume that we are looking for the proportion P (0, a, 2) of sequences containing the letter a in third position, we can establish using Hingston’s notations that: P (0, a, 2) = = = π(0, b) × π(1, b) × π(2, a) + π(0, b) × π(1, a) × π(0, a) +π(0, a) × π(2, a) × π(1, a) + π(0, a) × π(2, b) × π(0, a) 0.348 × 0.468 × 0.54 + 0.348 × 0.532 × 0.314 +0.314 × 0.54 × 0.532 + 0.314 × 0.46 × 0.314 X π(0, z) × P (q(0, z), a, 1) = 0.282. z∈Σ 22 Constrained Sequence Mining Generalizing, and given a PDFA A =< Q, Σ, q, q0 , π, πF >, we get P (S, x, δ) = X π(S, z) × P (q(S, z), x, δ − 1) (5) z∈Σ which can be rewritten as follows  X X  P (S, x, δ) = T ∈Q z,q(S,z)=T  π(S, z) × P (T, x, δ − 1). (6) Since an x can also occur before the distance δ (that means that the constraint z 6= x does not exist), we can not use the matrix ρ(x) previously proposed by Hingston in Equation 3. Let us introduce the following matrix µ which is now independent of x. µS,T = X π(S, z). z,q(S,z)=T We can rewrite Equation 6 as P (S, x, δ) = X µS,T × P (T, x, δ − 1). (7) T ∈Q Let P (x, δ) be the vector of values of P (S, x, δ), Equation 7 becomes: P (x, δ) = µ × P (x, δ − 1). (8) This is a geometric series of common ratio µ and first term P (S, x, 0) = π(S, x). Writing π(x) for the vector of values of π(S, x), we obtain: P (x, δ) = µδ × π(x). (9) All the components of the matrices µ and π(x) are directly obtained from the conditional probabilities of the PDFA. Of course, as for Hingston, we are only interested in the case of S = q0 , which estimates the probability that a sequence contains a prefix of length δ before the occurence of x. As in Section 2.2.3, we carried out a series of experiments to verify if our extended formula P (S, x, δ) correctly estimates, for different values of δ, the observed frequencies in the database. Figure 4 shows that the convergence is reached very quickly. 3.1.2 From P (S, xy) to P (S, ω, δ) The second objective consists in extending the probability of occurrence of a bi-gram xy by taking into account the prefix-length constraint. In fact, we propose here to directly generalize to a pattern w, in the form of a n-gram, at a distance δ from S. Definition 2 A pattern w = (w1 , ..., wk ) is an ordered set of k symbols wi ∈ Σ, ∀i = 1, . . . , k. 23 CAp 2005 0.12 δ=0 δ=1 δ=2 δ=3 δ=4 δ=5 δ=6 δ=7 δ=8 δ=9 δ=10 Distance between both distributions 0.1 0.08 0.06 0.04 0.02 0 0 1000 2000 3000 Size of the database 4000 5000 6000 F IG . 4: Average difference, in function of the sequence set size, between estimated and observed probabilities of patterns composed of one letter, for different values of δ. First, we have to generalize the function τ (S, xy) (Equation 4) to a pattern w. We get, τ (S, w1 . . . wn ) = π(S, w1 ) × τ (q(S, w1 ), w2 . . . wn ). Then, X (π(S, z) × P (q(S, z), w, δ − 1)) (10) P (S, w, δ) = z∈Σ P (S, w, 0) = π(S, w1 ) × π(q(S, w1 ), w2 ) × . . . = τ (S, w) (11) Using exactly the same principle (with the matrix µ) as the one for a single letter, and using vectors, we get: P (w, δ) = µδ × τ (w) 3.2 Statistical relevance constraints After a first constraint based on a prefix length, we introduce in this section a second type of constraints based on the need of relevance of the extracted frequent patterns. As we saw in introduction with the example of a coin toss, a frequent pattern (according to a given minimal support) can be statistically irrelevant. We show here that the relevance can be assessed using statistical tests applied on the proportions estimated from the PDFA . In this section, we propose two statistical tests, that we call relevance constraints, to validate step by step the symbols of a relevant frequent pattern. The first relevance constraint allows us to verify a first absolute condition. Let w = (w1 ...wl ) be a current relevant pattern of size l in the PDFA, at a distance δ from the initial state. The relevance of an additional l + 1th symbol wl+1 will be ensured if the proportion of sequences that contain the pattern w′ = (w1 ...wl+1 ) at a distance δ from the initial state (estimated by P (q0 , (w1 ...wl+1 ), δ)) covers a significant part of the probability density of all sequences. The second constraint expresses a relative condition. Given a current relevant frequent pattern w = (w1 ...wl ) and an additional symbol wl+1 satisfying the first relevance 24 Constrained Sequence Mining constraint. The proportion of sequences that satisfy w at a distance δ from the initial state must be approximately the same as the one of the new pattern w′ = (w1 ...wl+1 ). According to the two previous conditions, we are going to define recursively the notion of relevance (of a symbol or of a pattern). For this reason, let us assume in the following that we have already a frequent and relevant pattern. 3.2.1 Relevance constraint of a symbol Definition 3 Let A be a PDFA in which the pattern w = (w1 ...wl ) is frequent and relevant at a distance δ from q0 . Let wl+1 be a new symbol which, concatenated with w, makes a new pattern w′ = (w1 ...wl+1 ). wl+1 is statistically relevant for w′ iff P (q0 , (w1 ...wl+1 ), δ) is significantly higher than 0, using a test of proportion. The notion of significance is defined by a test of proportion (called P ROPORTION T EST) aiming at verifying if P (q0 , (w1 ...wl+1 ), δ) is high enough, i.e. if the new resulting pattern w′ = (w1 ...wl+1 ) statistically covers a sufficient part of the probability density of the input-sequences. For simplifying the notations, let us consider, without any loss of generality, that P (q0 , (w1 ...wl+1 ), δ) = p̂(w′ , δ). We are interested in verifying if this estimate of the true proportion p(w′ , δ) (the proportion of input-sequences containing the pattern w′ after a prefix of length δ) is relevant. To achieve this task, we test the null hypothesis H0 : p(w′ , δ) = 0, against the alternative one Ha : p(w′ , δ) > 0. If the number of input-sequences is high enough, the statistic p̂(w′ , δ) asymptotically follows the normal law. We have then to determine the threshold k which defines the bound of rejection of H0 , and which corresponds to the (1 − α)-percentile (Uα )of the distribution of p(w′ , δ) under H0 . It is easy to show that P (p̂(w′ , δ) > k) = α iff r p̂(w′ , δ)(1 − p̂(w′ , δ)) k = Uα n where n represents the number of sequences in the database. The decision rule is the following: if p̂(w′ , δ) > k, the constraint of relevance of the symbol wl+1 is satisfied. Note that in the previous definition, we assumed that we had a current relevant frequent pattern w. Of course, from an algorithmic standpoint, we will initialize w, during a first step, to the empty string, w′ containing only the additional symbol wl+1 . Such a manner to proceed will allow us to find the first set of relevant patterns with the P RO PORTION T EST . Let us take an example. Figure 5 shows a PDFA with 6 states, where Σ = {a, b, c}, built from a set of 100 sequences. Given the pattern w′ = (a), and a given minimal support of 40%, w′ is then considered as frequent at a distance 0 from the initial state 0, because P (0, a, 0) > 0.4. Is its new (and unique here) component a also relevant? With a risk α = 2.5%, Uα = 1.96 and k = 0.088. Since P (0, a, 0) > k, the symbol a is relevant for the pattern w′ . Since w′ = (a), we can also deduce here that w′ is relevant. 3.2.2 Conditionally relevance constraint of a pattern However, we think that an unique constraint on each additional symbol is not sufficient to accept w′ = (w1 ...wl+1 ) as being a relevant pattern. Actually, we would like 25 CAp 2005 c (1.0) b (0.3) 0 2 a (0.1) 3 a (0.7) 1 b (0.8) 4 c (0.1) 5 F IG . 5: An example of PDFA with 6 states built from Σ = {a, b, c}. also to verify if there exists a statistical dependence in the PDFA between the previous pattern w = (w1 ...wl ) and the new one w′ = (w1 ...wl+1 ). Roughly speaking, we mean that the high majority of the sequences that contained w must also satisfy w′ . This is what we call a conditionally constraint. Definition 4 Let A be a PDFA in which the pattern w = (w1 ...wl ) is frequent and relevant at a distance δ from q0 . Let wl+1 be a new symbol which, concatenated with w, makes a new pattern w′ = (w1 ...wl+1 ). w′ is statistically relevant conditionally to w iff w′ is significantly dependent of w, using a Chi-Square test. This dependence can be assessed by analyzing the nature of all the different symbols occurring in the PDFA after the pattern w. Consider again the example of Figure 5 for which we have already validated the relevance of the pattern w′ = (a) at a distance δ = 0 from the initial state 0. According to the conditional probabilities of this PDFA, we could wonder if the pattern w′ = (ab) is also relevant. To deal with this problem, we must achieve two tasks. First, the P ROPORTION T EST must be run to verify if the additional symbol b is relevant for w′ . In this case, with α = 2.5% and Uα = 1.96, p̂(w′ , 0) = P (0, ab, 0) = π(0, a).π(1, b) = 0.56 and k = 0.083. Since p̂(w′ , 0) > k, the additional symbol b is relevant for w′ . Second, we must now verify if there exists a statistical dependence between w = (a) and w′ = (ab). In order to carry out this −−−−→ task, we generate an output vector Voutput of dimension m, where m corresponds to the number of different outgoing transitions from the states in which the last symbol −−−−→ −−−−→ wl of w ends. In our example, Voutput has three components Voutput (z), z = 1, ..., 3 because there is a set O = {a, b, c} of three outgoing transitions from the state 1. −−−−→ Each component Voutput (z) corresponds to the expected number of times the symbol z −−−−→ follows the pattern w in the database LS, that means that Voutput (z) = P (q0 , z, δ) × −−−−→ |LS|. We arrange the vector Voutput such that the considered symbol wl+1 (here b) is the first component of the vector (the order of the other components does not matter). −−−−→ In our example, Voutput = (56, 7, 7). −−−→ −−−−→ We aim now at testing the dependence between Voutput and an input vector Vinput for which the first component is the expected number of times the pattern w occures in −−−→ the database (the other components are null). Then, Vinput = (70, 0, 0). From the two −−−→ −−−−→ vectors Vinput and Voutput , we run a test of independence based on a Chi-square test 26 Constrained Sequence Mining (called C HI SQUARE X2 = T EST). We build the following statistic X 2 , such that: −−−−→ −−→ X [(− Vinput (z) − Ψ(z))2 + (Voutput (z) − Ψ(z))2 ] Ψ(z) z∈O −−−−→ − −−−−→ −−−−→ −−−→ V (z)+V (z) where Ψ(z) = input 2 output is the average vector of Vinput and Voutput . From a statistical standpoint, X 2 follows a Chi-square distribution with 2 × m − 1 degrees of freedom. It is then possible to test if X 2 is higher than Xα2×m−1 , which is the (1 − α)percentile of the Chi-square distribution. The decision rule is the following: if X 2 < Xα2×m−1 , the dependence between w and w′ is ensured and the conditionally relevant constraint is verifyied. By combining the two previous relevance constraints, we are now able to define what we call a frequent and relevant pattern. Definition 5 Let A be a PDFA in which the pattern w = (w1 ...wl ) is frequent and relevant at a distance δ from q0 . Let wl+1 be a new symbol which, concatenated with w, makes a new pattern w′ = (w1 ...wl+1 ). w′ is frequent and statistically relevant at a distance δ from q0 iff (i) P (q0 , w′ , δ) is higher than the minimal support, (ii) the new symbol wl+1 is statistically relevant for w′ and (iii) w′ is statistically relevant conditionally to w. 3.3 A new sequence mining algorithm Combining all the concepts we presented before, we propose a new sequence mining algorithm. It aims at discovering from a PDFA all frequent and statistically relevant patterns in the form of n-grams, according to a minimal support σ and a given prefix length constraint δ. Of course, we can also run it several times with different values of δ to avoid to have to fix in advance a given prefix length without any knowledge about the studied domain. Let us recall that our algorithm only extracts relevant frequent n-grams. However, it is possible to use our relevance constraints on the probabilities P (S, < x, y >) (with a possible gap between x and y) estimated in Hingston’s algorithm. The pseudo-code of our algorithm ACSM (for Automata-based Constrained Sequence Mining) is presented in Algorithm 1. During a first step (from lines 2 to 9), it initializes a first set G of relevant frequent patterns composed of only one symbol. Since no patterns have been extracted yet, only the support test (line 4) and the P ROPORTION T EST (line 5) are run. The paths of the PDFA that do not satisfy these two tests will not be studied anymore, that will allow us to dramatically reduce the search space. The second part of our algorithm tests additionnal symbols to search for larger frequent relevant patterns. In this case, three conditions must be satisfyed: the support test (lines 17), the P ROPORTION T EST (line 18) and the C HI SQUARE T EST (line 19). 4 Experimental results We experimentally observed in the previous sections the ability of a PDFA to correctly estimate the true proportions of patterns in a database. For this reason, the only main 27 CAp 2005 Algorithm 1: ACSM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Input: A PDFA A = (Q, Σ, q ,q0 , π, πF ), a support threshold σ, two risks α1 and α2 , δ a prefix length constraint Output: a set of relevant frequent patterns G begin G1 ← ∅ ; foreach l ∈ Σ do if P (q0 , l, δ) ≥ σ then if Proportion Test (P (q0 , l, δ), α1 ) is satisfied then G 1 ← G 1 ∪ lδ ; end end end G ← G1 ; n←1; while Gn 6= ∅ do Gn+1 ← ∅ ; foreach ω δ = (w1 ...wn )δ ∈ Gn do foreach l ∈ Σ do ω δ ← (w1 ...wn l)δ ; if P (q0 , ω δ , δ) ≥ σ then if Proportion Test (P (q0 , (ωn l), (δ + n − 1)), α1 ) is satisfied then −−−−→ − −−−− → if Chi square Test (Vinput , Voutput , α2 ) is satisfied then Gn+1 ← Gn+1 ∪ ω δ ; end end end end end G ← G ∪ Gn+1 ; n←n+1; end return G ; end goal of this section is to evaluate the effect of our constraints to reduce the number of extracted frequent patterns. We carried out various series of experiments from two databases. First, we used a real database which corresponds to the set of all female firstnames extracted from the french calendar (called F IRST NAME). Its size is deliberately not large, because we are above all interested, in a first series of experiments, in analyzing the behavior of our constraints on small datasets. Then, we used the synthetic sequence generator IBM DATAGEN 3 for generating a larger database (called S YND) containing 100000 sequences of average size 10 events. From F IRST NAME and S YND, we learned two PDFAs using ALERGIA. The first chart of Figure 6 shows the direct impact of our relevance constraints on the number of frequent patterns extracted from F IRST NAME. We applied our relevance tests on the estimates of Hingston’s algorithm. We observe that incorporating these constraints significantly decreases the number of extracted patterns. Note that when we apply both tests (here with α1 = 10% and α2 = 50%), the number of patterns drops dramatically. Without surprise, while the minimum support increases, the statistical relevance of the extracted patterns is more frequently validated, that explains that all the curves tend to join the one of Hingston. For the three remaining charts, we used our algorithm ACSM, which requires four 3. http://www.cs.rpi.edu/∼zaki/software/ 28 Constrained Sequence Mining σ = 0.01%, α1 = 15%, α2=15% Hingston α1=10% α2=50% α1=10%, α2=50% 300 Number of frequent patterns Number of frequent patterns 400 350 250 200 150 100 50 0 0 0.01 0.02 0.03 0.04 0.05 Minimum support (σ) 140 120 100 80 60 40 20 0 0 0.06 Number of frequent patterns Number of frequent patterns 1200 1000 σ=0.01% σ=0.03% σ=0.05% σ=0.1% 800 600 400 200 0 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 α1 for the proportion test 15 10 Prefix length (δ) 20 α1=100%, δ=0 α2=100%, δ=0 1400 5 0 1200 1100 1000 900 800 700 600 500 400 300 200 100 0.06 σ=0.01% σ=0.02% σ=0.03% σ=0.05% 0.05 0.04 0.03 0.02 0.01 α2 for the chi-square test 0 F IG . 6: Effect of minimum support, prefix length, and relevance constraints on the number of extracted patterns. parameters: σ, δ, α1 and α2 . The objective was to evaluate the effect of each constraint on the number of patterns extracted by our new system. The second chart shows the influence of the prefix length constraint in the case of F IRST NAME. We can see that strengthening this constraint leads to extracting a decreasing number of patterns. For this experiment we tested various values for σ, α1 and α2 and the various charts we got had always the same shape. The two remaining charts of Figure 6 shows the effects of the statistical relevance constraints on S YND. We tested the influence of the relevance constraint of a symbol without incorporating the conditionally relevance constraint of a pattern (i.e. fixing α2 to 100%) and reciprocally (fixing α1 to 100%). Firstly, we observe again that the stronger one of these constraints is (i.e. the lower the α1 or α2 parameter is), the more the number of extracted patterns decreases. Secondly, once again, we observe that the more the minimum support constraint increases, the more the relevance constraints become useless. 5 Conclusion In this paper, we have presented an automata-based approach for constrained sequence mining. We have seen that building a PDFA from the data and then mining that structure presents many advantages compared to more classic sequence mining tools that directly mine the sequences. Our framework extends the one of Hingston in several ways by incorporating a prefix length constraint and two statistical relevance constraints. The experiments we made have shown that those constraints lead to extracting less frequent patterns (but the most relevant ones!) which is really important for the users that are often overwhelmed by huge amount of useless patterns while mining data. We now want to focus on several points. First we would like to integrate other constraints 29 CAp 2005 in the ACSM algorithm. Then, we plan to study the impact of noisy data on the system and the way it deals with them. We also want to use it in the context of biological data in order to explore the power of our new constraints on such a field of applications. Références AGRAWAL R. & S RIKANT R. (1995). Mining sequential patterns. In ICDE ’95: Proceedings of the Eleventh International Conference on Data Engineering, p. 3–14: IEEE Computer Society. C ARRASCO R. C. & O NCINA J. (1994). Learning stochastic regular grammars by means of a state merging method. In Proceedings of ICGI’94, p. 139–152: Springer-Verlag. G AROFALAKIS M. N., R ASTOGI R. & S HIM K. (2002). Mining sequential patterns with regular expression constraints. IEEE Trans. on Knowledge and Data Eng., 14(3), 530–552. H AN J., A LTMAN R. B., K UMAR V., M ANNILA H. & P REGIBON D. (2002). Emerging scientific applications in data mining. Comm. of the ACM, 45(8), 54–58. H AN J., P EI J., M ORTAZAVI -A SL B., C HEN Q., DAYAL U. & H SU M.-C. (2000). Freespan: Frequent pattern-projected sequential pattern mining. In Proceedings of the International Conference on Knowledge Discovery and Data Mining, p. 355–359. H IGUERA C. D. L. (1997). Characteristic sets for polynomial grammatical inference. Mach. Learn., 27(2), 125–138. H INGSTON P. (2002). Using finite state automata for sequence mining. In Proceedings of the twenty-fifth Australasian conference on Computer science, p. 105–110. JACQUENET F., S EBBAN M. & VAL ÉTUDIE G. (2004). Mining decision rules from deterministic finite automata. In Proceedings of the 16th IEEE ICTAI, p. 362–367. M ANNILA H., T OIVONEN H. & V ERKAMO A. I. (1997). Discovery of frequent episodes in event sequences. Data Min. Knowl. Discov., 1(3), 259–289. O NCINA , J.; G ARC ÍA P. (1992). Identifying regular languages in polynomial time. World Scientific Publishing. Advances in Structural and Syntactic Pattern Recognition,. P EI J., H AN J., P INTO H., C HEN Q., DAYAL U. & H SU M.-C. (2001). Prefixspan: Mining sequential patterns efficiently by prefix-projected pattern growth. In Proceedings of the International Conference on Data Engineering, p. 215–224. P EI J., H AN J. & WANG W. (2002). Mining sequential patterns with constraints in large databases. In Proceedings of CIKM 2002, p. 18–25: ACM Press. P SOMOPOULOUS F., D IPLARIS S. & M ITKAS P. (2004). A finite state automata based technique for protein classification rules induction. In Second European Workshop on Data Mining and Text Mining in Bioinformatics, p. 58–64. S RIKANT R. & AGRAWAL R. (1996). Mining sequential patterns: Generalizations and performance improvements. In EDBT ’96: Proceedings of EDBT’96, p. 3–17: Springer-Verlag. Z AKI M. J. (1998). Efficient enumeration of frequent sequences. In Proceedings of CIKM’98, p. 68–75: ACM Press. Z AKI M. J. (2000). Sequence mining in categorical domains: incorporating constraints. In Proceedings of CIKM 2000, p. 422–429: ACM Press. 30 Définitions et premières expériences en apprentissage par analogie dans les séquences. Laurent Miclet, Sabri Bayoudh, Arnaud Delhay Projet Cordial, IRISA-ENSSAT 6 rue de Kerampont - BP 80518, F-22305 Lannion Cedex, France {miclet,bayoudh,delhay}@enssat.fr Résumé : Cet article donne une définition de l’analogie entre séquences fondée sur la distance d’édition et donne deux algorithmes (l’un rapide et approché, l’autre plus complexe, mais optimal) pour calculer la dissemblance analogique entre quatre séquences. Cette notion et ces algorithmes sont ensuite utilisés dans une expérience d’apprentissage sur une base de données artificielle, pour montrer la résistance au bruit de ce type d’apprentissage. Mots-clés : Séquences, Distance d’édition, Analogie, Apprentissage supervisé. 1 Introduction Cet article présente des définitions, des algorithmes originaux et quelques expériences dans le domaine de l’apprentissage non paramétrique (C ORNU ÉJOLS & M ICLET, 2002) dans l’univers des séquences. Le principe de l’apprentissage non paramétrique est de ne faire aucune hypothèse sur la distribution statistique des classes, ni d’utiliser d’éventuelles connaissances a priori. La technique la plus simple de ce domaine est celle de l’apprentissage par plus proche voisin, qui requiert seulement que l’on sache calculer au moins une ressemblance, au mieux une distance, entre les objets. A un objet extérieur à l’ensemble d’apprentissage, cette méthode attribue la classe de l’élément de l’ensemble d’apprentissage qui lui est le plus ressemblant. Dans la même famille, la technique de l’apprentissage par analogie fait appel à un argumentaire plus sophistiqué. Donnons-en un exemple intuitif. Soit la séquence de lettres cherchant, dont on veut apprendre la supervision ou la classe 1 ; supposons que dans l’ensemble d’apprentissage se trouvent les trois séquences : voler, volant, chercher, avec respectivement pour classes infinitif, participe présent, infinitif. On attribuera à cherchant la classe participe présent, par un raisonnement qui s’énonce 1. Le terme supervision est plus général que celui d’étiquette ou de classe, puisqu’il couvre aussi bien les cas de l’apprentissage de règles de classification, de la régression et le cas où la supervision est un objet strucuré, comme une séquence. 31 CAp 2005 informellement comme ceci. Puisque, dans l’univers des séquences voler est à volant comme chercher est à cherchant la supervision de cherchant est donc la solution de l’équation (dans l’univers des classes) : infinitif est à participe présent comme infinitif est à x d’où : x =participe présent Plan de l’article Cet article donne dans sa première partie des définitions pour les relations ✭✭ est à ✮✮ et ✭✭ comme ✮✮, fondées sur la distance d’édition entre séquences. Il définit la notion de dissemblance analogique entre quatre séquences, qui permet de quantifier de manière cohérente la relation ✭✭ comme ✮✮. Il propose deux algorithmes, l’un permettant de calculer une approximation de la dissemblance analogique, l’autre sa valeur exacte. Dans sa seconde partie, il propose aussi une première série d’expériences, sur des données artificielles, pour vérifier la validité de ces définitions et l’efficacité de ce type d’apprentissage, en particulier sa résistance au bruit. 2 L’analogie entre séquences 2.1 L’analogie et ses propriétés 2.1.1 Définition de l’analogie Le raisonnement par analogie a été longuement décrit et étudié depuis les philosophes grecs ; ses applications récentes intéressent en particulier les sciences cognitives (S HAVLIK & D IETTERICH, 1990; W ILSON & K EIL, 1999), la linguistique et l’intelligence artificielle. Lepage donne dans (L EPAGE, 2003) une histoire encyclopédique de ce concept et de ses applications à la science du raisonnement et à la linguistique. Le fait que quatre objets A, B, C et D sont en relation d’analogie s’énonce : “A est à B comme C est à D” Selon la nature des objets, la signification de cette relation varie. Par exemple, une analogie sur la sémantique de mots français est : “jument est à poulain comme vache est à veau” En revanche, la relation analogique suivante est purement morphologique : “abcd est à ecd comme abfab est à efab” Elle ne porte que sur la transformation des lettres dans des séquences : Pour transformer abcd en ecd, exactement comme pour transformer abfab en efab, il faut remplacer en début de séquence ab par e. 32 Apprentissage par analogie dans les séquences C’est à ce genre d’analogie dans les séquences que nous nous intéressons. Nous ne traitons pas les analogies du type : “ab est à abab comme abfg est à abfgabfg” ni “abc est à abd comme aababc est à aababcd” qui ont pourtant toutes les deux de bonnes raisons cognitives d’être considérées comme correctes. L’argument est purement opérationnel : nous utilisons une notion de ressemblance entre séquences qui ne traite pas naturellement ce type de relations. Notre approche est donc limitée du point de vue de la simulation du comportement cognitif. 2.1.2 Propriétés de l’analogie, équations analogiques. La relation d’analogie “A est à B comme C est à D” entre quatre objets sera désormais notée : A : B :: C : D Si un terme de la relation d’analogie est inconnu, on peut considérer qu’on est en présence d’une équation. Résoudre une équation analogique consiste à trouver une ou plusieurs valeurs à l’inconnue X pour vérifier la relation (ou à prouver qu’il n’y a pas de solution) : A : B :: C : X Classiquement, l’écriture de la relation analogique A : B :: C : D impose que deux axiomes 2 soient satisfaits. Ils s’expriment comme une équivalence entre la relation de départ et deux autres relations analogiques (L EPAGE & A NDO, 1996) : Symétrie de la relation comme : C : D :: A : B Echange des termes médians : A : C :: B : D On montre alors facilement que cinq autres équations analogiques se déduisent par équivalence de ces axiomes à partir de A : B :: C : D B : A :: D : C D : B :: C : A D : C :: B : A B : D :: A : C C : A :: D : B Au total, ces axiomes donnent donc pour équivalentes huit équations entre quatre objets. On peut imposer un autre axiome, le déterminisme qui exige que l’une des deux équations triviales suivantes n’ait qu’une seule solution 3 : A : A :: B : X A : B :: A : X ⇒ ⇒ X =B X =B On peut maintenant 4 , en se fondant sur les axiomes ci-dessus, donner une définition de la solution à une équation analogique : 2. L’axiome de symétrie, que nous qualifions de ✭✭ classique ✮✮ n’est pas dans tous les cas une propriété naturelle de l’analogie. Par exemple, (H OFSTADTER & the Fluid Analogies Research Group, 1994) donne les deux analogies sur les séquences, dans l’alphabet de l’anglais : “bcd est à bce comme xyz est à wyz” et “xyz est à wyz comme bcd est à acd”. Le premier cas, puisque la lettre z n’a pas de successeur, fait appel à un ✭✭ effet de rebond ✮✮. Le second se résoud naturellement en utilisant l’ordre des lettres. Mais comme nous utilisons une notion de distance (symétrique) dans les alphabets, nous l’étendons naturellement à la distance entre séquences et à la relation ✭✭ comme ✮✮. 3. L’autre équation en est une conséquence. 4. Il y a 24 façons d’arranger quatre objets en une équation analogique, qui se réduisent à trois classes d’équivalences dont les représentants sont par exemple : A : B :: C : D , A : B :: D : C et A : C :: D : B 33 CAp 2005 Définition 1 X est une solution correcte de l’équation analogique A : B :: C : X solution de cette équation et est aussi une solution des deux équations : si X est une C : X :: A : B et A : C :: B : X Une équation analogique peut avoir zéro, une seule ou plusieurs solutions. 2.2 Une définition de l’analogie entre séquences par la distance d’édition : la dissemblance analogique. 2.2.1 La distance d’édition entre deux séquences. Soit Σ un ensemble fini appelé alphabet. Les lettres a, b, c, ... sont les éléments de Σ. On note u, v, . . . ou X, Y, . . . les éléments de Σ∗ , appelés séquences ou phrases ou mots. Une séquence u = u1 u2 . . . u|u| est une liste ordonnée de lettres de Σ ; sa longueur est notée |u|. ǫ, la séquence vide, est la séquence de longueur nulle. Si u = u1 u2 . . . u|u| et v = v1 v2 . . . v|v| , leur concaténation est uv = u1 u2 . . . u|u| v1 v2 . . . v|v| . Pour présenter la distance d’édition entre deux séquences, nous allons rappeller quelques notions et citer un théorème démontré dans (WAGNER & F ISHER, 1974). La première notion est celle d’édition de séquences. Elle est elle-même fondée sur trois opérations d’édition de lettres, ou transformations élémentaires : l’insertion d’une lettre dans une séquence, la suppression d’une lettre et la substitution d’une lettre à une autre lettre. A chacune de ces opérations est associé un coût, qui est en général la valeur d’une certaine distance δ sur (Σ ∪ {ǫ}) × (Σ ∪ {ǫ}). Nous notons Sa→b la substitution de a en b (de coût δ(a, b)), Sa→ǫ la suppression de a (de coût δ(a, ǫ)) et Sǫ→b l’insertion de b (de coût δ(ǫ, b)). La substitution (ǫ, ǫ) n’est pas considérée comme une opération d’édition. Le coût de l’édition d’une séquence est la somme des coûts de l’édition de ses lettres. L’édition d’une séquence de lettres permet donc de la transformer en une autre séquence de lettres par une séquence de transformations élémentaires, avec un certain coût. Par exemple, on peut passer de la séquence abc à la séquence cd avec la séquence de transformations élémentaires Sa→ǫ Sb→c Sc→d de coût δ(a, ǫ) + δ(b, c) + δ(c, d) ou avec la séquence de transformations élémentaires Sa→ǫ Sb→ǫ Sc→c Sǫ→d de coût δ(a, ǫ) + δ(b, ǫ) + δ(c, c) + δ(ǫ, d). Définition 2 Un alignement ou édition entre deux séquences u et v est une séquence de transformations élémentaires entre les lettres de u et de v . La distance d’édition D(u, v) entre deux séquences u et v est le coût de l’alignement de coût minimum parmi tous les alignements possibles entre les deux séquences. On représente un alignement par un tableau à deux lignes, une pour u et une pour v, chaque mot complété par des ǫ, les deux mots obtenus ayant la même longueur. Par exemple, voici les deux alignements précédents entre u = abc et v = cd : a | ǫ b | c c | d a | ǫ 34 b | ǫ c | c ǫ | d Apprentissage par analogie dans les séquences L’algorithme de Wagner et Fisher (WAGNER & F ISHER, 1974) , dans sa version complète, prend en entrée deux phrases u et v et produit en résultat l’alignement optimal, c’est à dire la séquence optimale de transformations élémentaires et bien sûr son coût (S ANKOFF & K RUSKAL, 1983). Nous notons S(u, v) cette séquence optimale 5. Une conséquence du calcul par programmation dynamique est le remarquable résultat suivant (C ROCHEMORE & et al., 2001), qui justifie le nom de distance d’édition: Théorème 1 Si δ vérifie les axiomes d’une distance 6 sur (Σ ∪ {ǫ}) alors D, la distance d’édition entre séquences calculée à partir de δ , vérifie aussi les axiomes d’une distance sur Σ∗ . 2.2.2 La relation ✭✭ est à ✮✮. Nous avons choisi de définir le terme u : v d’une analogie entre séquences comme leur alignement optimal, c’est à dire comme la séquence optimale de transformations calculée par l’algorithme de Wagner et Fisher. Ce choix permet de décrire précisément comment u se transforme en v : il modélise donc bien une relation ✭✭ est à ✮✮. Par exemple, pour la table de distances : δ a b c ǫ a 0 1.5 1.5 1 b 1.5 0 1.3 1 c 1.5 1.3 0 1 ǫ 1 1 1 1 la transformation optimale (ici unique) entre u = abbcc et v = bbbc est la séquence S(u, v) = Sa→ǫ Sb→b Sb→b Sc→b Sc→c de coût δ(a, ǫ) + δ(b, b) + δ(b, b) + δ(c, b) + δ(c, c) = 1 + 0 + 0 + 1.3 + 0 = 2.3 Nous posons donc que S(u, v) = Sa→ǫ Sb→b Sb→b Sc→b Sc→c définit ce que ✭✭ u est à v ✮✮. Nous avons déjà noté que cette transformation optimale peut ne pas être unique. Par exemple, en prenant une autre distance δ, telle que ∀a, b ∈ (Σ∪{ǫ}), a 6= b, δ(a, b) = 1, et ∀a ∈ Σ, δ(a, a) = 0, les transformations entre u = abbcc et v = bbbc Sa→ǫ Sb→b Sb→b Sc→b Sc→c de coût δ(a, ǫ) + δ(b, b) + δ(b, b) + δ(c, b) + δ(c, c) = 1 + 0 + 0 + 1 + 0 = 2 5. Elle peut ne pas être unique et nous traiterons ce problème un peu plus loin. Nous la supposons unique pour le moment. 6. Pour être exact, δ est une application de ((Σ ∪ {ǫ}) × (Σ ∪ {ǫ})) \ {(ǫ, ǫ)} dans R+ qui respecte les axiomes d’une distance. 35 CAp 2005 et Sa→b Sb→b Sb→b Sc→c Sc→ǫ de coût δ(a, b) + δ(b, b) + δ(b, b) + δ(c, c) + δ(c, ǫ) = 1 + 0 + 0 + 1 + 0 = 2 sont toutes les deux optimales. Nous reviendrons plus loin sur cette difficulté. 2.2.3 La relation ✭✭ comme ✮✮. Soit l’analogie u : v :: w : x . Nous connaissons désormais le terme u : v, qui est la séquence optimale S(u, v), supposée pour le moment unique, de transformations élémentaires entre u et v et nous connaissons aussi w : x qui est la séquence S(w, x). La relation ✭✭ exactement comme ✮✮. Examinons d’abord un exemple où la relation ✭✭ comme ✮✮ est l’identité, avant de la généraliser. Soit les séquences : u = abbccccb, v = bbbcccc, w = abbccaab et bbbcaac. Le calcul, sur la table des distances donnée pour l’exemple du paragraphe 2.2.2, donne : S(u, v) = Sa→ǫ Sb→b Sb→b Sc→b Sc→c Sc→c Sc→c Sb→c S(w, x) = Sa→ǫ Sb→b Sb→b Sc→b Sc→c Sa→a Sa→a Sb→c Il est naturel de mettre toutes les transformations élémentaires d’égalité, qui doivent être de coût nul, dans une même classe d’équivalence 7 notée Se . Nous obtenons alors : S(u, v) = Sa→ǫ Se Se Sc→b Se Se Se Sb→c S(w, x) = Sa→ǫ Se Se Sc→b Se Se Se Sb→c Dans cet exemple, puisque S(u, v) = S(w, x), la relation ✭✭ comme ✮✮ de l’équation analogique abbccaab : bbbcaac :: abbcaabb : bbbcaac est donc une identité. Ce cas particulier est à la base des algorithmes de résolution d’équations analogiques, pour lesquels u, v et w sont donnés et x est l’inconnue (L EPAGE, 2003; D ELHAY & M ICLET, 2004). Si nous voulons généraliser ce cas particulier, il nous faut définir complètement une distance ∆ entre transformations élémentaires. Nous pourrons alors poser la seconde partie de notre construction : La valeur de la relation ✭✭ comme ✮✮ est donnée par la distance d’édition, calculée à partir de ∆, entre S(u, v) et S(w, x). Nous cherchons donc maintenant à définir une distance ∆ entre transformations élémentaires sur un alphabet (Σ ∪ {ǫ}), lui-même muni d’une distance δ. 7. Ceci se justifie par le fait que, pour tout a et b, l’équation a : a :: b : b est exacte. 36 Apprentissage par analogie dans les séquences Des contraintes sur ∆. Pour être cohérent avec les axiomes de l’analogie et la remarque du paragraphe précédent, il faut imposer les conditions suivantes : – La distance entre deux opérations de transformation identiques est nulle. ∀a, b ∈ (Σ ∪ {ǫ}), ∆(Sa→b , Sa→b ) = 0 – Insérer ou supprimer des opérations d’égalités de lettres se fait à coût nul 8 . ∀a, b ∈ (Σ ∪ {ǫ}), ∆(−, Sa→a ) = ∆(Sa→a , −) = 0 – La distance entre deux transformations d’égalité est nulle. ∀a, b ∈ (Σ ∪ {ǫ}), ∆(Sa→a , Sb→b ) = 0 En effet, si l’une de ces propriétés n’était pas respectée, la distance d’édition obtenue à partir de ∆ sur quatre phrases en analogie exacte ne serait pas nulle. Une proposition pour la distance ∆. Nous proposons de définir ∆ par la formule suivante : ( δ(a, b) + δ(c, d) ∆(Sa→b , Sc→d ) = M in δ(a, c) + δ(b, d) Cette définition remplit les contraintes précédentes et assure que ∆ possède la propriété de l’inégalité triangulaire 9 : ∆(Sa→b , Sc→d ) + ∆(Sc→d , Se→f ) ≥ ∆(Sa→b , Se→f ). Cependant, on n’a pas : ∆(Sa→b , Sc→d ) = 0 ⇔ a : b :: c : d Fin de la construction de la relation ✭✭ comme ✮✮. Une fois définie la distance ∆ entre séquences d’opérations élémentaires, il est facile d’appliquer à nouveau l’algorithme de Wagner et Fisher avec ∆ sur le couple de séquences S(u, v) et S(w, x). Le coût obtenu quantifie la relation ✭✭ comme ✮✮. Définition 3 Nous appelons dissemblance analogique approchée 10 entre les phrases u, v , w et x, d v, w, x), le coût d’édition obtenu avec la distance ∆ entre S(u, v) et notée DA(u, S(w, x). Ces deux derniers termes représentent les deux séquences optimales 11 de transformations élémentaires entre u et v , d’une part, et entre w et x, d’autre part, obtenues avec la distance δ . 8. Le mot vide dans l’alphabet des transformations élémentaires est noté : ✭✭ − ✮✮ 9. Nous ne donnons pas la démonstration ici, faute de place. Elle est plutôt technique. 10. La nécessité de cet adjectif sera expliquée au paragraphe 2.2.4 11. Encore une fois, nous supposerons pour le moment ces séquences optimales uniques. 37 CAp 2005 Un exemple. Pour le tableau de distances : δ a b c ǫ a 0 1.2 1.5 2 b 1.2 0 1.7 2 c 1.5 1.7 0 2 ǫ 2 2 2 2 l’alignement optimal unique entre u = cbacba et v = babba (de valeur 3.7) est : u = v = c | ǫ b | b a | a c | b b | b a | a et celui, unique aussi, entre w = cbacbc et x = bcabbc (de valeur 5.1) est : w = x = c | b b | c a | a c | b b | b c | c et finalement la dissemblance approchée est calculée comme valant 3.7, par l’alignement optimal suivant selon la distance ∆ : S(u, v) = S(w, x) = Sc→ǫ | Sc→b Sa→a | Sa→a Sb→b | Sb→c Sc→b | Sc→b Sb→b | Sb→b Sa→a | Sc→c Le cas où les séquences d’opérations élémentaires ne sont pas uniques. Nous avons supposé jusqu’ici que, dans le calcul de la relation analogique entre séquences u : v :: w : x , l’algorithme de Wagner et Fisher produisait une solution unique avec la distance δ pour calculer l’alignement optimal S(u, v) entre u et v, comme S(w, x) entre w et x. Il est en principe facile de relâcher cette contrainte : notons ℵ(u, v) (respectivement ℵ(w, x)) l’ensemble des séquences de transformations élémentaires de coût optimal entre u et v (respectivement entre w et x). Nous pouvons définir l’exactitude de la relation ✭✭ comme ✮✮, c’est à dire la distance analogique approchée entre u et v d’une part, w et x d’autre part, comme le coût d’un alignement optimal entre deux séquences de transformations optimales, quand l’une parcourt ℵ(u, v) et l’autre parcourt ℵ(w, x). On effectue donc au pire |ℵ(u, v)| × |ℵ(w, x)| alignements entre séquences de transformations élémentaires. En pratique, il est possible de réduire les calculs, car les séquences de transformations optimales sont structurées en graphe sans cycle (S ANKOFF & K RUS KAL , 1983). Quelques problèmes avec la dissemblance analogique approchée. Pour être cohérent avec les axiomes de l’analogie, il serait souhaitable que l’on ait la même dissemblance analogique entre les huit quadruplets de séquences dont l’analogie 38 Apprentissage par analogie dans les séquences se déduit des axiomes, comme on l’a vu au paragraphe 2.1.2. Ce n’est en général pas le cas de la dissemblance analogique approchée (voir le paragraphe 2.2.4). C’est en particulier pour remédier à cette difficulté que nous allons voir dans le paragraphe suivant comment définir et calculer directement, sur les mêmes principes, ce que nous appelons la dissemblance analogique entre quatre séquences sur Σ, une notion complètement cohérente avec les axiomes de l’analogie et répondant de plus à un critère d’optimalité. 2.2.4 Construction simultanée de ✭✭ est à ✮✮ et de ✭✭ comme ✮✮. Dissemblance analogique entre quatre séquences. Les paragraphes précédents ont donné une construction qui permet de mesurer l’exactitude de la relation ✭✭ comme ✮✮, après que les séquences de transformations qui définissent les deux relations ✭✭ est à ✮✮ aient été construites. On peut se demander si cette construction en deux étapes est optimale : il pourrait exister une séquence de transformations S ′ (u, v), de coût supérieur à S(u, v), et une séquence S ′ (w, x), de coût supérieur à S(w, x), telles que la distance d’édition entre S ′ (u, v) et S ′ (w, x) soit inférieure à celle entre S(u, v) et S(w, x). d Reprenons l’exemple du paragraphe 2.2.3 : DA(cbacba, babba, cbacbc, bcabbc) = d en deux étapes séparées n’est en 3.7. Nous pouvons montrer que la construction de DA effet pas optimale. Il existe deux couples d’alignements entre u et v d’une part, w et x d’autre part, qui fournissent un meilleur résultat. Le premier n’est pas optimal (il a une valeur de 5.4), le second est l’alignement optimal (valeur de 5.1). c | b b | ǫ a | a c | b b | b a | a c | b b | c a | a c | b b | b c | c Leur alignement optimal par ∆ se fait comme suit pour une valeur de 2 : Sc→b | Sc→b Sb→ǫ | Sb→c Sa→a | Sa→a Sc→b | Sc→b Sb→b | Sb→b Sa→a | Sc→c Ceci amène la définition suivante : Définition 4 La dissemblance analogique DA(u, v, w, x) est le coût minimal de la distance d’édition calculée par la distance ∆ entre S ′ (u, v) et S ′ (w, x), quand ces deux termes parcourent l’un tous les alignements entre u et v et l’autre tous les alignements entre w et x. 2.2.5 Propriétés de la dissemblance analogique entre quatre séquences. Nous avons, grâce à cette nouvelle définition, les résultats suivants 12 . Propriété 1 Symétrie. ∀(u, v, w, x) ∈ (Σ∗ )4 : DA(u, v, w, x) = DA(w, x, u, v) 12. Faute de place, nous les donnons ici sans leur démonstration. Il est intéressant de noter qu’ils sont en d général faux si l’on remplace DA par DA. 39 CAp 2005 Inégalité triangulaire. ∀(u, v, w, x, z, t) ∈ (Σ∗ )6 : DA(u, v, w, x) ≤ DA(u, v, z, t)+ DA(z, t, w, x) Propriété 2 Echange des médians. ∀(u, v, w, x) ∈ (Σ∗ )4 : DA(u, v, w, x) = DA(u, w, v, x) Non-échange des deux premiers termes. En général, ∀(u, v, w, x) ∈ (Σ∗ )4 : DA(u, v, w, x) 6= DA(v, u, w, x) Ces résultats assurent donc la cohérence de toute notre construction avec les axiomes de l’analogie 13. Nous donnons dans le paragraphe suivant son algorithme de calcul. 2.2.6 Algorithmes : résolution d’une équation analogique entre séquences et calcul de la dissemblance analogique entre quatre séquences. Algorithme de résolution d’une équation analogique entre séquences. La résolution d’une équation analogique u : v :: w : x consiste à calculer x, connaissant u, v et w. Nous avons traité ce problème dans le cadre de la distance d’édition, en supposant que la relation ✭✭ comme ✮✮ est l’identité, dans (M ICLET & D ELHAY, 2003; D ELHAY & M ICLET, 2004). Nous avons donné deux algorithmes du même type que ceux traités ici : un approché et un optimal. Une question que nous n’avons pas abordée est l’écriture un algorithme pour résoudre une équation analogique avec une dissemblance non nulle (c’est à dire en levant l’hypothèse que ✭✭ comme ✮✮ est l’identité). Algorithme de calcul de la dissemblance analogique approchée entre quatre séquences. Cet algorithme a été expliqué ci-dessus : il consiste à calculer l’ensemble des séquences de transformations optimales ℵ(u, v) entre u et v et l’ensemble des séquences de transformations optimales ℵ(w, x) entre w et x, à l’aide de la distance δ. Dans une deuxième phase, il calcule le coût minimal, en utilisant ∆, pour transformer une séquence dans ℵ(u,v) en une séquence dans ℵ(w, x). Sa complexité est au pire en   O |u|.|v| + |w|.|x| ) + (|u| + |v|).(|w| + |x|) × |ℵ(u, v)| × |ℵ(w, x)| | {z } | {z } | {z } | {z } u sur v w sur x taille des alignements de séq. d’édition nb. d’alignements de séq. d’édition Algorithme de calcul de la dissemblance analogique entre quatre séquences. L’algorithme que nous proposons ici est une généralisation de celui de Wagner et Fisher ; il examine les quatre phrases de manière synchrone et cumule le coût optimal de leur dissemblance analogique par programmation dynamique. Rappelons que : ( δ(a, b) + δ(c, d) ∆(Sa→b , Sc→d ) = M in δ(a, c) + δ(b, d) Les données d’entrée de cet algorithme sont donc les quatre phrases et la table des valeurs de la distance δ sur (Σ ∪ {ǫ}) × (Σ ∪ {ǫ}). Il donne en sortie la dissemblance 13. Cependant, on n’a pas en général : ∆(Sa→b , Sc→d ) = 0 ⇔ a : b :: c : d . 40 Apprentissage par analogie dans les séquences analogique DA(u, v, w, x), qui est aussi égale à DA(w, x, u, v), à DA(u, w, v, x), à DA(v, u, x, w), à DA(x, v, w, u), à DA(x, w, v, u), à DA(v, x, w, u), à DA(w, u, x, v) et à DA(x, v, w, u). Le calcul se fait par la récurrence suivante : Initialisation u0 v0 Cw ← 0; 0 x0 ui v0 pour i = 1, |u| faire Cw ← 0 x0 pour j = 1, |v| faire u v Cw00 xj0 pour i = 1, |w| faire u0 v0 Cw k x0 ← ← u0 v0 ← pour j = 1, |x| faire Cw 0 xl Récurrence ui vj Cw k xl Pk=i k=1 ∆(Sui →ǫ , Sǫ→ǫ ) fait ; k=1 ∆(Sǫ→vj , Sǫ→ǫ ) fait ; i=1 ∆(Sǫ→ǫ , Swk →ǫ ) fait ; k=1 ∆(Sǫ→ǫ , Sǫ→xk ) fait ; Pk=j Pi=k Pk=l  u v i−1 j−1   k−1 xl−1 + ∆(Sui →vj , Swk →xl ) Cw  ui−1 vj−1   Cwk−1 xl + ∆(Sui →vj , Swk →ǫ )   u vj−1  + ∆(Sui →vj , Sǫ→xl ) Cwi−1  k xl−1   ui−1 vj−1  Cw + ∆(Sui →vj , Sǫ→ǫ )  x k l   ui vj−1   Cwk−1 xl−1 + ∆(Sǫ→vj , Swk →xl )    ui vj−1   C wk xl−1 + ∆(Sǫ→vj , Sǫ→xl )    ui vj−1   Cwk−1 xl + ∆(Sǫ→vj , Swk →ǫ ) u v = M in Cwik xj−1 + ∆(Sǫ→vj , Sǫ→ǫ ) l  ui−1 vj  Cw  x k−1 l−1 + ∆(Sui →ǫ , Swk →xl )   ui−1 vj   Cwk xl−1 + ∆(Sui →ǫ , Sǫ→xl )    ui−1 vj   C wk−1 xl + ∆(Sui →ǫ , Swk →ǫ )    ui−1 vj  Cw + ∆(Sui →ǫ , Sǫ→ǫ ) k xl    u i vj  C  wk−1 xl−1 + ∆(Sǫ→− , Swk →xl )   u v   Cwik xjl−1 + ∆(Sǫ→ǫ , Sǫ→xl )    C ui vj + ∆(S wk−1 xl ǫ→ǫ , Swk →ǫ ) ui : vj :: wk : xl ui : vj :: wk : ǫ ui : vj :: ǫ : xl ui : vj :: ǫ : ǫ ǫ : vj :: wk : xl ǫ : vj :: ǫ : xl ǫ : vj :: wk : ǫ ǫ : vj :: ǫ : ǫ ui : ǫ :: wk : xl ui : ǫ :: ǫ : xl ui : ǫ :: wk : ǫ ui : ǫ :: ǫ : ǫ ǫ : ǫ :: wk : xl ǫ : ǫ :: ǫ : xl ǫ : ǫ :: wk : ǫ Terminaison Quand i = |u| et j = |v| et k = |w| et l = |x|. Résultat u v |v| Cw|u| est la dissemblance analogique DA(u, v, w, x) selon la distance δ. |w| x|x| Complexité  Cet algorithme est en O |u|.|v|.|w|.|x| , donc en puissance quatrième de la longueur de la plus longue des des phrases. Il est donc a priori beaucoup plus lent que l’algorithme approché. 41 CAp 2005 3 Premières expériences en apprentissage par analogie dans les séquences. Le matériel expérimental que nous utilisons est un ensemble de données artificielles de petite taille. Nous construisons un ensemble de séquences dans lequel nous connaissons les quadruplets en analogie. Nous prenons une de ces séquences et nous la bruitons. L’expérience réalisée consiste à constater si, oui ou non, le meilleur triplet, celui qui a la dissemblance la moindre avec la séquence bruitée, est encore le même. Il ne s’agit pas encore d’un véritable test de la capacité de l’apprentissage par analogie dans les séquences. Le but est pour le moment essentiellement de chercher à savoir comment la dissemblance analogique entre séquences, telle que nous l’avons définie par la distance d’édition, se comporte en présence de bruit. 3.1 Constitution de la base de données. 3.1.1 Les séquences. Une base de données est constituée de cent séquences de même longueur 2n, qui sont quatre par quatre en relation d’analogie exacte (et de dissemblance analogique nulle). Pour assurer cette propriété, un ensemble de quatre séquences u, v, w et x de longueur 2n est composé en tirant au hasard quatre séquences X, Y , Z et T de longueur n, qui sont ensuite concaténées comme suit : u = XZ, v = XT , w = Y Z, x = Y T . Bien que les composants puissent être très différents, il y a une dissemblance analogique nulle entre les phrases composées 14. En répétant 25 fois cette opération, on dispose ainsi de 25 quadruplets en analogie exacte. On vérifie aussi qu’il n’existe pas d’autres quadruplets en analogie dans les 100 phrases. Ainsi, chaque séquence de la base de données n’est en analogie qu’avec le triplet composé avec elle. 3.1.2 L’alphabet et la distance δ. Nous avons choisi un alphabet Σ de 2p lettres, défini à partir de p + 1 traits (voir (M I = 3, l’alphabet est Σ = {a, b, c, A, B, C} et il est défini à partir des 4 traits binaires suivants (en colonnes): CLET & D ELHAY, 2004)). Par exemple pour p a b c A B C 1 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 0 1 1 1 14. Ce n’est pas le cas en général de quatre phrases en analogie. Cette propriété provient ici des contraintes qui ont servi à définir la distance ∆ au paragraphe 2.2.3. Les longueurs de X, Y , Z et T pourraient d’ailleurs ne pas être les mêmes. Sur la construction de quadruplets en analogie par de telles alternances, voir (Y VON et al., 2004). 42 Apprentissage par analogie dans les séquences Les trois premiers traits définissent le caractère et le dernier définit sa ✭✭ casse ✮✮ (majuscule ou minuscule). Nous en avons déduit trois distances, dont voici deux : δ1 a b c A B C ǫ a 0 2 2 1 3 3 4 b 2 0 2 3 1 3 4 c 2 2 0 3 3 1 4 A 1 3 3 0 2 2 4 B 3 1 3 2 0 2 4 C 3 3 1 2 2 0 4 ǫ 4 4 4 4 4 4 δ3 a b c A B C ǫ a 0 1.5 1.5 1.2 1.7 1.7 2 b 1.5 0 1.5 1.7 1.2 1.7 2 c 1.5 1.5 0 1.7 1.7 1.2 2 A 1.2 1.7 1.7 0 1.5 1.5 2 B 1.7 1.2 1.7 1.5 0 1.5 2 C 1.7 1.7 1.2 1.5 1.5 0 2 ǫ 2 2 2 2 2 2 La première est la distance de Hamming entre les lettres vus commes des vecteurs binaires de traits, dont nous avons montré dans (M ICLET & D ELHAY, 2004) qu’elle est cohérente avec la relation d’analogie, c’est à dire que pour tout quadruplet en analogie a : b ::: d δ1 vérifie : δ1 (a, b) = δ1 (c, d) et δ1 (a, c) = δ1 (b, d). Le coût d’insertion et de suppression n’est pas défini par le système de traits. Lui donner une valeur forte comme dans δ1 permet a priori d’éviter des dissemblances faibles dans des schémas du type au : av :: wa : xa . Nous constaterons expérimentalement cette propriété en comparant δ1 avec une distance appelée δ2 , qui ne diffère de δ1 que par la valeur des insertions et des suppressions, fixée à 2 au lieu de 4. Quant à δ3 , elle n’est pas très différente de δ1 , mais elle est construite pour fournir des ensembles ℵ(u, v) et ℵ(w, x) de taille aussi petite que possible. Ceci n’est pas indifférent compte tenu du protocole expliqué au paragraphe suivant. 3.2 Protocole expérimental. 3.2.1 Déroulement d’une expérience. Une expérience se déroule ainsi : une séquence est enlevée de la base de données et bruitée avec un certain taux (le calcul du bruitage sera expliqué au paragraphe suivant). Ensuite, on cherche dans les 99 phrases restantes le triplet qui a la plus petite dissemblance analogique (approchée ou non) avec la phrase bruitée. Si c’est le triplet original, le score de cette expérience augmente de 1, sinon il reste inchangé. On recommence pour chaque séquence. En fin d’expérience, on dispose d’un score entre 0 et 100 qui indique la robustesse au bruit de la dissemblance analogique. On sait, par construction, que pour un bruitage de taux nul, le score de l’expérience est de 100. 3.2.2 Le bruitage. Les séquences sont bruitées avec un certain taux de bruit τ , entre 0 et 100. La manière de bruiter est définie par un transducteur représenté en figure 1. Le bruitage peut être uniforme ou varier en sens inverse de la distance δ d’une insertion, d’une suppression et d’une substitution. Chaque lettre est dans ce cas transformée selon la probabilité de transition dans le transducteur. Nous avons choisi deux façons de définir ces probabilités de transitions à partir d’une distance, donc au total trois types de bruit. Supposons, pour l’exemple, travailler avec l’alphabet Σ = {a, b, A, B}. La première méthode de bruitage (dite en ✭✭ 1/δ ✮✮) fait dépendre la probabilité de transition d’une 43 CAp 2005 a : ǫ/P (suppression) a : b/P (a, b) 1 0 a : A/P (a, A) ǫ : x/P (insertion) a : B/P (a, B) F IG . 1: Automate de bruitage des séquences lettre a vers une autre lettre x de l’inverse des distances de lettre à lettre : P (a, x) = τ. 1 δ(a,x) 1 1 + δinsertion Σy∈Σ−{a} δ(a,y) + 1 δsuppression La seconde méthode (dite en ✭✭ 1 + max − δ ✮✮) définit une probabilité de transition comme dépendant de la différence des distances lettre à lettre avec le maximum de ces distances. Par exemple, en faisant varier le bruitage, la méthode 1/δ donne, pour δ3 : Séquence originale τ = 0.1 τ = 0.2 τ = 0.3 aAbdDD aAEdDD aAbdDD AAbdDD adEdebbEaa adEdebbEaa adEdebbEaA aadEdBbbCeaa AdAcbBec AdAcBec AdAcbbec adacDBcc 3.2.3 Dissemblance analogique approchée et dissemblance analogique. L’algorithme de calcul de la dissemblance analogique approchée compare en principe toutes les paires d’alignements optimaux entre u et v d’une part, w et x d’autre part. En pratique, nous ne comparons que la première paire, dans l’ordre de fonctionnement de l’algorithme. Il est possible que cette nouvelle approximation affaiblisse un peu la méthode, car une paire d’alignements optimaux pourrait se révéler meilleure dans le calcul ultérieur. C’est ce qui semble résulter de l’expérience relatée sur la figure 2(b). La distance δ3 a été en effet construite, contrairement à δ1 , pour fournir des ensembles ℵ(u, v) et ℵ(w, x) de taille aussi petite que possible. L’algorithme de calcul de la dissemblance analogique est beaucoup plus long à expérimenter. Nous comptons l’expérience comme positive si un des triplets à distance analogique minimale est le bon. Cette méthode est optimiste (et elle suppose que l’on connaı̂t le résultat !). En pratique, nous avons constaté, en particulier pour la distance δ3 , que le nombre des triplets à distance analogique minimale est la plupart du temps égal à un (en moyenne, environ 1.1). 3.3 Résultats et premières conclusions. La figure 2(a) compare, pour la distance de traits donnée ci-dessus, pour un alphabet à 8 lettres et des séquences de longueur 10, les trois modes de bruitage pour la distance 44 ☛ ✡ ✠ ✟ ✂ ✄ ✞ ✝ ✆✂ ✁☎ ☛ ✡ ✄ ✞ ✝ ✁☎ ✠ ✟ ✆✂ ✞ ✝ ✁☎ ☛ ✡ ✄ ✆✂ ✠ ✟ ☛ ✡ ✝✞ ✆ ✟ ✁☎ ✠ ✄ ✓ ✒ ✎ ✍ ✑ ✏ ✌✍ ☞ ✕ ✔ ✑ ✏ ✓ ✒ ✎ ✑ ✏ ✕ ✔ ✓ ✒ ✑ ✏ ☞✌✍ ✎ ✕ ✔ ✓ ✒ ✑ ✏ ✓ ✒ ☞✌✍ ✕ ✔ ✑ ✏ ✕ ✔ ✓ ✒ ✑ ✏ ✕ ✔ ✓ ✒ ✎ ✑ ✏ ✓ ✒ ✕ ✔ ✕ ☞✌ ✔ Apprentissage par analogie dans les séquences δ1 et un bruitage uniforme. La figure 2(b) compare sur les mêmes données les distances δ1 , δ2 et δ3 . Les figures 3(a) et 3(b) comparent les deux dissemblances analogiques et analysent l’influence de la longueur des séquences. 100 90 80 70 60 50 40 30 20 10 0 Score Score 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 Taux de bruit 50 60 0 70 10 20 30 40 Taux de bruit 50 60 70 (b) Influence du choix de la distance. (a) Influence du type de bruitage. F IG . 2: (a) : Comparaison de de la méthode 1/δ (en trait plein), de la méthode 1 + max − δ (en pointillés) et d’une génération uniforme de bruit (en trait interrompu). (b) : Comparaison de δ1 (en trait plein), de δ2 (en pointillés) et de δ3 (en trait interrompu). Le générateur de bruit est du type 1/δ dans les trois cas. L’algorithme utilisé calcule la dissemblance analogique approchée. 100 90 80 70 60 50 40 30 20 10 0 Score Score 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 Taux de bruit 50 60 0 70 10 20 30 40 Taux de bruit 50 60 70 (b) Influence de la longueur 2n des séquences de la base de données. En trait plein, n = 10 ; en pointillé, n = 8, en trait interrompu, n = 6. (a) Comparaison entre la dissemblance analogique approchée et la dissemblance analogique. F IG . 3: (a) : La distance analogique approchée est en pointillés et la dissemblance analogique en trait plein. La distance est δ1 . Le générateur de bruit est du type 1/δ. (b) : Dans toutes les autres figures, la base de données est composée de phrases de longueur 8 sur un alphabet de taille 10. Ici, la taille des séquences varie, sur ce même alphabet. La base de données comporte 100 séquences, la distance est δ3 , la méthode est la dissemblance analogique approchée et le bruit est en 1/δ. 45 CAp 2005 En première analyse, on peut tirer les conclusions suivantes : – La dissemblance analogique offre une certaine résistance au bruit : le bon triplet analogique est retrouvé dans environ les deux tiers des cas, pour cent phrases de longueur 8, avec un taux de bruitage de 32%. Compte tenu du nombre de paramètres de cette expérience, il est difficile d’en tirer plus d’enseignements. – Le type de bruit n’a pas d’importance. – Un coût de suppression et d’insertion élevé est plutôt souhaitable. L’analyse fine de ce phénomène montre en effet qu’il permet d’éviter des dissemblances faibles dans des schémas du type au : av :: wa : xa . – Sur ce protocole expérimental, la dissemblance analogique approchée est significativement meilleure que la dissemblance analogique. Il est difficile de tirer des conclusions de ce constat avant de confronter les deux algorithmes à un véritable test d’apprentissage supervisé. 4 Conclusion et perspectives Dans cet article nous avons proposé une approche pour l’apprentissage par analogie basée sur la distance d’édition et la définition d’une dissemblance analogique. Nous avons proposé deux algorithmes pour calculer cette dissemblance. Le premier est sousoptimal et de complexité quadratique, le second est optimal mais a une complexité algorithmique plus élevée (d’ordre 4). Nous avons ensuite expérimenté ces algorithmes sur un corpus jouet, construit avec des séquences de même longueur (8 symboles pris dans un alphabet de taille 10). En étudiant différentes façon de bruiter les échantillons, nous avons observé que la dissemblance analogique, approchée ou non, est résistante au bruit. L’algorithme calculant la dissemblance analogique est d’une complexité relativement élevée (en O(n4 ) si n est la taille de la plus grande séquence). Mais surtout, la recherche de la dissemblance analogique, telle que nous l’avons implantée, est en O(m3 ) si m est la taille du corpus, ce qui est largement rédhibitoire pour sur des corpus de grande taille. Un de nos objectifs prioritaire est donc de réduire cette complexité, afin de pouvoir appliquer nos algorithmes sur des corpus réalistes et des alphabet plus grands. La construction proposée, qui garantit que les propriétés de distance sont préservées, permet d’envisager des algorithmes rapides du type de ceux utilisés dans la méthode des plus proches voisins. Nous pourrons alors comparer nos résultats de reconnaissance en apprentissage par analogie à ceux obtenus en apprentissage par plus proches voisins, par exemple. Les applications visées sont d’abord les technologies vocales, pour des séquences de graphèmes et de phonèmes (reconnaissance et synthèse de la parole), ensuite les bio-séquences. Nous nous intéressons en particulier aux systèmes de séquences dans lesquels une distance naturelle peut être introduite, soit par connaissances a priori, soit par apprentissage. 46 Apprentissage par analogie dans les séquences Références C ORNU ÉJOLS A. & M ICLET L. (2002). Apprentissage artificiel : concepts et algorithmes. Eyrolles. C ROCHEMORE M. & et al. (2001). Algorithmique du texte. Vuibert. D ELHAY A. & M ICLET L. (2004). Solving analogical equations for learning by analogy with sequences. In Proceedings of CAP-2004, PUG, p. 347–362, Montpellier. H OFSTADTER D. & THE F LUID A NALOGIES R ESEARCH G ROUP (1994). Fluid Concepts and Creative Analogies. New York: Basic Books. L EPAGE Y. (2003). De l’analogie rendant compte de la commutation en linguistique. HDR, Université Joseph Fourier Grenoble I. L EPAGE Y. & A NDO S.-I. (1996). Saussurian analogy: a theoretical account and its application. In Proceedings of COLING-96, p. 717–722, København. M ICLET L. & D ELHAY A. (2003). Analogy on Sequences: a Definition and an Algorithm. Rapport interne 4969, INRIA. M ICLET L. & D ELHAY A. (2004). Relation d’analogie et distance sur un alphabet défini par des traits. Rapport interne 5244, INRIA. in French. D. S ANKOFF & J. K RUSKAL , Eds. (1983). Time Warps, String Edits and Macromolecules: the Theory and Practice of Sequence Comparison. Addidon-Wesley. J. W. S HAVLIK & T. G. D IETTERICH, Eds. (1990). Readings in Machine Learning. Morgan Kaufmann. WAGNER R. & F ISHER M. (1974). The string-to-string correction problem. JACM. R. A. W ILSON & F. C. K EIL , Eds. (1999). Encyclopedia of the Cognitive Sciences. MIT Press. Y VON F., S TROPPA N., D ELHAY A. & M ICLET L. (2004). Solving analogical equations on words. Rapport interne ENST2004D005, École Nationale Supérieure des Télécommunications. 47 48 Phase transitions in grammatical inference Nicolas Pernot1 , Antoine Cornuéjols1,2 , Michèle Sebag1 1 Équipe TAO, Laboratoire de Recherche en Informatique, Bâtiment 490, Université Paris-Sud, 91405 - Orsay Cedex antoine@lri.fr et http://www.lri.fr/∼antoine 2 Institut d’Informatique d’Entreprise, 18, allée Jean Rostand, 91025 - Evry Cedex Résumé : L’analyse théorique de l’apprentissage inductif a montré que la validité du principe de minimisation du risque empirique est régie par des propriétés statistiques portant en particulier sur la “capacité” de l’espace des hypothèses. De même, la découverte, il y a quelques années, d’un phénomène de transition de phase en programmation logique inductive prouve que d’autres caractéristiques fondamentales du problème d’apprentissage peuvent également contrôler la possibilité de l’apprentissage sous des conditions très générales. Ce papier porte sur l’examen de l’inférence grammaticale. Nous montrons que si il n’existe pas de phénomène de transition de phase lorsque l’on considère l’ensemble de l’espace des hypothèses, il existe un “trou” bien plus sévère dans l’espace de recherche effectif des algorithmes d’induction par fusion d’états dans le cas des automates finis déterministes (DFA). L’examen des heuristiques de recherche des algorithmes R PNI et R ED -B LUE montre que si ces algorithmes parviennent à surmonter ce problème en partie, ils sont en revanche portés à surgénéraliser. Le papier suggère finalement quelques pistes pour l’utilisation de nouveaux opérateurs de généralisation afin de pallier le phénomène de transition de phase. Mots-clés : Inférence grammaticale, transition de phase, heuristiques de recherche. 1 Introduction It is now well-known that the feasibility of inductive learning is ruled by statistical properties linking the empirical risk minimization principle and the “capacity” of the hypothesis space (Vapnik, 1995). In part thanks to this analysis, new induction criterions have been proposed (e.g. structural risk minimization). While this powerful framework leads to a much deeper understanding of machine learning and to many theoretical and applicative breakthroughs, it basically involves only static information on the learning search space, e.g. the so-called VC-dimension. The dynamics of the learning search is not considered. In parallel and independently, a new paradigm has been studied in the Constraint Satisfaction community since the early 90s, motivated by computational complexity 49 CAp 2005 concerns : where are the really hard problems ? (Cheeseman et al., 1991) Indeed, the worst case complexity analysis poorly accounts for the fact that, despite an exponential worst-case complexity, empirically, the complexity is low for most CSP instances. These remarks led to developing the so-called phase transition framework (Hogg et al., 1996), which considers the satisfiability and the resolution complexity of CSP instances as random variables depending on order parameters of the problem instance (e.g. constraint density and tightness). This framework unveiled a much interesting structure of the CSP landscape. Specifically, the landscape is divided into three regions : the YES region, corresponding to underconstrained problems, where the satisfiability probability is close to 1 and the average complexity is low ; the NO region, corresponding to overconstrained problems, where the satisfiability probability is close to 0 and the average complexity is low too ; last, a narrow region separating the YES and NO regions, referred to as phase transition region, where the satisfiability probability abruptly drops from 1 to 0 and which concentrates on average the computationally heaviest CSP instances. The phase transition paradigm has been transported to relational machine learning and inductive logic programming (ILP) by (Giordana & Saitta, 2000), motivated by the fact that the covering test most used in ILP is equivalent to a CSP. As anticipated, a phase transition phenomenon appears in the framework of ILP : a wide YES (respectively NO) region includes all hypotheses which cover (resp. reject) all examples, and hypotheses separating the examples lie in the narrow PT, where the average computational complexity of the covering test reaches its maximum. Besides computational complexity, the PT phenomenon has far-reaching effects on the success of relational learning (Botta et al., 2003). For instance, a wide Failure Region is observed : for all target concepts/training sets in this region, no learning algorithms among the prominent ILP ones could find hypotheses better than random guessing (Botta et al., 2003). These negative results lead to a better understanding of the intrinsic limits of the existing ILP algorithms and search biases. Formally, consider a greedy specialization search strategy : starting its exploration in the YES region, the system is almost bound to make random specialization choices, for all hypotheses in this region cover every example on average. The YES region constitutes a rugged plateau from a search perspective, and there is little chance that the algorithm ends in the right part of the PT region, where good hypotheses lie. A similar reasoning goes for algorithms that follow a greedy generalization strategy. The phase transition paradigm thus provides another perspective on the pitfalls facing machine learning, focusing on the combinatoric search aspects while statistical learning focuses on the statistical aspects. The main question studied in this paper is whether the PT phenomenon is limited to relational learning, or threatens the feasibility and tractability of other learning settings as well. A learning setting with intermediate complexity between full relational learning and propositional learning is thus considered, that of grammatical inference (GI) (Angluin, 1988; Pitt, 1989; Sakakibara, 1997). Only the case of Deterministic and Non-Deterministic Finite-State Automata (FSA, section 2), will be considered through the paper. Specifically, the phase transition phenomenon will be investigated with respect to three 50 distributions on the FSA space, incorporating gradually increasing knowledge on the syntactical and search biases of GI algorithms. The first one, the uniform distribution, incorporates no information and considers the whole space of FSA. Using a set of order parameters, the average coverage of the automata is studied analytically and empirically. The second one reflects the bias introduced by the generalization relations defined on the FSA space and exploited by GI algorithms. The vast majority of these algorithms first construct a least general generalization of the positive examples, or Prefix Tree Acceptor (PTA), and restrict the search to the generalizations of the PTA, or generalization cone1. Indeed, it appears that the generalization cone presents a quite specific structure compared to the whole FSA space. Lastly, the third distribution takes into account the search biases of GI algorithms, guiding the search trajectory in the generalization cone. Due to space limitations, the study is restricted to two prominent GI algorithms, namely R PNI (Oncina & Garcia, 1992) and R ED -B LUE (Lang et al., 1998). This paper is organized as follows. Section 2 briefly introduces the domain of Grammatical Inference, the principles of the inference algorithms and defines the order parameters used in the rest of the paper. Section 3 investigates the existence and potential implications of phase transition phenomenons in the whole FSA space (section 3.2) and in the generalization cone (section 3.3). Section 4 focuses on the actual landscape explored by GI algorithms, specifically considering the search trajectories of R PNI and R ED -B LUE. Section 5 discusses the scope of the presented study and lays out some perspectives for future research. 2 Grammatical inference After introducing general notations and definitions, this section briefly discusses the state of the art and introduces the order parameters used in the rest of the paper. 2.1 Notations and definitions Grammatical inference is concerned with inferring grammars from positive (and possibly negative) examples. Only regular grammars are considered in this paper. They form the bottom class of the hierarchy of formal grammars as defined by Chomsky, yet are sufficiently rich to express many interesting sequential structures. Their identification from positive examples only is known to be unrealizable, while it is feasible with a complete set of examples (Gold, 1967). It is known that any regular language can be produced by a finite-state automaton (FSA), and that any FSA generates a regular language. In the remaining of the paper, we will mostly use the terminology of finite-state automata. A FSA is a 5-tuple A = hΣ, Q, Q0 , F, δi where Σ is a finite alphabet, Q is a finite set of states, Q0 ⊆ Q is the 1 More precisely, the Prefix Tree Acceptor is obtained by merging the states that share the same prefix in the Maximal Canonical Automaton (MCA), which represents the whole positive learning set as an automaton. A PTA is therefore a DFA with a tree-like structure. 51 CAp 2005 set of initial states, F ⊆ Q is the set of final states, δ is the transition function defined from Q × Σ to 2Q . A positive example of a FSA is a string on Σ, produced by following any path in the graph linking one initial state q0 to any accepting state. A finite state-automaton (FSA) is deterministic (DFA) if Q0 contains exactly one element q0 and if ∀q ∈ Q, ∀x ∈ Σ, Card(δ(q, x)) ≤ 1. Otherwise it is non-deterministic (NFA). Every NFA can be translated into an equivalent DFA, but at the price of being possibly exponentially more complex in terms of number of states. Given any FSA A’, there exists a minimum state DFA (also called canonical DFA) A such that L(A) = L(A′ ) (where L(A) denotes the set of strings accepted by A). Without loss of generality, it can be assumed that the target automaton being learned is a canonical DFA. A set S + is said to be structurally complete with respect to a DFA A if S + covers each transition of A and uses every element of the set of final states of A as an accepting state. Clearly, L(P T A(S + )) = S + . Given a FSA A and a partition π on the set of states Q of A, the quotient automaton is obtained by merging the states of A that belong to the same block of partition π (see (Dupont et al., 1994) for more details). Note that a quotient automaton of a DFA might be a NFA and vice versa. The set of all quotient automata obtained by systematically merging the states of a DFA A represents a lattice of FSA. This lattice is ordered by the grammar cover relation . The transitive closure of  is denoted by ≪. We say that Aπi ≪ Aπj iff L(Aπi ) ⊆ L(Aπj ). Given a canonical DFA A and a set S + that is structurally complete with respect to A, the lattice derived from P T A(S + ) is guaranteed to contain A. From these unverifiable assumptions, follows the paradigmatic approach of most grammatical inference algorithms (see, e.g., (Angluin, 1988; Coste, 1999; Dupont et al., 1994; Dupont & Miclet, 1998; Pitt, 1989; Sakakibara, 1997)), which equates generalization with state merging in the candidate automaton. 2.2 Learning biases in grammatical inference The core task of GI algorithms is thus to select iteratively a pair of states to be merged. The differences among algorithms is related to the choice of : (i) the search criterion (which merge is the best one) ; (ii) the search strategy (how is the search space explored) ; and (iii) the stopping criterion. We shall consider here the setting of learning FSAs from positive and negative examples, and describe the algorithms studied in section 3.In this setting, the stopping criterion is determined from the negative examples : generalization proceeds as long as the candidate solutions remain correct, not covering any negative example2 . The R PNI algorithm (Oncina & Garcia, 1992) uses a depth first search strategy, and retains the pair of states which is closest to the start state (obtained through a natural numbering of the states), such that their generalization (FSA obtained by merging the two states and subsequently applying the determinisation operator) does not cover any 2 In this paper, we follow the tradition of the literature in concept learning, where a concept covers an example if the example belongs to the subset of the example space denoted by the concept. In grammatical inference, covering can be equated with the recognition of a string by the automaton. 52 negative example. R PNI performs a greedy search, albeit with backtracking possibility. Overall, it is thus computationally efficient. The R ED -B LUE algorithm (also known as B LUE -F RINGE) (Lang et al., 1998) uses a beam search from a candidate list, selecting the pair of states after the Evidence-Driven State Merging (EDSM) criterion, i.e. such that their generalization involves a minimal number of final states. R ED -B LUE thus also performs a limited backtracking search, based on a more complex criterion and a wider search width compared to R PNI. 2.3 Order Parameters Following the methodology introduced in (Giordana & Saitta, 2000), the PT phenomenon is investigated along dimensions called order parameters. They were chosen here in accordance with the parameters used in the Abbaddingo challenge (Lang et al., 1998) : – The size Σ of the alphabet considered. – The number Q of states in the DFA. – The number B of output edges on each state. – The number L of letters on each edge. – The fraction a of accepting states, taken in [0,1]. – The length ℓ of the test example. – The maximal length ℓlearn of the learning examples in S + (as explained below). The first part of our investigation (section 3) bears on properties of the hypothesis space independently of any target automaton. For this part, we have used a random sampling strategy (all ℓ letters in the string are independently and uniformly drawn in Σ). In the second part (section 4) , where we examine the capacity of the studied learning algorithms to approximate a target automaton, we used positive sampling, where each learning string is produced by following a path in the graph, determined by selecting randomly an output edge in each step3 . 3 Phase Transitions : the FSA space and the generalization cone This section investigates the percentage of coverage of deterministic and non-deterministic Finite-State Automata, either uniformly selected (section 3.2), or selected in the subspace actually investigated by grammatical inference algorithms, that is, the generalization cone (section 3.3). We first detail the experimental protocol used. 3.1 Experimental setting For each setting of the order parameters, 100 independent problem instances are constructed. For each considered FSA (the sampling mechanisms are detailed below), the coverage rate is measured as the percentage of covered examples among 1,000 examples (strings of length ℓ, sampled along uniform distribution). 3 The string is cut at the last accepting state met before arriving at length ℓ, if any ; otherwise it is rejected. 53 CAp 2005 3.2 Phase Transition in the whole FSA space The sampling mechanism on the whole deterministic FSA space (DFA) is defined as follows. Given the order parameter values (Q, B, L, a, Σ) : – for every state q, (i) B output edges (q, q ′ ) are created, where q ′ is uniformly selected with no replacement among the Q states ; (ii) L × B distinct letters are uniformly selected in Σ ; and (iii) these letters are evenly distributed among the B edges above. – every state q is turned into an accepting state with probability a. The sampling mechanism for NFA differs from the above in a single respect : two edges with same origin state are not required to carry distinct letters. Fig. 1 shows the average coverage in the (a, B) plane, for |Σ| = 2, L = 1 and ℓ = 10, where the accepting rate a varies in [0, 1] and the branching factor B varies in {1,2}. Each point reports the coverage of a sample string s by a FSA A, averaged over 100 FSA drawn with accepting rate a and branching factor B, times 1, 000 strings s of length ℓ. These empirical results are analytically explained from the simple equations below, giving the probability that a string of length ℓ be accepted by a FSA defined on an alphabet of size |Σ| with Q states, with a branching factor B and L letters on each edge, in the DFA and NFA cases. ( ℓ for a DFA a · ( B·L |Σ| ) P (accept) = L B ℓ a · [1 − (1 − |Σ| ) ] for a NFA The coverage of the FSA decreases as a and B decrease. The slope is more abrupt in the DFA case than in the NFA case ; still, there is clearly no phase transition here. F IG . 1 – Coverage landscapes for Deterministic and Non-Deterministic FSA, for |Σ|=2, L=1 and ℓ=10. The density of accepting states a and the branching factor B respectively vary in [0, 1] and {1, 2}. 3.3 PT in the Generalization Cone The behaviour of the coverage displayed in Fig. 1 might lead to the impression that grammatical inference occurs in a well-behaved search space. However, grammatical inference algorithms do not explore the whole FSA space. Rather, as stated in section 54 2.1, the search is restricted to the generalization cone, the set of generalizations of the PTA formed from the set S + of the positive examples. The next aim is thus to considers the search space actually explored by GI algorithms. A new sampling mechanism is defined to explore the DFA generalization cone : 1. N (= 100 in the experiments) examples of length ℓ are uniformly and independently sampled, and their PTA is constructed ; 2. K (= 1000 in the experiments) generalization paths, leading from the PTA to the most general FSA or Universal Acceptor (UA), are constructed ; 3. In each generalization path (A0 = P T A, A1 , . . . , At = U A), the i-th FSA Ai is constructed from Ai−1 by merging two uniformly selected states in Ai−1 , and subsequently applying the determinisation operator. 4. The sample of the generalization cone is made of all FSAs in all generalization paths. The sampling mechanism on the non-deterministic generalisation cone differs from the above in a single respect : the determinisation operator is never applied Fig. 2 shows the behaviour of the coverage in the DFA generalisation cone, gathered from 50 samples with |Σ| = 4 and ℓ = 8. Each DFA A is depicted as a point with coordinates (Q, c), where Q is the number of states of A and c is its coverage (measured as in section 3.1). Fig. 3 similarly shows the behaviour of the coverage in the NFA generalisation cone, gathered from 50 samples with |Σ| = 4 and ℓ = 16. F IG . 2 – Coverage in the DFA generalization cone, here with |Σ| = 4, ℓlearn ∈ [1, 8]. At the far right stand the 50 PTA sampled, with circa 1150 states each. The generalization cone of each PTA includes 1,000 generalization paths, starting from the PTA and moving to the Universal Acceptor with one single state and coverage 1. Each point reports the coverage of a DFA on a generalization path, measured over 1,000 strings. This graph shows the existence of a large gap regarding both the number of states and the coverage of the DFAs that can be reached by generalization. Fig 2, typical of all experimental results in the range of observation (|Σ| = 2, 4, 8, 16, and ℓ = 2, 4, 6, 8, 16, 17) shows a clear-cut phase transition. Specifically, the coverage 55 CAp 2005 abruptly jumps from circa 13% to 54% ; and this jump coincides with a gap in the number of states of the DFAs in the generalization cone : no DFA with state number in [180, 420] was found. Interestingly, the picture is much smoother in the non-deterministic case (fig. 3) ; although the coverage rapidly increases when the number of states decreases from 300 to 200, no gap can be seen, either in the number of states or in the coverage rate itself. 4 In the following, we focus on the induction of DFAs. F IG . 3 – Typical coverage behaviour in the NFA generalization cone, with same order parameters as in Fig. 3.3 except ℓ = 16. 4 Phase transition and search trajectories The study of the coverage rate in the generalization cone shows that the density of hypotheses of coverage in between a large interval (typically between less than 20% to approximately 60%) falls abruptly. This means that a random exploration of the generalization cone would have great difficulties in finding an hypothesis in this region and would therefore likely return hypotheses of poor performance (overspecialized or overgeneralized) if the target concept had a coverage rate in this “no man’s land” interval. It is consequently of central importance to examine the search heuristics that are used in the classical grammatical inference systems. First, are they able to thwart the a priori very low density of hypotheses in the gap ? Second, are they able to guide the search toward hypotheses that have a coverage rate correlated with the one of the target concept, specially if this coverage falls in the gap ? We focused our study on two standard algorithms in grammatical inference, namely the R PNI and the R ED -B LUE algorithms (Oncina & Garcia, 1992; Lang et al., 1998). 4 The difference with the DFA case is due to the determinisation process that forces further states merging when needed. We devised a chain-reaction like analytical model that accounts rather well with the observed behaviour, predicting the start of the gap (a chain reaction) with a 15% precision. 56 4.1 Experimental setting By contrast to previous experiments, the learning behaviour is now studied with respect to a target concept. In particular, GI algorithms (and specifically R PNI and R ED B LUE) use negative examples in order to stop their generalization process. In our first experiments, we tested whether heuristically guided inference algorithms can find good approximations of the target automata whatever its coverage rate. In particular, we considered target automata either of coverage rate of approximately 50% (in the middle of the “gap”5 ), or of coverage of approximately 5%. For each target coverage rate, we followed the protocol described in (Lang et al., 1998) in order to retain a certain number of target automata with a mean size of Q states (Q = 50, in our experiments). For each target automaton then, we generated N (=20) training sets of size |S| (= 100) labeled according to the target automaton, with an equal number of positive and negative instances (|S + | = |S − | = 50) of length ℓlearn ∈ [1, 14]. The coverage rate was computed as before from the mean coverage on a randomly drawn test set of size 1000 with no intersection with the training set. In a second set of experiments, we analyzed the learning trajectories with respect to test errors, both false positive and false negative, in a ROC like fashion. In these experiments, we chose the type of target automata by setting the number of states Q and some predetermined structural properties (e.g. density of edges, rate of recursive connexions). We also set the structural completeness of the training set (defined as the percentage of the training set wrt. a structurally complete set of instances). The performance of the learning systems were measured on a test set of 1000 sequences of length ℓ ∈ [d, 2d] with d denoting the depth of the target automaton. 4.2 The heuristically guided search space Due to space limitation, we report here only the graph obtained for the R PNI algorithm (see figure 4), but it is close to the one obtained with the R ED -B LUE algorithm. For the sake of the clarity of the graph, we chose to report only 3 trajectories. One immediate result is that both the R PNI and the EDSM heuristics manage to densely probe the “gap”. This can explain why the gap phenomenon was not discovered before, and why the R ED -B LUE algorithm for instance could solve some cases of the Abbadingo challenge where the target concepts have a coverage rate of approximately 50%. However, where R PNI tends to stop with automata of coverage less than the target coverage, R ED -B LUE tends to overshoot the target coverage by 5% to 10%. In order to test the capacity of the algorithms to return automata with a coverage rate close to the target coverage, we repeated these experiments with target automata of coverage rate of approximately 3%. Our results (see figure 5) shows that, in this case, R PNI ends with automata of coverage 4 to 6 times greater than the target coverage. The effect is even more pronounced with R ED -B LUE which returns automata of average coverage rate around 30% ! 5 And also close to the coverage value of the target automata automatically generated in the Abbadingo challenge. 57 CAp 2005 F IG . 4 – Three R PNI learning trajectories for a target concept of 56%. Their extremity is outlined in the oval on the left. The doted horizontal line corresponds to the coverage of the target concept. The cloud of points corresponds to random trajectories. F IG . 5 – Same as in figure 4, except for the coverage of the target concept, here 3%. 4.3 The evolution of the learning performance on the guided trajectories Since it appears that both R PNI and R ED -B LUE tend to overgeneralize, specially when the target concept is of low coverage, it is important to examine more closely their behaviour with respect to positive and to negative test instances. Table 1, obtained for different sizes of the target automata and for training sets of structural completeness above 40%, confirms that both R PNI and R ED -B LUE return overgeneralized hypotheses. On one hand, their average coverage is vastly greater than the coverage of the target automata, on the other hand, they tend to cover only part of the positive test instances, while they cover a large proportion of the negative test instances. This shows that the heuristics used in both R PNI and R ED -B LUE may be inadequate for target concepts of low coverage. Either the choice of the learning operators should be adapted, or the stopping criterion could incorporate some knowledge about the target 58 coverage. Algo. RB RB RB RB RPNI RPNI RPNI RPNI Qc 15 25 50 100 15 25 50 100 ucovc 5.97 4.88 4.2 3.39 5.95 4.7 3.87 3.12 Qf 10.38 12.77 14.23 13.13 5.14 7.56 14.08 26.41 ucovf 33.81 40.35 45.38 30.35 22.9 23.07 23.45 23.151 pcovf 60.93 62.68 66.14 42.81 57.51 56.38 51.89 50.12 ncovf 34.69 37.87 42.23 28.69 26.99 25.98 24.42 24.40 TAB . 1 – Results for target DFA of sizes Q = 15, 25, 50 and 100 states, recursivity rate = 50%, edge density=50% and training sets of structural completeness above 40%. Qf , ucovf , pcovf and ncovf respectively denote the average size of the learned automata, their average coverage, the average coverage restricted to the positive instances and the average coverage restricted to the negative instances. 5 Conclusion This research has extended the Phase Transition-based methodology (Botta et al., 2003) to the Grammatical Inference framework. Ample empirical evidence shows that the search landscape presents significant differences depending on the search operators that are considered. A first result is that random search appears to be more difficult in the DFA generalization cone than in the whole search space : a large gap was found, in terms of hypothesis coverage and size. This explains why control heuristics are needed for the inference of DFA, particularly in the range of problems corresponding to the very influential Abbadingo challenge. A second finding regards the limitations of the search operators in R PNI and R ED B LUE, especially outside the region of the Abbadingo target concepts. Experiments with artificial learning problems built from specific target concepts (coverage less than 10%) reveal that R PNI and R ED -B LUE alike tend to learn overly general hypotheses (DFAs) ; with respect to both the size (lower number of states) and the coverage of the hypotheses (often larger by an order of magnitude than that of the target concept). What is even more worrying, is that this overgeneralization does not imply that the found hypotheses are complete : quite the contrary, the coverage of the positive examples remains below 65%, in all but one setting. The presented study opens several perspectives for further research. First, it suggests that the learning search could be controlled using a hyper-parameter, the coverage rate of the target concept. This hyper-parameter might either be supplied by the expert, or estimated e.g. by cross-validation. In other words, the stopping criterion of the algorithms might be reconsidered. Second, more conservative generalisation operators will 59 CAp 2005 be investigated ; preliminary experiments done with e.g. reverted generalisation (same operator as in R PNI, applied on the reverted example strings) show that such operators can delay the determinisation cascade, and offer a finer control of the final coverage rate of the hypotheses. Finally, the main claim of the paper is that the phase transition framework can be used to deliver precise indications as to when heuristics are appropriate − hopefully leading to understand and ultimately alleviate their limitations. Références A NGLUIN D. (1988). Queries and concept learning. Machine Learning journal, 2, 319–342. B OTTA M., G IORDANA A., S AITTA L. & S EBAG M. (2003). Relational learning as search in a critical region. Journal of Machine Learning Research, 4, 431–463. C HEESEMAN P., K ANEFSKY B. & TAYLOR W. M. (1991). Where the Really Hard Problems Are. In Proceedings of the Twelfth International Joint Conference on Artificial Intelligence, IJCAI-91, Sidney, Australia, p. 331–337. C OSTE F. (1999). State Merging Inference of Finite State Classifiers. Rapport interne, Irisa. D UPONT P. & M ICLET L. (1998). Inférence grammaticale régulière : fondements théoriques et principaux algorithmes. Rapport interne, INRIA N o 3449. D UPONT P., M ICLET L. & V IDAL E. (1994). What Is the Search Space of the Regular Inference ? In Proceedings of the Second International Colloquium on Grammatical Inference and Applications, ICGI-94, p. 25–37. G IORDANA A. & S AITTA L. (2000). Phase transitions in relational learning. Machine Learning, 41, 217–251. G OLD E. M. (1967). Language identification in the limit. Information and Control, 10, 447– 474. H OGG T., H UBBERMAN B. & W ILLIAMS C. (1996). Phase transitions and the search problem. Artificial Intelligence, 81, 1–15. L ANG K., P EARLMUTTER B. & P RICE R. (1998). Results of the abbadingo one dfa learning competition and a new evidence driven state merging algorithm. In Fourth International Colloquium on Grammatical Inference (ICGI-98), volume LNCS-1433, p. 1–12 : Springer Verlag. O NCINA J. & G ARCIA P. (1992). Inferring regular languages in polynomial update time. Pattern Recognition and Image Analysis, p. 49–61. P ITT L. (1989). Inductive inference, dfas, and computational complexity. In Proceedings of the Workshop on Analogical and Inductive Inference (AII-89), volume LNCS-397, p. 18–44 : Springer Verlag. S AKAKIBARA Y. (1997). Recent advances of grammatical inferences. Theoretical Computer Science, 185, 15–45. VAPNIK V. (1995). The Nature of Statistical Learning. Springer. 60 Apprentissage par analogie et rapports de proportion: contributions méthodologiques et expérimentales Nicolas Stroppa, François Yvon GET/ENST et LTCI, UMR 5141 46, rue Barrault, 75013 Paris {stroppa,yvon}@enst.fr L’apprentissage par analogie (Gentner et al., 2001) repose sur un mécanisme inductif en deux étapes : le premier temps consiste à construire un appariement structurel entre une nouvelle instance d’un problème et des instances déjà résolues du même problème ; une fois cet appariement établi, la solution de la nouvelle instance est élaborée à partir des solutions des instances analogues. Dans le cas particulier du traitement des langues, la taille des bases de données manipulées, contenant des centaines de milliers d’instances, rend prohibitive la recherche d’appariements structurels complexes. En revanche, les entités étudiées dans ce domaine se décrivent à l’aide de formes bien identifiées : séquences (phonétiques, orthographiques), arbres (morphologiques, syntaxiques), structures de traits. L’exploitation d’appariements purement formels entre descriptions permet dans certaines situations de détecter des analogies plus profondes entre entités linguistiques. Ainsi, un appariement de forme entre chanter et chanteur permet de déceler un lien sémantique plus profond entre les entités linguistiques sous-jacentes. De telles ressemblances de forme peuvent évidemment se révéler trompeuses. Toutefois, l’exploitation de la redondance des données linguistiques permet en pratique de s’affranchir de ces limitations : l’appariement chanter-chanteur est conforté par la présence de nombreuses paires similaires dans le lexique, à savoir parler-parleur, râler-râleur, etc. Pour définir à la fois l’appariement et la similarité de paires, nous utilisons la notion de rapport de proportion (ou proportion analogique) entre 4 objets x, y, z, t qui s’écrit x : y :: z : t et qui se lit « x est à y se que z est à t ». Par exemple, chanter : chanteur :: râler : râleur. La tâche d’apprentissage (supervisé) considérée dans cet article consiste, à partir d’une base d’apprentissage décrivant des entités connues, à inférer des propriétés inconnues d’entités nouvelles. Un exemple de tâche consiste à inférer les traits morphosyntaxiques de la forme graphique chanteur à partir d’instances figurant dans la base1 {(chanter : VI ), (râler : VI ), (râleur : NM ), (parler : VI ), (parleur : NM )} contenant des formes graphiques associées à des traits morpho-syntaxiques. Pour analyser une instance t dont certaines propriétés sont inconnues, nous procédons en deux temps. Tout d’abord, nous recherchons dans la base d’apprentissage des 1 Pour les traits morpho-syntaxiques, V=Verbe, I=Infinitif, N=Nom, M=Masculin. 61 CAp 2005 triplets d’instances formant un rapport de proportion avec t sur ses propriétés connues. Dans notre exemple, pour chanteur en entrée, cette recherche fournit les deux triplets (râler, râleur, chanter), (parler, parleur, chanter). Pour chaque triplet x, y, z, nous résolvons ensuite l’équation analogique x : y :: z :? sur les propriétés à apprendre. Résoudre l’équation VI : NM :: VI : ? permet ainsi d’inférer NM comme traits morphosyntaxiques de chanteur. Dans ce modèle, les propriétés peuvent être décrites sous différentes formes (vecteurs de Rn , séquences, arbres) ; la seule contrainte est de savoir définir (et calculer) le rapport de proportion entre objets représentés sous cette forme. Dans ce contexte, la contribution de ce travail est double. D’une part, nous proposons une définition unifiée de la notion de rapport de proportion applicable aux structures algébriques courantes (ensemble de séquences, d’arbres, etc.), puis nous montrons que cette définition donne lieu à un calcul efficace de ces proportions, calcul réalisé à l’aide de transducteurs à états finis. Dans le cas des mots et des arbres, notre définition généralise celles données par (Lepage, 2003). Elle repose sur la notion de décomposition d’objets en termes plus petits alternant deux à deux. Ainsi, le rapport de proportion chanter : chanteur :: râler : râleur fait intervenir les termes chant, râl, er, eur alternant deux à deux. Formellement, la définition proposée s’applique à tout semigroupe, et a fortiori aux groupes, aux monoïdes et aux treillis (Stroppa & Yvon, 2005b). D’autre part, nous fournissons des résultats expérimentaux originaux (Stroppa & Yvon, 2005a) issus de l’application de notre modèle d’inférence à l’apprentissage automatique de propriétés morphologiques. Dans ce cadre, deux types d’expérimentations ont été effectuées sur des lexiques du français, de l’anglais, de l’allemand et du néerlandais. La première tâche consiste à inférer des traits morpho-syntaxiques à partir d’une forme graphique (cf exemple ci-dessus). Les résultats obtenus sont encourageants puisque les taux de rappel et de précision dépassent tous deux 97% sur les catégories grammaticales visées (noms, verbes et adjectifs). Dans la deuxième tâche, on infère une décomposition hiérarchique (arbre) de la forme en entrée. Ce type d’application montre la flexibilité de notre apprenti, le seul, à notre connaissance, capable d’apprendre à apparier des séquences avec des arbres sans construire au préalable de modèle grammatical. Les résultats obtenus, bien que significativement moins bons sur cette deuxième tâche, permettent néanmoins de capturer les phénomènes de constructions les plus réguliers. Des expériences complémentaires restent à conduire pour mieux apprécier les réelles forces et faiblesses du modèle. De manière plus générale, les expériences menées ont permis de confirmer la faisabilité et la pertinence d’une approche à base d’analogies pour capturer les régularités présentes dans la morphologie des langues européennes. Références D. G ENTNER , K. J. H OLYOAK & B. N. KOKINOV, Eds. (2001). The Analogical Mind. Cambridge, MA : The MIT Press. L EPAGE Y. (2003). De l’analogie rendant compte de la commutation en linguistique. Habilitation à diriger les recherches, Grenoble, France. S TROPPA N. & Y VON F. (2005a). Apprentissage par analogie et rapports de proportion : contributions méthodologiques et expérimentales. In Conférence d’Apprentissage. Version longue. S TROPPA N. & Y VON F. (2005b). Formal models of analogical proportions. Rapport interne, à paraître, ENST, Paris, France. 62 Inférence grammaticale et grammaires catégorielles : vers la Grande Unification ! Isabelle Tellier GRAppA & Inria Futurs, Lille MOSTRARE project Université Lille 3 59653 Villeneuve d’Ascq France isabelle.tellier@univ-lille3.fr Résumé : Dans cet article, nous proposons de comparer les techniques employées en inférence grammaticale de langages réguliers par exemples positifs avec celles employées pour l’inférence de grammaires catégorielles. Pour cela, nous commençons par étudier la traduction entre automates et grammaires catégorielles, et inversement. Nous montrons ensuite que l’opérateur de généralisation utilisé pour l’apprentissage de grammaires catégorielles est strictement plus puissant que celui de fusion d’états (usuel en inférence grammaticale régulière), puisqu’il fait parfois sortir de la classe des langages réguliers. Nous proposons un nouveau modèle génératif qui généralise les automates à états finis pour représenter le résultat de cet opérateur. Nous montrons que ce modèle a au moins la même expressivité que les grammaires catégorielles unidirectionnelles, c’està-dire celle des langages algébriques. Enfin, nous exhibons une sous-classe des grammaires catégorielles unidirectionnelles pour laquelle l’apprentissage à partir de textes n’est presque pas plus coûteux que l’apprentissage à partir de structures. 1 Introduction En inférence grammaticale, on étudie comment apprendre une grammaire à partir d’exemples de phrases qu’elle engendre -et de phrases qu’elle ne reconnaît pas, si des exemples négatifs sont disponibles. Les résultats fondateurs du domaine concernent l’apprenabilité de sous-classes de grammaires régulières, généralement représentées par des automates à états finis (Angluin, 1982; Oncina & Garcia, 1992; Dupont et al., 1994; Denis et al., 2002). L’inférence de grammaires algébriques est évidemment plus difficile. Elle a fait l’objet de nombreux travaux, mais généralement plutôt empiriques. Or, nous aimerions l’envisager dans le modèle d’apprentissage à la limite par exemples positifs de Gold (Gold, 1967). Les résultats théoriques qui nous semblent les plus avancés du domaine sont dûs à Kanazawa (Kanazawa, 1998), qui a prouvé dans ce modèle l’apprenabilité de sous-classes de grammaires catégorielles de type AB (un formalisme syntaxique qui a 63 la même expressivité que les grammaires algébriques). Ces résultats ont malheureusement peu de portée pratique, notamment parce que, à part dans des cas très particuliers, les algorithmes d’apprentissage auxquels ils donnent lieu sont très coûteux (Florêncio, 2001; Florêncio, 2002). Il semble que personne, jusqu’à présent, n’ait essayé de représenter par des grammaires catégorielles les langages réguliers, pour voir en quoi les résultats les concernant recoupent ou non ceux connus en inférence de langages réguliers. C’est le point de départ de notre travail. La première partie de cet article, après avoir introduit les définitions nécessaires, expose donc en détail comment passer d’un automate à états finis à une grammaire catégorielle, et réciproquement. Dans un deuxième temps, on tente d’utiliser cette traduction pour déduire des résultats d’apprenabilité nouveaux ou rapprocher des résultats obtenus indépendamment dans chacun des deux contextes. Mais la voie qui se révèle la plus prometteuse consiste à comparer ce que réalisent les algorithmes d’apprentissage euxmêmes. Nous montrons ainsi que l’opérateur de généralisation utilisé dans le cadre de l’apprentissage de grammaires catégorielles est strictement plus puissant que celui de “fusion d’états” utilisé en inférence grammaticale régulière, puisqu’il peut faire sortir de la classe des langages régulier. Son effet sur un automate à états finis reste toutefois interprétable, à condition d’étendre la définition des automates considérés. Cette piste donne lieu à la dernière partie de l’article et aboutit notamment à la caractérisation d’une nouvelle sous-classe de grammaires catégorielles, dont l’apprentissage est nettement moins coûteux que ce que les algorithmes de Kanazawa laissaient craindre. Cet article propose en quelque sorte de rapprocher les connaissances et les techniques issues de deux communautés distinctes, en montrant qu’elles peuvent chacune tirer bénéfice des travaux de l’autre. 2 Automates à états finis et grammaires catégorielles Dans cette section, nous introduisons les définitions nécessaires et nous explicitons les correspondances entre automates finis et grammaires catégorielles. 2.1 Automates à états finis et langages réguliers Définition 1 (Automates à états finis (AF) et langages réguliers) Un automate à états finis (AF par la suite) A est un quintuplet A = hQ, Σ, δ, q0 , F i où Q est l’ensemble fini des états de A, Σ est son vocabulaire fini, son état initial est q0 ∈ Q (nous nous restreignons ici aux automates avec un unique état initial) et F ⊆ Q est l’ensemble de ses états finaux. Enfin, δ est la fonction de transition de A, définie de Q × Σ vers 2Q . Le langage L(A) reconnu (ou engendré) par A est défini par : L(A) = {w ∈ Σ∗ |δ ∗ (q0 , w) ∩ F 6= ∅}, où δ ∗ est l’extension naturelle de δ à Q × Σ∗ telle que : pour tout a ∈ Σ, tout u ∈ Σ∗ et tout q ∈ Q, δ ∗ (q, au) = {δ ∗ (q ′ , u)|q ′ ∈ δ(q, a)}. L’ensemble de tous les langages reconnus par un AF est appelé l’ensemble des langages réguliers. 64 Exemple 1 + + La Figure 1 montre un AF A tel que L(A) = a a b . b a 0 1 2 b F IG . 1 – un automate à états finis 2.2 Grammaires formelles et grammaires catégorielles Nous rappelons ici la définition classique des grammaires formelles ainsi que celle, moins connue, des grammaires catégorielles de type AB (en référence à leurs fondateurs, Adjukiewicz et Bar-Hillel), qui seront les seules considérées par la suite. Définition 2 (Grammaires formelles et leur langage) Une grammaire formelle (ou tout simplement une grammaire) G est un quadruplet G = hΣ, N, P, Si où Σ est le vocabulaire terminal fini de G, N son vocabulaire non terminal, lui aussi fini, P ⊂ (Σ ∪ N )+ × (Σ ∪ N )∗ son ensemble fini de règles de réécriture et S ∈ N son axiome. Le langage L(G) reconnu (ou engendré) par G est défini par : L(G) = {w ∈ Σ∗ |S −→∗ w} où −→∗ est la clôture réflexive et transitive de la relation définie par P . Définition 3 (Catégories, grammaires catégorielles de type AB et leur langage) Soit B un ensemble au plus dénombrable de catégories de base, parmi lesquelles figure une catégorie distinguée S ∈ B , appelée l’axiome. L’ensemble des catégories fondées sur B , noté Cat (B), est le plus petit ensemble tel que B ⊂ Cat (B) et pour tout A, B ∈ Cat (B) on a : A/B ∈ Cat (B) et B\A ∈ Cat (B). Pour tout vocabulaire fini Σ (dont les membres seront appelés des mots) et pour tout ensemble B de catégories de base (S ∈ B ), une grammaire catégorielle G est une relation finie sur Σ × Cat (B). On note hv, Ai ∈ G l’affectation de la catégorie A ∈ Cat (B) au mot v ∈ Σ. Une grammaire catégorielle de type AB (ou simplement une GC par la suite) est une grammaire catégorielle dont les règles de réécriture sont réduites aux deux schémas applicatifs suivants : ∀A, B ∈ Cat (B) – FA (Forward Application) : A/B B → A – BA (Backward Application) : B B\A → A Le langage L(G) reconnu (ou engendré) par G est défini par : L(G)={w = v1 . . . vn ∈ Σ+ | ∀i ∈ {1, . . . , n}, ∃Ai ∈ Cat (B) tel que hvi , Ai i ∈ G et A1 . . . An →∗ S}, où →∗ est la clôture réflexive et transitive de la relation définie par FA et BA. Pour tout entier k ≥ 1, l’ensemble des GCs qui affectent au plus k catégories distinctes à chacun des mots de leur vocabulaire est la classe des GCs k -valuées, et est notée Gk . Les GCs de G1 sont aussi dîtes rigides. La particularité principale des GCs est qu’elles sont lexicalisées, au sens où la totalité de l’information syntaxique est associée aux mots du vocabulaire (puisque les règles sont, elles, définies une fois pour toutes et invariables d’une grammaire à une autre). 65 Exemple 2 Les GCs ont surtout été utilisées pour la modélisation des langues naturelles. Soit par exemple B = {S, T, N C} (où T désigne la catégorie des “termes” et NC celle des “noms communs”), Σ = {P aul, dort, aime, un, chat} et G la GC définie par : G = {hP aul, T i, hdort, T \Si, haime, (T \S)/T i, hchat, N Ci, hun, T /N Ci, }. G reconnaît des phrases comme “Paul dort”, “Paul aime un chat”, etc. Définition 4 (FA-Structures, exemple structuré, langage des structures) Une FA-structure (FA pour “Foncteur-Argument”) sur un vocabulaire Σ est un arbre binaire dont les feuilles sont étiquetées par des éléments de Σ et dont chaque noeud est étiqueté soit par BA soit par FA. L’ensemble des FA-structures sur Σ est noté ΣF . Pour toute GC G ⊂ Σ × Cat (B), un exemple structuré pour G est un élément de ΣF qui est obtenu à partir d’un arbre d’analyse syntaxique produit par G pour une phrase w ∈ L(G), en effaçant dans cet arbre toutes les catégories de Cat (B). Pour toute GC G, le langage des structures de G, noté F L(G) est l’ensemble de ses exemples structurés. 2.3 Des automates aux grammaires catégorielles et inversement Les GCs peuvent engendrer tous les langages algébriques sans ǫ (où ǫ désigne le mot vide) (Bar-Hillel et al., 1960). Elles peuvent donc aussi engendrer tous les langages réguliers sans ǫ. Les correspondances entre AFs et GCs sont faciles à définir. Définition 5 (GCs régulières) Nous appelons GC régulière une CG G ⊂ Σ × Cat (B) qui ne contient que des affectations de la forme hv, Ai ou hv, A/Bi avec v ∈ Σ et A, B ∈ B . L’ensemble des GCs régulières est noté Gr . Propriété 1 (Transformation d’un AF en GC) Soit A = hQ, Σ, δ, q0 , F i un AF. Soit B = (Q\{q0 }) ∪ {S} (où S ∈ / Q). Il est possible de définir une GC régulière G ⊂ Σ × Cat (B) telle que L(G) = L(A)\{ǫ}. Preuve 1 (Preuve de la Propriété 1) Cette propriété découle de la transformation classique d’un AF en une grammaire linéaire à gauche G1 = hΣ, Q, P1 , Si, que l’on peut ensuite transformer en une GC G ∈ Gr . On remplace q0 par S puis ∀a ∈ Σ et ∀q, q ′ ∈ Q tels que q ′ ∈ δ(q, a) on fait : – si q ′ ∈ F alors – q −→ a est une règle de G1 (élément de P1 ) et ha, qi ∈ G ; – si ∃u ∈ Σ tel que ∃q ′′ ∈ δ(q ′ , u) alors q −→ aq ′ est une règle de G1 et ha, q/q ′ i ∈ G ; – sinon q −→ aq ′ est une règle de G1 et ha, q/q ′ i ∈ G. ǫ ∈ L(A) si et seulement si q0 ∈ F . Cette situation amène à ajouter S −→ ǫ dans P1 . Mais, dans une GC, il est impossible d’affecter une catégorie à ǫ. Cette règle n’a donc pas de contrepartie dans G et nous avons : L(A)\{ǫ} = L(G1 )\{ǫ} = L(G). Exemple 3 En appliquant la propriété précédente à l’AF de l’Exemple 1, nous obtenons les règles de G1 suivantes (où l’état i est associé à un non-terminal noté qi , avec q0 = S ) : 66 S −→ aq1 , q1 −→ aq1 , q1 −→ b, q1 −→ bq2 , q2 −→ b, q2 −→ bq2 . La GC obtenue est : G = {ha, S/q1 i, ha, q1 /q1 i, hb, q1 i, hb, q1 /q2 i, hb, q2 i, hb, q2 /q2 i}. Les AF peuvent donc simplement être lexicalisés, sous la forme d’une GC. Remarquons que, dans les GCs régulières que nous avons définies, seul l’opérateur / est utilisé dans les catégories affectées aux mots du vocabulaire, et seul le schéma FA est utile (on aurait pu aussi se restreindre à l’opérateur \ et au schéma BA en transformant l’AF en une grammaire linéaire à gauche). En fait, la transformation précédente ne préserve pas seulement le langage final, mais aussi les structures d’analyse, qui sont des peignes. Ainsi, les exemples structurés, tels que définis dans la Définition 4 sont en quelque sorte disponibles “gratuitement” à partir des phrases. Exemple 4 La Figure 2 montre deux arbres d’analyse syntaxique produits par la CG de l’Exemple 3, et (à droite) les exemples structurés correspondant. S FA FA q1 b S/q1 a a S FA FA q1 FA S/q1 a b a q1 FA q1 / q1 a q1 / q2 b FA a q2 b FA b b F IG . 2 – Deux analyses syntaxiques et les exemples structurés correspondant Propriété 2 (Transformation d’une GC régulière en un AF) Toute GC régulière G ⊂ Σ×Cat (B) peut être transformée en un AF A = hQ, Σ, δ, q0 , F i reconnaissant le même langage (sans ǫ). Preuve 2 (Schéma de preuve de la Propriété 2) Cette transformation est l’inverse de celle exposée dans la Propriété 1 : le seul point notable est qu’il est plus facile d’ajouter un unique état final FA dans A. Soit donc Q = B ∪ {FA } avec FA ∈ / B , q0 = S et F = {FA }. Chaque affectation ha, U/V i ∈ G correspond à une transition étiquetée par a entre les états U et V dans A (soit encore : 67 δ(U, a) = V ) et chaque affectation ha, U i ∈ G à une transition étiquetée par a entre U et FA (δ(U, a) = FA ). Exemple 5 L’AF obtenu en appliquant cette opération à la GC de l’Exemple 3 est donné en Figure 3. Il ne coincide pas exactement avec celui de l’Exemple 1 à cause de l’état final ajouté à ceux provenant des catégories de base. Le résultat est, de ce fait, non déterministe. a a S b q2 q1 b b FA b F IG . 3 – AF obtenu à partir d’une GC Remarque 1 Les Propriétés 1 et 2 ne signifient pas que seules les GCs régulières génèrent des langages réguliers. Celle de l’Exemple 2 n’est pas régulière au sens de la Définition 5 mais elle génère un langage fini (donc régulier). Mais elle ne produit pas que des peignes. Propriété 3 (Langage associé à une catégorie ou à un état) Soit G une GC régulière et A l’AF obtenu à partir de G. Alors, pour toute catégorie de base q ∈ B (correspondant à un état non final q ∈ Q de A), nous avons deux façons distinctes de caractériser le langage L(q) associé à q : L(q) = {w = v1 . . . vn ∈ Σ+ | ∀i ∈ {1, . . . , n} ∃Ai ∈ Cat (B) tel que hvi , Ai i ∈ G et A1 . . . An →∗ q} et L(q) = {w ∈ Σ+ |FA ∈ δ + (q, w)}. Preuve 3 (Schéma de preuve de la Propriété 3) Cette propriété est une conséquence triviale des Propriétés 1 et 2, où q remplace S . La seconde définition de L(q) n’est correcte que parce que nous savons que FA 6= q est l’unique état final de A. Ainsi, les successions de mots (ou chaînes) auxquelles G associe la catégorie q sont celles qui correspondent dans A à un chemin qui part de l’état q et aboutit à l’état FA . Bien sûr, si q = q0 = S, on retrouve L(S) = L(A) = L(G). Exemple 6 Dans l’AF de la Figure 3, L(q1 ) = a∗ b+ et L(q2 ) = b+ . 3 Inférence de GCs par exemples positifs L’étude de l’apprenabilité des GCs par exemples positifs seuls au sens de Gold (Gold, 1967) a donné lieu à de nombreux travaux récents, initiés par Kanazawa (Kanazawa, 68 1998). Maintenant que nous disposons d’un mécanisme de traduction d’une sous-classe des GCs (les GCs régulières) en AFs, il est naturel de se demander si des résultats concernant l’apprenabilité de ces GCs peuvent se traduire en résultats d’apprenabilité de langages réguliers. 3.1 Modèle de Gold Définition 6 (Critère d’apprenabilité) Soit G un ensemble de grammaires (par la suite, G sera une sous-classe de l’ensemble des GCs) sur un alphabet Σ et soit une fonction qui associe un langage à chaque grammaire. Cette fonction sera soit le langage des chaînes L : G −→ pow(Σ∗ ) (cf. Définition 3) soit le langage des structures F L : G −→ pow(ΣF ) (cf. Définition 4). Soit φ une fonction qui à tout échantillon fini de phrases de Σ∗ (resp. d’exemples structurés de ΣF ) associe une grammaire de G . On dit que cette fonction converge vers G ∈ G sur un échantillon hsi ii∈N d’éléments de Σ∗ (resp. de ΣF ) si Gi = φ(hs0 , ..., si i) est défini et égal à G pour un nombre infini de valeurs de i ∈ N ou, ce qui revient au même, si ∃n0 ∈ N tel que pour tout i ≥ n0 , Gi et défini et égal à G. On dit que φ apprend la classe G par exemples positifs (resp. par exemples structurés positifs) si pour tout langage L de L(G) = {L(G)|G ∈ G} (resp. de F L(G) = {F L(G)|G ∈ G}) et pour tout séquence hsi ii∈N qui énumère L, c’est-à-dire telle que {si |i ∈ N} = L, il existe G ∈ G telle que L = L(G) (resp. L = F L(G)) et φ converge vers G sur hsi ii∈N . G est apprenable s’il existe une fonction φ calculable qui apprend G . Théorème 1 (Apprenabilité de Gk (Kanazawa, 1998)) Pour tout entier k ≥ 1, la classe des GCs k -valuées Gk est apprenable par exemples positifs et par exemples structurés positifs. 3.2 Apprentissage de GCs et inférence grammaticale régulière Dans cette section, nous traduisons les résultats d’apprenabilité de Kanazawa dans la classe des GCs régulières, puis, nous rapprochons deux résultats connus. Théorème 2 (Apprenabilité des GCs régulières k-valuées) Pour tout entier k ≥ 1, la classe des GCs régulières k -valuées Gk ∩ Gr est apprenable par exemples positifs et par exemples structurés positifs. Preuve 4 (Schéma de preuve du Théorème 2) Ce théorème est une conséquence du Théorème 1, restreint à la classe Gr . Tout algorithme d’apprentissage de Gk à partir de structures peut être adapté pour devenir un algorithme d’apprentissage de Gk ∩ Gr à partir de chaînes, en associant des peignes avec noeuds FA aux chaînes et en ne conservant que les sorties de la fonction d’apprentissage qui sont isomorphes à des grammaires régulières (ce qui est décidable).  S Bien sûr, k≥1 {L(G)|G ∈ Gk ∩ Gr } contient tous les langages réguliers. Mais le principal intérêt de cette classe est que, contrairement au cas général, elle tout aussi 69 facile à apprendre à partir de chaînes qu’à partir d’exemples structurés. Cette propriété sera étendue au delà des GCs régulières dans la section suivante. Cependant le résultat d’apprenabilité lui-même n’est pas très surprenant. En effet, pour tout entier k, les AFs qui traduisent les GCs de Gk ∩ Gr (suivant le processus décrit dans la preuve de la Propriété 2) ont au plus k transitions étiquetées par le même mot du vocabulaire. Or, le nombre d’AFs vérifiant cette propriété est fini. L’apprentissage par exemples positifs d’un ensemble fini est toujours possible. Néanmoins, cette classe d’automates a des caractéristiques originales. Elle inclut tout aussi bien des AFs déterministes que des AFs non-déterministes. Et, contrairement aux classes habituellement considérées en inférence grammaticale régulière, elle semble bien adaptée aux grands alphabets (à condition que k soit petit). Pour compléter le rapprochement que nous avons commencé à établir entre AFs et GCs, nous rapprochons dans ce qui suit deux résultats connus. Définition 7 (AFs 0-réversibles (Angluin, 1982)) Un AF est dit 0-réversible si et seulement si il est déterministe, et l’AF obtenu en inversant le sens de ses transitions, et en échangeant les rôles des états initiaux et finaux est déterministe. La classe des AFs 0-réversibles est apprenable par exemples positifs. Définition 8 (CG réversible (Besombes & Marion, 2004)) Une GC est dite réversible si elle ne contient pas deux affectations de catégories pour un même mot du vocabulaire, qui ne sont distinctes que par une seule catégorie de base. La classe des GCs réversibles est apprenable à partir d’exemples structurés et de chaînes. Théorème 3 (Equivalence entre ces deux notions de réversibilité) Soit G une GC régulière et A l’AF obtenu à partir de G. A est 0-réversible dans le sens de la Définition 7 si et seulement si G est réversible dans le sens de la Définition 8. Preuve 5 (Preuve du Théorème 3) Par construction, A n’a qu’un seul état initial et aucune transition étiquetée par ǫ. Pour que A soit déterministe, il suffit donc qu’il n’existe pas deux transitions avec la même étiquette au départ d’un même état. Cette condition se traduit dans G par : ∀a ∈ Σ – ∀Q1 , Q2 , Q3 ∈ B : ha, Q1 /Q2 i ∈ G et ha, Q1 /Q3 i ∈ G ⇔ Q2 = Q3 . – ∀Q1 , Q2 ∈ B : ha, Q1 i ∈ G et ha, Q1 /Q2 i ∈ G ⇔ Q2 = FA (ha, Q1 i joue en quelque sorte le rôle de ha, Q1 /FA i et aucune transition ne part de FA ) ; De même, A n’a qu’un seul état final donc la condition pour que son inverse soit déterministe se traduit dans G de la façon suivante : ∀a ∈ Σ – ∀Q1 , Q2 ∈ B : ha, Q1 i ∈ G et ha, Q2 i ∈ G ⇔ Q1 = Q2 – ∀Q1 , Q2 , Q3 ∈ B : ha, Q1 /Q2 i ∈ G et ha, Q3 /Q2 i ∈ G ⇔ Q1 = Q3 . Pour les GCs régulières, ces conditions coïncident avec celles de la Définition 8. Ainsi, le résultat d’apprenabilité de la classe des AFs 0-réversibles à partir de chaînes (Angluin, 1982) se déduit du résultat d’apprenabilité de la classe des GCs régulières réversibles par exemples structurés, qui lui-même découle de (Besombes & Marion, 2004). Là encore, ce résultat n’est pas très surprenant : (Besombes & Marion, 2004) se sont inspirés des grammaires algébriques réversibles de (Sakakibara, 1992) qui, luimême, s’était inspiré de (Angluin, 1982). 70 3.3 Algorithme d’apprentissage Les résultats d’apprenabilité du théorème 1 ne sont pas uniquement théoriques : ils s’accompagnent de la définition d’une fonction d’apprentissage originale. Elle est fondée sur un algorithme que nous appellerons BP, en hommage à ses inventeurs (Buszkowski & Penn, 1990), qui est capable, pour tout entier k et tout ensemble d’exemples structurés D, d’identifier l’ensemble des GCs k-valuées sans catégorie inutile (cf. définition 12 plus loin) compatibles avec D. Nous rappelons ici le principe de cet algorithme, en l’illustrant sur un exemple où les éléments de D sont des peignes avec F A pour noeuds internes. Pour tout élément de D, les premières étapes de BP consistent à : 1. introduire l’étiquette S à la racine de chaque exemple structuré ; 2. introduire une variable distincte xi à chaque noeud argument (c’est-à-dire, au fils gauche de chaque noeud BA, et au fils droit de chaque noeud FA) ; 3. introduire à chaque autre noeud la catégorie qui rend possible l’application des schémas FA et BA qui étiquettent ces noeuds. La GC définie en récoltant les affectations de catégories aux feuilles des éléments de D à la fin de ces étapes est appelée forme générale de D et notée F G(D). Exemple 7 Soit D défini comme l’ensemble des deux exemples structurés de l’Exemple 4. Les étapes 1 à 3 décrites précédemment aboutissent au résultat donné par la Figure 4, et F G(D) est alors définie comme suit : – a : S/x1 , S/x4 , x4 /x3 ; – b : x1 , x3 /x2 , x2 . L’AF correspondant est donné en Figure 5 : il est presque identique à ce que, en inférence grammaticale, on appelle automate canonique minimal reconnaissant {ab, aabb}. La seule différence est que notre AF a un unique état initial et un unique état final. S FA S FA S/x1 a x1 b x4 FA S/x4 a x3 FA x4 / x3 a x3 / x2 b x2 b F IG . 4 – Résultat de l’application des 3 premières étapes de BP La suite de l’algorithme BP consiste à chercher des substitutions unificatrices applicables sur F G(D). On précise donc tout d’abord ce que sont ces substitutions. 71 a S b x1 a b b a x3 x4 F x2 F IG . 5 – l’AF correspondant à F G(D) Définition 9 (Catégories avec variables et substitutions) Soit χ un ensemble infini dénombrable de variables et soit B = χ ∪ {S}. Une substitution est une fonction σ : χ −→ Cat (B) qui transforme une variable en une catégorie (par défaut, elle vaut l’identité sur χ). Une substitution est étendue par morphisme à une fonction de Cat (B) dans Cat (B) de la manière suivante : (i) σ(S) = S , (ii) σ(A/B) = σ(A)/σ(B) et (iii) σ(A\B) = σ(A)\σ(B) pour tout A, B ∈ Cat (B). De même, une substitution peut être étendue à une GC quelconque G : σ(G) = {hv, σ(A)i|hv, Ai ∈ G}. Pour toute GC G, une substitution unificatrice de G est une substitution qui unifie des catégories affectées à un même mot du vocabulaire de G. Propriété 4 (Propriété Fondamentale (Buszkowski & Penn, 1990)) Pour toute GC G, les propriétés suivantes sont équivalentes : (i) D ⊆ F L(G) et (ii) ∃σ telle que σ[GF (D)] ⊆ G. En d’autres termes, les GCs compatibles avec un ensemble d’exemples structurés D sont celles qui incluent une substitution de F G(D). Quand il cible des GCs k-valuées, l’étape 4 de l’algorithme BP consiste donc à chercher toutes les substitutions unificatrices de F G(D) qui sont dans Gk . Le résultat de BP est donc un ensemble de GCs. Si D est constitué d’exemples structurés et k = 1, la grammaire qui a produit D, si elle existe, est unique et isomorphe, à la limite, au résultat de BP : BP est alors un algorithme d’apprentissage efficace. Si k > 1, le résultat de BP n’est en général pas réduit à un singleton. Pour obtenir une fonction d’apprentissage au sens de Gold, il faut donc être capable de faire un choix parmi ses éléments. Cette étape nécessite de réaliser des tests d’inclusion et est très coûteuse en temps de calcul. Nous ne la détaillerons pas ici. Appliquer une substitution à une GC est une opération de généralisation. En effet, on a la propriété suivante (Buszkowski & Penn, 1990) : σ(G1 ) ⊆ G2 =⇒ F L(G1 ) ⊆ F L(G2 ), qui implique que : F L(G) ⊆ F L(σ(G)). De même : L(G) ⊆ L(σ(G)). Cette opération a-t-elle un lien avec celle de fusion d’états, qui est utilisée en inférence grammaticale régulière (Angluin, 1982; Oncina & Garcia, 1992; Dupont et al., 1994) ? C’est ce que nous allons voir maintenant. Dans le cas d’un ensemble D constitué de peignes avec noeuds internes FA, F G(D) est toujours une GC régulière. Donc, pour unifier deux catégories de F G(D), seuls deux cas peuvent se produire : – des conditions de la forme σ(xi ) = σ(xj ) = xj pour xi et xj dans χ spécifient précisément une fusion des états xi et xj dans l’AF correspondant à F G(D). – des conditions de la forme σ(xi ) = xj /xk , pour xi ∈ χ et xj , xk ∈ χ ∪ {S} sont, au premier abord, plus difficiles à interpréter. Elles signifient en fait deux choses : – l’état xi est renommé en xj /xk ; 72 – toutes les chaînes auxquelles F G(D) affectait la catégorie xi peuvent désormais être utilisées comme “transition” pour passer de l’état xj à l’état xk . Exemple 8 Définissons une substitution unificatrice σ pour la F G(D) obtenue dans l’Exemple 7 comme suit : σ(x4 ) = σ(x1 ) = x3 /x2 (et σ est l’identité partout ailleurs). La GC σ(GF (D)) est alors définie par : – a : S/(x3 /x2 ), (x3 /x2 )/x3 ; – b : x3 /x2 , x2 . Cette GC n’est plus régulière, à cause des catégories affectées à a. Néanmoins, on peut encore lui associer un automate en intégrant à celui-ci une “transition récursive”, c’està-dire une transition étiquetée non plus par un élément du vocabulaire, mais par un état (ici, x3 /x2 ). L’automate obtenu est celui de la Figure 6. a S x3 /x2 a b b x3 /x2 F x2 x3 F IG . 6 – L’automate généralisé correspondant à σ(F G(D)) Dans cet automate, les états nommés x1 et x4 dans l’AF de la Figure 5 ont été fusionnés, sous l’effet de la condition σ(x4 ) = σ(x1 ). La condition σ(x1 ) = x3 /x2 a, elle, eu pour effet de renommer cet état en x3 /x2 , et de remplacer la transition étiquetée par b entre x3 et x2 par une transition étiquetée par x3 /x2 : c’est ce que nous appelons une transition récursive. Pour la franchir, il faut produire une chaîne de catégorie x3 /x2 c’est-à-dire, d’après la Propriété 3, une chaîne qui correspond à un chemin qui part de l’état x3 /x2 et aboutit à l’état final F . Le premier exemple d’un tel chemin, c’est évidemment la transition étiquetée par b qui relie x3 /x2 à F . Mais, partant de l’état x3 /x2 , il est aussi possible d’emprunter d’abord la transition étiquetée par a qui mène à x3 , avant de franchir une nouvelle fois la transition récursive. Une pile (implicite) est nécessaire pour enregistrer tous les appels récursifs successifs issus du franchissement de cette transition. Le langage reconnu par cet automate généralisé n’est autre que an bn qui, bien sûr, n’est pas régulier. On peut rapprocher ce dispositif de celui des Réseaux de Transitions Récursifs ou RTRs (Woods, 1970), mais réduit à un seul automate (dans les RTRs, il y a autant d’automates que de symboles non terminaux). L’arbre d’analyse syntaxique associé à la chaîne aaabbb par σ(F G(D)) est donné Figure 7. Cet arbre n’est plus un peigne. Pour comprendre sa construction, le mieux est de se reporter à l’arbre d’analyse syntaxique associé à aabb par F G(D), en Figure 4. Dans ce dernier arbre, on voit que x4 étiquette un noeud interne, tandis que x3 /x2 étiquette une feuille. La condition σ(x4 ) = x3 /x2 ouvre donc la possibilité de substituer le sous-arbre de racine x4 à la place de la feuille x3 /x2 . Cette opération, qui coïncide 73 exactement avec ce qui est appelé une ajonction dans le formalisme des Tree Adjoining Grammars (Joshi & Schabes, 1997), produit comme résultat l’arbre de la Figure 7. S FA S/(x3 /x2 ) a x3 /x2 FA x3 FA (x3 /x2 )/ x3 a x2 b x3 /x2 FA x3 FA (x3 /x2 )/ x3 a x3 / x2 b x2 b F IG . 7 – Arbre d’analyse syntaxique de aaabbb par σ(F G(D)) 4 Apprentissage de langages à partir de peignes L’Exemple 8 suggère qu’il est possible de produire de vrais arbres par adjonctions de peignes, et de représenter les langages algébriques par des automates généralisés. Cette section est consacrée à la formalisation de ces idées, et à leur exploitation pour améliorer l’algorithme d’apprentissage de GCs à partir de chaînes de Kanazawa. 4.1 Automates récursifs et leur expressivité Définition 10 (Automate récursif) Un automate récursif (AR par la suite) R est un quintuplet R = hQ, Σ, γ, q0 , F i où Q est l’ensemble fini des états de R, Σ son vocabulaire fini, son unique état initial est q0 ∈ Q et F ∈ Q son (unique) état final. γ est la fonction de transition de R, définie de Q × (Σ ∪ Q) vers 2Q . La seule différence importante entre les ARs et les AFs est que, dans un AR, les transitions peuvent être étiquetées soit par un élément de Σ, soit par un élément de Q. Dans ce dernier cas, on parle de transition récursive. Pour franchir une transition récursive, il faut produire un élément du langage de l’état qui étiquette la transition. 74 Nous nous restreignons ici aux ARs qui ont un unique état initial et un unique état final, mais cela ne restreint pas l’expressivité du modèle. Comme nous nous intéresserons aux langages sans ǫ, on peut supposer de plus que F 6= q0 . Définition 11 (Language Reconnu par un AR) Le langage L(R) reconnu (ou engendré) par un AR R = hQ, Σ, γ, q0 , F i est le plus petit ensemble défini par : L(R) = {w ∈ Σ+ |F ∈ γ + (q0 , w)}, où γ + est l’extension naturelle de γ à Q × Σ+ . Pour pour tout u ∈ Σ+ , tout v ∈ Σ∗ et tout q ∈ Q, γ + (q, uv ) est défini comme le plus petit sous-ensemble contenant {γ ∗ (q ′ , v)|q ′ ∈ γ(q, u)} si u ∈ Σ et {γ ∗ (q ′ , v)|∃t ∈ Q tel que q ′ ∈ γ(q, t) et u ∈ L(t)} sinon, où L(t) est le langage de l’état t, défini comme en Définition 3 en remplaçant δ par γ . Cette définition de L(G) est récursive : L(G) est défini comme un plus petit point fixe, quand il existe. Une transition récursive étiquetée par un état q ∈ Q sera dite vraiment récursive s’il existe un chemin qui mène de l’état q à F en passant par cette transition. Les transitions vraiment récursives sont celles qui permettent des adjonctions et produisent donc des structures qui ne sont pas nécessairement des peignes. Théorème 4 (Des GCs unidirectionnelles aux ARs) Une GC unidirectionnelle n’affecte que des catégories qui sont soit de base, soit construites avec l’opérateur / uniquement. L’ensemble des GCs unidirectionnelles sera noté G/ . Pour toute GC dans G ∈ G/ , on peut construire un AR fortement équivalent à G, c’està-dire produisant les mêmes structures. Preuve 6 (Schéma de la preuve du Théorème 4) Il est connu depuis longtemps que toute GC G ⊂ Σ × Cat (B) peut être transformée en une grammaire algébrique H = hΣ, N, P, Si sous forme normale de Chomsky fortement équivalent à G. H est construite de la façon suivante : N est l’ensemble de toutes les sous-catégories d’une catégorie présente dans les affectations de G (une catégorie est une sous-catégorie d’elle-même) et P contient toutes les règles de la forme A −→ v pour tout hv, Ai ∈ G et toutes les règles de la forme A −→ A/B B pour toute catégorie A et B dans N (pour les GC unidirectionnelles, cela suffit). Pour construire un AR à partir de ces règles, il suffit de procéder exactement comme avec les règles régulières utilisées dans la Preuve de la Propriété 2. Corollaire 1 (Corollaire du Théorème 4) Les grammaires de G/ peuvent produire tous les langages algébriques sans ǫ (Bar-Hillel et al., 1960). Donc, les ARs peuvent également produire tous ces langages. Exemple 9 La CG de G/ classique qui reconnaît an bn , n ≥ 1, est : {ha, S/Bi, ha, (S/B)/Si, hb, Bi}. L’AR correspondant (distinct de celui de Example 8) est donné en Figure 8. Cet AR peut être simplifié : les transitions récursives qui ne sont pas vraiment récursives peuvent être lexicalisées. Ici, on peut effacer l’état (S/B)/S et remplacer la transition récursive qui y fait référence entre S/B et S par a. Ce n’est possible pour aucun autre état. 75 (S/B)/S S/B a (S/B)/S a S S/B B b F F IG . 8 – Un autre AR reconnaissant an bn Les ARs produisent les mêmes structures que les GCs unidirectionnelles, c’est-àdire ne faisant appel qu’au schéma FA. On espère donc, comme dans l’Exemple 8, les apprendre à partir de peignes uniquement. Mais l’AR de la Figure 8 n’appartient à aucun espace de recherche qui partirait d’un ensemble de peignes, parce qu’il comprend des états qui ne sont pas accessibles à partir de l’été initial. On devra donc contraindre un peu plus nos ARs (ou nos GCs unidirectionnelles) pour espérer les apprendre ainsi. 4.2 Apprentissage de GCs unidirectionnelles à partir de peignes Quand les données de départ sont des chaînes uniquement, la stratégie d’apprentissage employée par Kanazawa (Kanazawa, 1998) consiste à générer toutes les structures possibles compatibles avec ces chaînes, avant de lancer l’algorithme d’inférence à partir d’exemples structurés décrit en section 3.3. Nous proposons une nouvelle stratégie bien moins coûteuse, adaptée à de nouvelles sous-classes de GCs. Définition 12 (Nouvelles sous-classes de GCs) Une GC G est dite sans catégorie inutile si toute affectation d’une catégorie à un mot du vocabulaire dans G est utilisée au moins une fois dans l’analyse syntaxique d’un élément de L(G) (Kanazawa, 1998)). Soit : GkFA = {σ(G)|G ∈ Gk ∩ Gr et G est sans catégorie inutile et σ est une substitution unificatrice pour G}. S Bien sûr, pour tout k ≥ 1, GkFA ⊂ Gk ∩ G/ . De plus, k≥1 {L(G)|G ∈ GkFA } contient tous les langages réguliers (cf. commentaires du Théorème 2, sachant que σ = Id peut être considérée comme un cas particulier de substitution unificatrice) et certains langages algébriques (voir Example 8). Mais elle ne semble pas contenir tous les langages algébriques et nous ne savons pas encore caractériser précisément son expressivité. Le problème est qu’un état inutile parce que non accessible dans un AF (correspondant à une catégorie inutile dans une GC) peut devenir utile bien que toujours inaccessible après qu’une substitution ait été appliquée à l’AF pour le transformer en un AR. Le théorème suivant explicite la propriété fondamentale des éléments de GkFA . Théorème 5 Pour tout k ≥ 1 et toute GC G ∈ GkFA , il existe un ensemble fini D ⊂ F L(G) constitué uniquement de peignes avec noeuds internes FA et il existe τ , une substitution unificatrice pour F G(D), tels que G = τ (F G(D)). 76 Preuve 7 (Preuve du Théorème 5) Pour tout G ∈ GkFA , par définition, ∃G′ ∈ Gk ∩ Gr sans catégorie inutile et ∃σ une substitution unificatrice pour G′ telles que G = σ(G′ ). Nous savons, d’après le Théorème 2 que Gk ∩ Gr est apprenable par exemples structurés. Soit D un ensemble caractéristique d’exemples structurés pour G′ (voir (Kanazawa, 1998)). G′ est régulière, donc D n’est constitué que de peignes avec noeuds internes FA. G′ est sans catégorie inutile, donc elle appartient au résultat de l’algorithme BP appliqué aux données k et D (Kanazawa, 1998). Cela signifie qu’il existe une substitution unificatrice ρ pour F G(D) telle que G′ = ρ(F G(D)). On a donc G = σ(G′ ) = σ(ρ(F G(D)). On prend donc τ = σ ◦ ρ. Le Théorème 5 signifie que les membres de GkFA ont un ensemble caractéristique qui n’est constitué que de peignes avec noeuds internes FA, et qu’ils appartiennent donc au résultat de l’algorithme BP appliqué à cet ensemble. Cela suggère un nouvel algorithme pour apprendre la classe GkFA à partir de chaînes (voir l’Algorithme 1), qui n’a pas besoin de générer toutes les structures possibles associées à ces chaînes. Algorithm 1 algorithme qui infère des GCs dans GkFA qui reconnaissent hs0 , ..., si i Require: hs0 , ..., si i où ∀i, si ∈ Σ+ et k 1: j ←− 0 2: repeat 3: Cj ←− {s0 , ..., sj } \\ essayer Cj comme ensemble caractéristique 4: associer une structure de peignes avec noeuds FA à tous les éléments de Cj 5: appliquer l’algorithme BP à cet ensemble pour obtenir l’ensemble Rj,k ⊂ Gk des GCs sans catégorie inutile compatibles avec lui 6: supprimer les éléments de Rj,k dont le langage de chaînes ne contient pas {sj+1 , ..., si } 7: j ←− j + 1 8: until (j = i + 1) OR (Rj,k 6= ∅) Ensure: Rj,k : un ensemble de GCs de GkFA qui reconnaissent hs0 , ..., si i Les GCs de GkFA sont au plus k-valuées. Mais la valeur de k requise par l’Algorithme 1 peut être plus grande que celle requise par l’algorithme BP. Les GCs de GkFA sont en quelque sorte sous une certaine forme normale : elles ne produisent que des peignes ou des adjonctions de peignes. Le Théorème 5 assure que, pour toute grammaire G ∈ GkFA produisant L(G) = hsi ii∈N , l’Algorithme 1 contient, à la limite, G parmi ses résultats. 5 Conclusion Cette étude est un premier pas pour intégrer dans un même cadre les travaux réalisés en inférence grammaticale de langages réguliers et ceux réalisés en apprentissage de grammaires catégorielles. Les premiers bénéfices de ce rapprochement sont l’obtention, sans beaucoup d’efforts, de résultats originaux, et surtout une meilleure compréhension de la nature des opérations de généralisation utilisées dans chacune des deux approches. Une autre conséquence, sans doute moins attendue, de ce travail, est la définition d’une 77 nouvelle classe d’automates qui étend naturellement celle des automates finis tout en entretenant des liens forts avec les grammaires catégorielles unidirectionnelles. Ce rapprochement montre surtout que le domaine de l’inférence grammaticale de langages algébriques n’est peut-être pas si différente qu’on le pensait de l’inférence de langages réguliers. Dans les langages réguliers, les structures se déduisent directement des chaînes. Quand, en revanche, il s’agit d’apprendre un langage algébrique à partir de chaînes, les structures possibles sont sous-déterminées. D’où l’idée, finalement assez naturelle, de chercher une forme normale pour représenter les langages algébriques qui contraigne le plus possible les structures sous-jacentes. Cette première approche demande bien sûr à être complétée et approfondie, notamment pour voir si elle recoupe ou non des travaux déjà effectués en inférence de grammaires algébriques. Références A NGLUIN D. (1982). Inference of reversible languages. J. ACM, 29(3), 741–765. BAR -H ILLEL Y., G AIFMAN C. & S HAMIR E. (1960). On categorial and phrase structure grammars. Bulletin of the Research Council of Israel, 9F. B ESOMBES J. & M ARION J.-Y. (2004). Learning reversible categorial grammars from structures. In Categorial Gramars. B USZKOWSKI W. & P ENN G. (1990). Categorial grammars determined from linguistic data by unification. Studia Logica, 49, 431–454. D ENIS F., L EMAY A. & T ERLUTTE A. (2002). Some language classes identifiable in the limit from positive data. In ICGI 2002, number 2484 in Lecture Notes in Artificial Intelligence, p. 63–76 : Springer Verlag. D UPONT P., M ICLET L. & V IDAL E. (1994). What is the search space of the regular inference. In L. N. IN A RTIFICIAL I NTELLIGENCE , Ed., ICGI’94 - Lectures Notes in Computer Science, volume 862 - Grammatical Inference and Applications, p. 25–37, Heidelberg. F LORÊNCIO C. C. (2002). Consistent identification in the limit of rigid grammars from strings is np-hard. In M. V. Z. P. A DRIAANS , H. F ERNAU, Ed., Grammatical Inference : Algorithms and Applications, volume 2484 of Lecture Notes in Artificial Intelligence, p. 49–62 : Springer Verlag. F LORÊNCIO C. C. (2001). Consistent identification in the limit of any of the classes k-valued is NP-hard. In Logical Aspects of Computational Linguistics, volume 2099 of Lecture Notes in Artificial Intelligence, p. 125–134 : Springer Verlag. G OLD E. (1967). Language identification in the limit. Inform. Control, 10, 447–474. J OSHI A. & S CHABES Y. (1997). Handbook of Formal Languages, vol3, chapter TreeAdjoining Grammars, p. 69–120. Springer Verlag. K ANAZAWA M. (1998). Learnable Classes of Categorial Grammars. The European Association for Logic, Language and Information. CLSI Publications. O NCINA J. & G ARCIA P. (1992). Inferring regular languages in polynomial update time. In Pattern Recognition and Image Analysis, p. 49–61. S AKAKIBARA Y. (1992). Efficient learning of context-free grammars from positive structural examples. Information and Computation, 97(1), 23–60. W OODS W. (1970). Transition network grammars for natural language analysis. Commun. ACM, 10, 591–606. 78 Séparateurs à Vaste Marge Optimisant la Fonction Fβ Jérôme Callut and Pierre Dupont Department of Computing Science and Engineering, INGI Université catholique de Louvain, Place Sainte-Barbe 2 B-1348 Louvain-la-Neuve, Belgium {jcal,pdupont}@info.ucl.ac.be Abstract : Dans cet article, nous introduisons une nouvelle paramétrisation des Séparateurs à Vaste Marge (SVM) appelée Fβ SVM. Cette dernière permet d’effectuer un apprentissage basé sur l’optimisation de la fonction Fβ au lieu de l’erreur de classification habituelle. Les expériences montrent les avantages d’une telle démarche par rapport à la formulation soft-margin standard (avec les écarts à la marge au carré) lorsque l’on accorde une importance différente à la précision et au rappel. Une procédure automatique basée sur le score Fβ de généralisation est ensuite introduite pour sélectionner les paramètres du modèle. Cette procédure repose sur les résultats de Chapelle, Vapnik et al. (Chapelle et al., 2002) concernant l’utilisation de méthodes basées sur le gradient dans le cadre de la sélection de modèles. Les dérivées de la fonction de perte Fβ par rapport à la constante de régularisation C et à la largeur σ d’un noyau gaussien sont définies formellement. A partir de là, les paramètres du modèle sont sélectionnés en effectuant une descente de gradient de la fonction de perte Fβ dans l’espace des paramètres. Les expériences sur des données réelles montrent les bénéfices de cette approche lorsque l’on cherche à optimiser le critère Fβ . 1 Introduction Support Vector Machines (SVM) introduced by Vapnik (Vapnik, 1995) have been widely used in the field of pattern recognition for the last decade. The popularity of the method relies on its strong theoretical foundations as well as on its practical results. Performance of classifiers is usually assessed by means of classification error rate or by Information Retrieval (IR) measures such as precision, recall, Fβ , breakeven-point and ROC curves. Unfortunately, there is no direct connection between these IR criteria and the SVM hyperparameters: the regularization constant C and the kernel parameters. In this paper, we propose a novel method allowing the user to specify his requirement in terms of the Fβ criterion. First of all, the Fβ measure is reviewed as a user specification criterion in section 2. A new SVM parametrization dealing with the β parameter is introduced in section 3. Afterwards, a procedure for automatic model selection according 79 CAp 2005 to Fβ is proposed in section 4. This procedure is a gradient-based technique derived from the results of Chapelle, Vapnik et al. (Chapelle et al., 2002). Finally, experiments with artifical and real-life data are presented in section 5. 2 User specifications with the Fβ criterion Precision and recall are popular measures to assess classifiers performance in an information retrieval context (Sebastiani, 2002). Therefore, it would be convenient to use these evaluation criteria when formulating the user specifications. For instance, let us consider the design of a classifier used to retrieve documents according to topic. Some users prefer to receive a limited list of relevant documents even if this means losing some interesting ones. Others would not want to miss any relevant document at the cost of also receiving non-relevant ones. Those specifications correspond respectively to a high precision and a high recall. The two previous measures can be combined in a unique Fβ measure in which the paramater β specifies the relative importance of recall with respect to precision. Setting β equals to 0 would only consider precision whereas taking β = ∞ would only take recall into account. Moreover, precision and recall are of equal importance when using the F1 measure. The contingency matrix and estimations of precision, recall and Fβ are given hereafter. +1 -1 Target: +1 True Pos. (#T P ) False Neg. (#F N ) Target: -1 False Pos. (#F P ) True Neg. (#T N ) Precision π Recall ρ Fβ #T P #T P +#F P #T P #T P +#F N (β 2 +1)πρ β 2 π+ρ 3 Fβ Support Vector Machines In this section, we introduce a new parametrization of SVM allowing to formulate user specifications in terms of the Fβ criterion. To do so, we establish a relation between the contingency matrix and the slack variables used in the soft-margin SVM setting. Based on this link, we devise a new optimization problem which maximizes an approximation of the Fβ criterion regularized by the size of the margin. 3.1 Link between the contingency matrix and the slacks Let us consider a binary classification task with a training set T r = {(x1 , y1 ), . . . , (xn , yn )} where xi is an instance in some input space X and yi ∈ {−1, +1} represents its category. Let n+ and n− denote respectively the number of positive and negative examples. The soft-margin formulation of SVM allows examples to be missclassified or to lie inside the margin by the introduction of slack variables ξ in the problem constraints: 80 OP1 Minimize W (w, b, ξ) = 12 kwk2 + C.Φ(ξ) s.t.  yi (hw, xi i + b) ≥ 1 − ξi ξi ≥ 0 ∀ i = 1..n ∀ i = 1..n where w and b are the parameters of the hyperplane. The Φ(.) term introduced in the objective function is used to penalize solutions presenting many training errors. For any feasible solution (w, b, ξ), missclassified training examples have an associated slack value of at least 1. The situation is illustrated in figure 1. Hence, it seems natural to chose a function counting the number of slacks greater or equal to 1 as penalization function Φ(.). Unfortunately, the optimization of such a function combined with the margin criterion turns out to be a mixed-integer problem known to be NP-hard (Schölkopf & Smola, 2002). P In fact, two approximations P of the counting function are commonly used: Φ(ξ) = ni=1 ξi (1-norm) and Φ(ξ) = ni=1 ξi2 (2-norm). These approximations present two peculiarities: 1) The sum of slacks related to examples inside the margin might be considered as errors. 2) Examples with a slack value greater than 1 might contribute as more than one error. However, the use of these approximations is computationally attractive as the problem remains convex, quadratic and consequently solvable in polynomial time. In the sequel, we will focus on the 2-norm alternative. Figure 1: Soft-margin SVM and associated slacks The computation of the preceding approximations separately for different class labels allows to bound the elements of the contingency matrix. Proposition 1 Let (w,b,ξ) be a solution satisfying the constraints of OP1. The following bounds holds for the elements of the contingency matrix computed on the training set: 81 CAp 2005 • #T P ≥ n+ − • #F N ≤ X ξi2 X{i|yi =+1} ξi2 • #F P ≤ X ξi2 {i|yi =−1} • #T N ≥ n− − {i|yi =+1} X ξi2 {i|yi =−1} These bounds will be called the slack estimates of the contingency matrix. It should be noted that they also could have been formulated using the 1-norm approximation. 3.2 The Fβ parametrization Let us introduce a parametrization of SVM in which a regularized Fβ criterion is optimized. The Fβ function can be expanded using the definition of precision and recall as: Fβ = (β 2 + 1)πρ (β 2 + 1)#T P = β2π + ρ (β 2 + 1)#T P + β 2 #F N + #F P The optimal value for Fβ (≤ 1) is obtained by minimizing β 2 #F N +#F P . Replacing #F N and #F P by their slack estimates and integrating this into the objective function leads to the following optimization problem: OP2 Minimize W (w, b, ξ) = s.t.  1 kwk2 + C.[β 2 . 2 yi (hw, xi i + b) ≥ 1 − ξi ξi ≥ 0 X {i|yi =+1} ξi2 + X ξi2 ] {i|yi =−1} ∀ i = 1..n ∀ i = 1..n The relative importance of the Fβ criterion with respect to the margin can be tuned using the regularization constant C. Since the slack estimates for #F P and #F N are upper bounds, OP2 is based on a pessimistic estimation of the Fβ . OP2 can be seen as an instance of the SVM parametrization considering two kinds of slacks with the associated regularization constants C + and C − (Nello Critianini, 2002). In our case, the regularization constants derive from the β value, i.e. C + = Cβ 2 and C − = C. It should be pointed out that when β = 1, OP2 is equivalent to the traditional 2-norm soft-margin SVM problem. The optimization of the Fβ criterion is closely related to the problem of training a SVM with an imbalanced dataset. When the prior of a class is by far larger than the prior of the other class, the classifier obtained by a standard SVM training is likely to act as the trivial acceptor/rejector (i.e. a classifier always predicting +1, respectively −1). To avoid this inconvenience, some authors (Veropoulos et al., 1999) have introduced different penalities for the different classes using C + and C − . This method has been applied in order to control the sensitivity1 of the model. However, no automatic procedure has been proposed to choose the regularization constants with respect to the 1 The sensitivity is the rate of true positive examples and is equivalent to recall. 82 user specifications. Recently, this technique has been improved by artificially oversampling the minority class (Akbani et al., 2004). Other authors (Amerio et al., 2004) have proposed to select a unique regularization constant C through a bootstrap procedure. This constant is then used as a starting point for tuning C + and C − on a validation set. 4 Model selection according to Fβ In the preceding section, we proposed a parametrization of SVM enabling the user to formulate his specifications with the β parameter. In addition, the remaining hyperparameters, i.e. the regularization constant and the kernels parameters, must be selected. In the case of SVM, model selection can be made using the statistical properties of the optimal hyperplane, thus avoiding the need of performing cross-validation. Indeed, several bounds of the leave-one-out (loo) error rate can be directly derived from the parameters of the optimal hyperplane expressed in dual form (Vapnik & Chapelle, 2000; Schölkopf et al., 1999; Joachims, 2000). A practical evaluation of several of these bounds has been recently proposed in (Duan et al., 2003). Moreover, Chapelle, Vapnik et al. (Chapelle et al., 2002) have shown that the hyperplane dual parameters are differentiable with respect to the hyperparameters. This allows the use of gradient-based techniques for model selection (Chapelle et al., 2002; Chung et al., 2003). In this section, we propose a gradient-based algorithm selecting automatically C and the width σ of a gaussian kernel2 according to the generalization Fβ score. 4.1 The generalization Fβ loss function It has been proved by Vapnik (Vapnik, 1998) that for an example (xi , yi ) producing a loo error, 4αi R2 ≥ 1 holds, where R is the radius of the smallest sphere enclosing all the training examples and αi is the i-th dual parameter of the optimal hyperplane. This inequality was originally formulated for the hard-margin case. However, it can be applied to the 2-norm soft-margin SVM as the latter can be seen as a hard margin problem with a transformed kernel (Cortes & Vapnik, 1995; Nello Critianini, 2002). Using the preceding inequality, one can build an estimator of the generalization Fβ score of a given model. Alternately, it is possible to formulate a loss function following the reasoning developed in section 3.2:  LFβ (α, R) , 4R2 β 2 X {i|yi =+1} αi + X {i|yi =−1}  αi  4.2 The model selection algorithm We introduce here an algorithm performing automatic model selection according to the Fβ criterion. It selects the model by performing a gradient descent of the Fβ loss 2 k(x , x ) i j = exp(−kxi − xj k2 /2σ2 ) 83 CAp 2005 function over the set of hyperparameters. For the sake of clarity, C and σ, are gathered in a single vector θ. The model selection algorithm is sketched hereafter. Algorithm Fβ M ODEL S ELECTION Input: Training set T r = (x1 , y1 ), . . . , (xn , yn ) Initial values for the hyperparameters θ 0 Precision parameter ǫ Output: Optimal hyperparameters θ ∗ SVM optimal solution α∗ using θ ∗ α0 ← trainFβ SVM(T r, θ 0); 0 (R, λ) ← smallestSphereRadius(T r, θ 0); repeat θ t+1 ← updateHyperparameters(θ t , αt , Rt , λt ); t+1 α ← trainFβ SVM(T r, θ t+1 ); t+1 (R, λ) ← smallestSphereRadius(T r, θ t+1 ); t ← t + 1; until |LFβ (αt , Rt ) − LFβ (αt−1 , Rt−1 )| < ǫ; return {θ t , αt } The trainFβ SVM function solves OP3, the dual problem of OP2, which has the same form as the dual hard-margin problem (Schölkopf & Smola, 2002): OP3 Maximize W (α) = − s.t. n n X 1 X αi αj yi yj k ′ (xi , xj ) + αi 2 i,j=1 i=1  Pn i=1 αi yi = 0 αi ≥ 0 ∀ i = 1..n with a transformed kernel: k ′ (xi , xj ) =  1 k(xi , xj ) + δij . Cβ 2 1 k(xi , xj ) + δij . C if yi = +1 if yi = −1 where δij is the Kronecker delta and k(., .) is the original kernel function. The radius of the smallest sphere enclosing all the examples computed by the smallestSphereRadius function is obtained by taking the square root of the objective function optimal value in the following optimization problem (Schölkopf & Smola, 2002): 84 OP4 Maximize W (λ) = n X λi k ′ (xi , xi ) − i=1 s.t. n X λi λj k ′ (xi , xj ) i,j=1  Pn i=1 λi = 1 λi ≥ 0 ∀ i = 1..n The optimization problems OP3 and OP4 can be solved in polynomial time in n, e.g. using an interior point method (Vanderbei, 1994). Furthermore, the solution to OP3, respectively OP4, at a given iteration can be used as a good starting point for the next iteration. At each iteration, the hyperparameters can be updated by means of a gradient step : θt+1 = θt − η.∂LFβ /∂θ where η > 0 is the updating rate. However, second order methods often provide a faster convergence, which is valuable since two optimization problems have to be solved at each iteration. For this reason, the updateHyperparameters function relies on the BFGS algorithm (Fletcher & Powell, 1963), a quasiNewton optimization technique. The time complexity of the updateHyperparameters function is O(n3 ) since it is dominated by the inversion of a possibly n × n matrix (see section 4.3). The derivatives of the Fβ loss function with respect to the hyperparameters are detailed in the next section. The algorithm is iterated until the Fβ loss function no longer changes by more than ǫ. 4.3 Derivatives of the Fβ loss function The derivatives of the transformed kernel function with respect to the hyperparameters are given by:   −1/(C 2 β 2 ) if i = j and yi = +1 ∂k ′ (xi , xj ) −1/C 2 if i = j and yi = −1 =  ∂C 0 otherwise ∂k ′ (xi , xj ) ∂σ 2 = k(xi , xj ) kxi − xj k2 2σ 4 The derivatives of the squared radius can then be obtained applying the lemma 2 of Chapelle, Vapnik et al. (Chapelle et al., 2002): n n X X ∂R2 ∂k ′ (xi , xi ) ∂k ′ (xi , xj ) = λi − λi λj ∂θ ∂θ ∂θ i=1 i,j=1 where θ ∈ {C, σ 2 }. The derivation of the hyperplane dual parameters proposed in (Chapelle et al., 2002) follows:  T  ∂(α, b) y Ky y −1 ∂H T = −H (α, b) , H = yT 0 ∂θ ∂θ 85 CAp 2005 where K is the kernel matrix and y is the vector of examples labels. The H matrix is derived by using the preceding kernel function derivatives. It should be stressed that only examples corresponding to support vectors have to be considered in the above formula. Finally, the derivative of LFβ (., .) with respect to a hyperparameter θ is given by:   X ∂LFβ (α, R) ∂R2  2 X = 4 β αi + αi  ∂θ ∂θ {i|yi =+1} +  4R2 β 2 X {i|yi =+1} ∂αi + ∂θ {i|yi =−1} X {i|yi =−1}  ∂αi  ∂θ 5 Experiments We performed several experiments to assess the performance of the Fβ parametrization and the model selection algorithm. First, the Fβ parametrization was tested with positive and negative data in R10 drawn from two largely overlapping normal distributions. The priors for positive and negative classes were respectively 0.3 and 0.7. It is usually more difficult to obtain a good recall when data are unbalanced in this way. Experiments were carried out using training sets of 600 examples, a fixed test set of 1,000 examples and a linear kernel. A comparison between the Fβ parametrization and the 2norm soft-margin SVM with C = 1 is displayed in figure 2. For each β considered, the training data were resampled 10 times in order to produce averaged results. In this setting, our parametrization obtained better Fβ scores than the standard soft-margin SVM, especially when a high recall was requested. The second part of the figure 2 presents the evolution of precision, recall and the Fβ score for different β values. Figure 2: The Fβ parametrization tested with artificially generated data. Left: comparison between the standard 2-norm soft-margin SVM and the Fβ parametrization. Right: Evolution of precision, recall and of the Fβ score accoring to different β values. 86 Afterwards, our parametrization was tested using several class priors. The experimental setup was unchanged except for the class priors while generating the training and test data. Figure 3 shows the evolution of the Fβ score obtained by our parametrization and by the 2-norm soft-margin SVM using several class priors. For the standard 2-norm soft-margin SVM, one notes that the effect of the priors is particularly important when positive examples are few in numbers and that a high recall is requested. In this setting, our parametrization outperformed the standard 2-norm soft-margin SVM by more than 0.1. Figure 3: The Fβ parametrization tested using artificially generated data with several class priors. Top: Fβ scores obtained on the test set using the Fβ parametrization. Bottom: Fβ scores obtained on the test set using the standard 2-norm soft-margin SVM. 87 CAp 2005 The model selection algorithm was first tested with data generated as in the previous paragraph. The hyperparameters C and σ were initialized to 1 and the precision parameter ǫ was set to 10−6 . Our objective was to investigate the relation between the minimization of the Fβ loss function and the Fβ score obtained on unknown test data. The figure 4 shows the evolution of the Fβ loss function during the gradient descent, using β = 2. The associated precision, recall and Fβ scores on test data are displayed in the bottom of the figure 4. Even if the optima of the Fβ loss function and the Fβ score do not match exactly, one can observe that good Fβ scores were obtained when the Fβ loss function is low. After 35 iterations, the classifier obtained a Fβ score close to 0.9 with the hyperparameters C = 4.33 and σ = 1.94. Figure 4: The Fβ model selection algorithm tested with artificially generated data and with β = 2. Top: the evolution of the Fβ loss function during the gradient descent. Bottom: the related values of precision, recall and Fβ score on independent test data. The model selection algorithm was then compared to the Radius-Margin (RM) based algorithm (Chapelle et al., 2002) using the Diabetes dataset (Blake & Merz, 1998). This dataset contains 500 positive examples and 268 negative examples. It was randomly split into a training and a test set, each one containing 384 examples. In this setting, it is usually more difficult to obtain a classifier with a high precision. The same initial conditions as before were used. The RM based algorithm select the model parameters of the 2-norm soft-margin SVM according to the RM estimator of the gen- 88 eralization error rate. It should be pointed out that when β = 1, both methods are equivalent since the same function is optimized. The comparison is illustrated in the first part of the figure 5. As expected, our method provided better results when β moves far away from value 1. The influence of the β parameter on precision, recall and the Fβ score can be observed in the second part of the figure 5. Figure 5: The Fβ model selection algorithm tested with the Diabetes dataset. Left: Comparison between the Fβ model selection algorithm and the radius-margin based method. Right: Evolution of precision, recall and of the Fβ score accoring to different β values. 6 Conclusion We introduced in this paper Fβ SVMs, a new parametrization of support vector machines. It allows to formulate user specifications in terms of Fβ , a classical IR measure. Experiments illustrates the benefits of this approach over a standard SVM when precision and recall are of unequal importance. Besides, we extended the results of Chapelle, Vapnik et al. (Chapelle et al., 2002) based on the Radius-Margin (RM) bound in order to automatically select the model hyperparameters according to the generalization Fβ score. We proposed an algorithm which performs a gradient descent of the Fβ loss function over the set of hyperparameters. To do so, the partial derivatives of the Fβ loss function with respect to these hyperparameters have been formally defined. Our experiments on real-life data show the advantages of this method compared to the RM based algorithm when the Fβ evaluation criterion is considered. Our future work includes improvements to the model selection algorithm in order to deal with larger training sets. Indeed, it is possible to use a sequential optimization method (Keerthi et al., 2000) in the smallestSphereRadius function and chunking techniques (Joachims, 1998; Schölkopf & Smola, 2002) in the trainFβ SVM function. This typically allows to solve problems with more than 104 variables. Moreover, we believe that the inverse matrix H −1 can be computed incrementally during the chuncking iterations, using the Schur inversion formula for block matrices (Meyer, 2000). 89 CAp 2005 Acknowledgment This work is partially supported by the Fonds pour la formation à la Recherche dans l’Industrie et dans l’Agriculture (F.R.I.A.) under grant reference F3/5/5-MCF/FC-19271. References A KBANI R., K WEK S. & JAPKOWICZ N. (2004). Applying support vector machines to imbalanced datasets. In Proceedings of the 15th European Conference on Machine Learning (ECML), p. 39–50, Pisa, Italy. A MERIO S., A NGUITA D., L AZZIZZERA I., R IDELLA S., R IVIECCIO F. & Z UNINO R. (2004). Model selection in top quark tagging with a support vector classifier. In Proceedings of International Joint Conference on Neural Networks (IJCNN 2004), Budapest, Hungary. B LAKE C. & M ERZ C. (1998). UCI repository of machine learning databases. C HAPELLE O., VAPNIK V., B OUSQUET O. & M UKHERJEE S. (2002). Choosing multiple parameters for support vector machines. Machine Learning, 46(1-3), 131–159. C HUNG K.-M., K AO W.-C., S UN C.-L., WANG L.-L. & L IN C.-J. (2003). Radius margin bounds for support vector machines with the rbf kernel. Neural Comput., 15(11), 2643–2681. C ORTES C. & VAPNIK V. (1995). Support-vector networks. Machine Learning, 20(3), 273– 297. D UAN K., K EERTHI S. S. & P OO A. N. (2003). Evaluation of simple performance measures for tuning svm hyperparameters. Neurocomputing, 51, 41–59. F LETCHER R. & P OWELL M. J. D. (1963). A rapidly convergent descent method for minimization. Computer Journal, 6, 163–168. J OACHIMS T. (1998). Making large-scale support vector machine learning practical. In A. S. B. S CHOLKOPF, C. B URGES, Ed., Advances in Kernel Methods: Support Vector Machines. MIT Press, Cambridge, MA. J OACHIMS T. (2000). Estimating the generalization performance of a SVM efficiently. In P. L ANGLEY, Ed., Proceedings of ICML-00, 17th International Conference on Machine Learning, p. 431–438, Stanford, US: Morgan Kaufmann Publishers, San Francisco, US. K EERTHI S. S., S HEVADE S. K., B HATTACHARYYA C. & M URTHY K. R. K. (2000). A fast iterative nearest point algorithm for support vector machine classifier design. IEEE-NN, 11(1), 124. M EYER C. D. (2000). Matrix analysis and applied linear algebra. Society for Industrial and Applied Mathematics. N ELLO C RITIANINI J. S.-T. (2002). An Introduction to Support Vector Machines. The Press Syndicate of the University of Cambridge. S CH ÖLKOPF B., S HAWE -TAYLOR J., S MOLA A. J. & W ILLIAMSON R. C. (1999). Generalization Bounds via Eigenvalues of the Gram Matrix. Rapport interne, Australian National University. Submitted to COLT99. S CH ÖLKOPF B. & S MOLA A. (2002). Learning with Kernels. Cambridge: MIT Press. S EBASTIANI F. (2002). Machine learning in automated text categorization. ACM Computing Surveys, 34(1), 1–47. VANDERBEI R. (1994). LOQO: An Interior Point Code for Quadratic Programming. Rapport interne SOR 94-15, Princeton University. 90 VAPNIK V. (1995). The Nature of Statistical Learning Theory. New York: Springer Verlag. VAPNIK V. (1998). Statistical Learning Theory. New York: Wiley-Interscience. VAPNIK V. & C HAPELLE O. (2000). Bounds on error expectation for support vector machines. Neural Computation, 12(9). V EROPOULOS K., C RISTIANINI N. & C AMPBELL C. (1999). Controlling the sensitivity of support vector machines. In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI99), Stockholm, Sweden. 91 92 Kernel Basis Pursuit Vincent Guigue, Alain Rakotomamonjy, Stéphane Canu1 Lab. Perception, Systèmes, Information - CNRS - FRE 2645 Avenue de l’Université, 76801 St Étienne du Rouvray {Vincent.Guigue, Alain.Rakoto, Stephane.Canu}@insa-rouen.fr Résumé : Les méthodes à noyaux sont largement utilisées dans le domaine de la régression. Cependant, ce type de problème aboutit à deux questions récurrentes : comment optimiser le noyau et comment régler le compromis biais-variance ? L’utilisation de noyaux multiples et le calcul du chemin complet de régularisation permettent de faire face simplement et efficacement à ces deux tâches. L’introduction de noyaux multiples est également un moyen de fusionner des sources d’information hétérogènes. Notre approche est inspirée de l’algorithme Basis Pursuit (Chen et al., 1998). Nous avons suivi la méthode de Vincent et Bengio pour la non-linéarisation du Basis Pursuit (Vincent & Bengio, 2002). Cet article présente une solution simple et parcimonieuse pour le problème de régression par méthode à noyaux multiples. Nous avons utilisé la formulation du LASSO (Least Absolute Shrinkage and Selection Operator) (Tibshirani, 1996), basée sur une régularisation L1 , et l’algorithme du LARS (Stepwise Least Angle Regression) (Efron et al., 2004) pour la résolution. La régularisation L1 est un gage de parcimonie tandis que le calcul du chemin complet de régularisation, via le LARS, permet de définir de nouveaux critères pour trouver le compromis biais-variance optimal. Nous présenterons également une heuristique pour le réglage des paramètres du noyau, afin de rendre la méthode complètement non paramétrique. Mots-clés : Régression, Noyaux Multiples, LASSO, Méthode Non-Paramétrique Abstract : Kernel methods have been widely used in the context of regression. But every problem leads to two major tasks: optimizing the kernel and setting the fitness-regularization compromise. Using multiple kernels and Basis Pursuit is a way to face easily and efficiently these two tasks. On top of that, it enables us to deal with multiple and heterogeneous sources of information. Our approach is inspired by the Basis Pursuit algorithm (Chen et al., 1998). We use Vincent and Bengio’s method (Vincent & Bengio, 2002) to kernelize the Basis Pursuit and introduce the ability of mixing heterogeneous sources of information. 1 This work was supported in part by the IST Program of the European Community, under the PASCAL Network of Excellence, IST-2002-506778. This publication only reflects the authors’ views. 93 CAp 2005 This article aims at presenting an easy, efficient and sparse solution to the multiple Kernel Basis Pursuit problem. We will use the Least Absolute Shrinkage and Selection Operator (LASSO) formulation (Tibshirani, 1996) (L1 regularization), and the Stepwise Least Angle Regression (LARS) algorithm (Efron et al., 2004) as solver. The LARS provides a fast and sparse solution to the LASSO. The fact that it computes the optimal regularization path enables us to propose new autoadaptive hyper-parameters for the fitness-regularization compromise. We will also propose some heuristics to choose the kernel parameters. Finally, we aim at proposing a parameter free, sparse and fast regression method. Key words: Regression, Multiple Kernels, LASSO, Parameter Free. 1 Introduction The context of our work is the following: we wish to estimate the functional dependency between an input x and an output y of a system given a set of examples {(xi , yi ), xi ∈ X , yi ∈ Y, i = 1 . . . n} which have been drawn i.i.d from an unknown probability law P (X, Y ). Thus, our aim is to recover the function f which minimizes the following risk R[f ] = E{(f (X) − Y )2 } (1) but as P (X, Y ) is unknown, we have to look for the function f which minimizes the empirical risk : n X Remp [f ] = (f (xi ) − yi )2 (2) i=1 This problem is ill-posed and a classical way to turn it into a well-posed one is to use regularization theory (Tikhonov & Arsénin, 1977; Girosi et al., 1995). In this context, the solution of the problem is the function f ∈ H that minimizes the regularized empirical risk : n 1X Rreg [f ] = (yi − f (xi ))2 + λΩ(f ) (3) n i=1 where H is the hypothesis space, Ω is a functional which measures the smoothness of f and λ a regularization parameter (Wahba, 1990). Under general conditions on H (Reproducing Kernel Hilbert Space) (Kimeldorf & Wahba, 1971), the solution of this minimization problem is of the form: f (x) = n X βi K(xi , x) (4) i=1 where K is the reproducing kernel of H. The objective of this paper is two-fold: to propose a method to build a sparse kernelbased solution for this regression problem and to introduce new solutions for the biasvariance compromise problem. The question of the sparsity of the solution f can be addressed in two different ways. The first approach is to use a regularization term in equation 3 that imposes sparsity of β whereas the second one is based on stepwise 94 Kernel Basis Pursuit method consisting in adding functions from a dictionary. The bias-variance problem involves several parameters, especially the kernel parameters and the hyper-parameter trading between goodness-of-fit and regularization. Our solution is based on ℓ1 regularization, we use Ω = kβkℓ1 in equation 3. This formulation is called the Least Absolute Shrinkage and Selection Operator (LASSO) (Tibshirani, 1996), it will enable us to improve sparsity. Our solver relies on the Stepwise Least Angle Regression (LARS) algorithm (Efron et al., 2004), which is an iterative forward algorithm. Thus, the sparsity of the solution is closely linked to the efficiency of the method. We use Vincent and Bengio’s strategy (Vincent & Bengio, 2002) to kernelize the resulting method. Finally, we end at the Kernel Basis Pursuit algorithm. Associated with this learning problem, there are two major tasks to build a good regression function with kernel: optimizing the kernel and choosing a good compromise between fitness and regularization. The use of multiple kernels is a way to make the first task easier. We will use the optimal path regularization properties of the LARS to propose new heuristics, in order to set dynamically the fitness-regularization compromise. In section 2, we will compare two approaches to the question of sparsity: the Matching Pursuit and the Basis Pursuit. We will explain the building and the use of the multiple kernels, combined with the LARS in section 3. Our results on synthetic and real data are presented in section 4. Section 5 gives our conclusions and perspectives on this work. 2 Basis vs Matching Pursuit Two common strategies are available to face the problem of building a sparse regression function f . The first one relies on an iterative building of f . At each step k, the comparison between the target y and the function fk leads to add a new source of information to build fk+1 . This approach is fast but it is greedy and thus sub-optimal. The second solution consists in solving a learning problem, by minimizing the regularized empirical risk of equation 3. Mallat and Zhang introduced the Matching Pursuit algorithm (Mallat & Zhang, 1993): they proposed to construct a regression function f as a linear combination of elementary functions g picked from a finite redundant dictionary D. This algorithm is iterative and one new function g is introduced at each step, associated with a weight β. At step k, we get the following approximation of f : fk = k X βi g i (5) i=1 Given Rk , the residue generated by fk , the function gk+1 and its associated weight βk+1 are selected according to: (gk+1 , αk+1 ) = argming∈D,β∈R kRk − βgk2 (6) The improvements described by Pati et al. (Orthogonal Matching Pursuit algorithm) (Pati et al., 1993) keep the same framework, but optimize all the weights βi at each 95 CAp 2005 step. A third algorithm called pre-fitting (Vincent & Bengio, 2002) enables us to choose (gk+1 , βk+1 ) according to Rk+1 . All those methods are iterative and greedy. The different variations improve the weights or the choice of the function g but the main characteristic remains unchanged. Matchin Pursuit does not allow to get rid of a previous source of information, which means that its solution is sub-optimal. The approach of Chen et al. (Chen et al., 1998) is really different: they consider the whole dictionary of functions and look for the best linear solution (equation 5) to estimate y, namely, the solution which minimizes the regularized empirical risk. Using Ω = kβkℓ1 leads to the LASSO formulation. Such a formulation requires costly and complex linear programming (Chen, 1995) or modified EM implementation (Grandvalet, 1998) to be solved. Finally it enables them to find an exact solution to the regularized learning problem. The Stepwise Least Angle Regression (LARS) (Efron et al., 2004) offers new opportunities, by combining an iterative and efficient approach with the exact solution of the LASSO. The fact that the LARS begins with an empty set of variables, combined with the sparsity of the solution explains the efficiency of the method. The ability of deleting dynamically useless variables enables the method to converge to the exact solution of the LASSO problem. 3 Learning with multiple kernels 3.1 Building a multiple kernel regression function Vincent and Bengio (Vincent & Bengio, 2002) propose to treat the kernel K exactly in the same way as the matrix X . Each column of K is then a source of information that can be added to the linear regression model f . Given an input vector x and a parametric mapping function Φθ defined by Φθ : Rd x F → Φθ (x) = Kθ (x, ·) (7) where F is the spanned feature space, we consider Kθ (x, .) as a source of information. It becomes easy to deal with multiple mapping functions Φi . The multiple resulting kernels Ki are placed side by side in a big matrix K:   (8) K = K 1 . . . Ki . . . KN N is the number of kernels. In this situation, each source of information Ki (xj , ·) is characterized by a point xj of the learning set and a kernel parameter i. The number of information sources is then s = nN and K ∈ Rn×s . The learning problem becomes a variable selection problem where the βi coefficients can be seen as the weights of the sources of information. We simplify the notations: f= N X n X i=1 j=1 βij Ki (xj , ·) = 96 s X i=1 βi K(i, ·) = Kβ (9) Kernel Basis Pursuit It is important to note that no assumption is made on the kernel Kθ which can be non-positive. K can associate kernels of the same type (e.g. Gaussian) with different parameter values as well as different types of kernels (e.g. Gaussian and polynomial). The resulting matrix K is neither positive definite or square. 3.2 LARS The LARS (Efron et al., 2004) is a stepwise iterative algorithm which provides an exact to minimization of the regularized empirical risk (equation 3) with Ω = kβkℓ1 . We use the following formulation, which is equivalent to the LASSO: minβ ky − Kβk2 With respect to: kβkℓ1 ≤ t (10) We denote by βi the regression coefficient associated to the ith source of information and by ŷ (j) = Kβ (j) the regression function at step j. More generally, we will use exponent to characterize the iteration. LARS is made of the following main steps: 1. Initialization: the active set of information source A is empty, all β coefficients are set to zero. 2. Computation of the correlation between the sources of information and the residue. The residue R is defined by R = y − ŷ. 3. The most correlated source is added to the active set. A = {A arg max(|KθT (xi , ·)R|)} i,θ (11) 4. Definition of the best direction in the active set: − u→ A This is the most expensive part of the algorithm in time computation since it requires the inversion of the T matrix KA KA . 5. The original part of the algorithm resides in the computation of the step γ. The idea is to compute γ such as two functions are equi-correlated with the residue (cf Fig. 1) whereas Ordinary Least Square (OLS) algorithm defines γ such as − u→ A −− − − − → and ŷ (j+1) , y become orthogonal. 6. The regression function is updated: ŷ (j+1) = ŷ (j) + γ − u→ A (12) It is necessary to introduce the ability of suppressing a function from the active set to fit the LASSO solution, namely to turn the forward algorithm into a stepwise method. When the sign of a βi changes during the update (equation (12), the step γ is reduced so that this βi becomes zero. Then, the corresponding source is removed from the active set and an optimization is performed over the new active set. Solving the LASSO is really fast with this method, due to the fact that it is both forward and sparse. The first steps are not expensive, because of the small size of the 97 CAp 2005 y A − → u A ŷ 3 ŷ 2 Figure 1: Computation of the step γ between ŷ (2) and ŷ (3) . The plane denoted A represents the space spanned by the active set. active set, then it becomes more and more time consuming with iterations. But the sparsity of ℓ1 regularization limits the number of required iterations. LARS begins with an empty active set whereas linear programming and other backward methods begin with all functions and require to solve high dimensional linear system to put irrelevant coefficients to zero. Given the fact that only one point is added (or removed) during an iteration, it is possible to update the inverted matrix of step four instead of fully computing it. This leads to a simple-LARS algorithm, similarly to the simple-SVM formulation (Loosli et al., 2004), which also increases the speed of the method. 3.3 Optimization of regularization parameter One of the most interesting property of the LARS is the fact that it computes the whole regularization path. The regularization parameter λ of equation 3 is equivalent to the bound t of equation 10. At each step, the introduction of a new source of information leads to an optimal solution, corresponding to a given value of t. In the other classical algorithms, λ is set a priori and optimized by cross-validation. The LARS enables us to compute a set of optimal solutions corresponding to different values of t, with only one learning stage. It also enables us to optimize the value of t dynamically, during the learning stage. Finding a good setting for t is very important: when t becomes too large, the resulting regression function is the same as the Ordinary Least Square (OLS) regression function. Hence, it requires the resolution of linear system of size s × s. Early stopping should enable us to decrease the time computation (which is linked to the sparsity of the solution) as well as to improve the generalization of the learning (by regularizing). 3.3.1 Different compromise parameters The computation of the complete regularization path offers the opportunity to set the compromise parameter dynamically (Bach et al., 2004). The first step is to look for different expressions of the regularization parameter t of equation (10). The aim is to find the most meaningful one, namely the easiest way to set this parameter. 98 Kernel Basis Pursuit - The original formulation of the LARS relies on the compromise parameter t which is a bound on the sum of the absolute values of the β coefficients. t is difficult to set because it is somewhat meaningless. - It is possible to apply Ljung criterion (Ljung, 1987) on the autocorrelation of the residue. The parameter is then a threshold which decides when the residue can be considered as white noise. - Another solution consists in the study of the evolution of loss function ℓ(yi , fθj (xi )) with regards to the step j. The criterion is a bound on the variation of this cost. - ν-LARS. It is possible to define a criterion on the number of support vectors or on the rate of support vectors among the learning set. It is important to note that the ν threshold is then a hard threshold, whereas in the ν-SVM method where ν can be seen as an upper bound on the rate of support vectors (Schölkopf & Smola, 2002). However, all these methods require the setting of a parameter a priori. The value of this parameter is estimated by cross-validation. 3.3.2 Trap source We propose another method based on a trap parameter. The idea is to introduce one or many sources of information that we do not want to use. When the most correlated source with the residue belongs to the trap set, the learning procedure is stopped. The trap sources of information can be built on different heuristics: - according to the original signal noise when there exists prior knowledge on the data, - with regards to the distribution of the learning points, to prevent overfitting (cf Fig. 2), in this case, a Gaussian kernel K = Kσof is added to the information sources, with σof very small, - by adding random variables among the sources of information (with Gaussian or uniform distribution). This kind of heuristic has already been used in variable selection (Bi et al., 2003). The use of a trap scale is closely linked to the way that LARS selects the sources of information. As seen in section 3.2, the selected source of information at a given iteration is the most correlated with the residue. Those heuristics are based on the meaning of the trap scale: the learning stage should be stopped when the residue is most correlated respectively with the noise, with only one source of information or with an independent random variable generated according to the uniform distribution. This means that no more relevant information is present in the sources that are not in the active set. 99 CAp 2005 0.2 Learning points K (x,⋅) 0.18 σ 1 K (x,⋅) σ 2 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 2 4 6 8 10 12 14 16 Figure 2: Illustration of a trap scale based on overfitting heuristic (Gaussian kernel). When Kσ2 (x, ·) is the most correlated source of information with the residue, it means that the error is caused by only one point, it is a way to detect the beginning of overfitting. 3.4 Optimizing kernel parameters Instead of searching an optimal parameter (or parameter vector) for the problem, we propose to find a key scale to fit the regions where there are the highest point density in the input space. We aim at finding a reference Gaussian parameter so that the two nearest points in the input space have few influence on each other. This reference parameter represents the smallest bandwidth which can be interesting for a given problem. Then, we propose to build a series of bigger Gaussian parameters from this scale to fit the different densities of points that can append in the whole input space. A one nearest neighbors is performed on the training data. To describe high density regions, we focus on the shortest distances between neighbors. The key distance Dk is defined as the distance between xi and xj , the two nearest points in the input space.The corresponding key Gaussian parameter σk is defined so that:   1 D2 K(xi , xj ) = √ exp − k2 = 0.1 (13) 2σk 2πσk That is to say, the bandwidth σk is designed so that a learning point has few influences on its neighbors in high density regions. For more robustness, it is recommended to use an improved definition of Dk . Given S the set of the one-nearest-neighbor distances. We define Dk as the mean of the 0.01 quantile of S. Then, a series of bandwidth is build as follow: σ = {σk , σk p, σk p2 , σk p3 , σk p4 , σk p5 } (14) We choose to set the cardinal of σ to six, given the fact that experimental results are not improved beyond this value. Cross validations over synthetic data lead to set p = 3.5. Another advantage of multiple kernels is that the LARS will optimize the scale for each point dynamically in the training stage. It offers the opportunity to adapt to the local density of points of the input space. 100 Kernel Basis Pursuit 4 Experiments We illustrate the efficiency of the methodology on synthetic and real data. Tables 1 and 2 present the results with two different algorithms: the SVM and the LARS. We use four strategies to stop the learning stage of the LARS. P - LARS- i |βi | is the classical method where a bound is defined on the sum of the regression coefficient. This bound is estimated by cross validation. - ν-LARS is based on the fraction of support vectors. ν is also estimated by cross validation. - LARS-RV relies on the introduction of random variables as sources of information. The learning stage is stopped when one of these sources is picked up as most correlated with the residue. - LARS-σs relies also on a trap scale, but this scale is built according to the distribution the learning set. Selecting a source in this trap scale can be seen as overfitting. We use σs = σk of equation (13). To validate this approach, we compare the results with classical Gaussian ǫ-SVM regression, Parameters ǫ, C and σ are optimized by cross validation. In order to distinguish the benefit of the LARS from the benefits of the multiple kernel learning, we also give the results of LARS algorithm combined with single kernel. 4.1 Synthetic data The learning of cos(exp(ωt)) regression function, with random sampling show the multiple kernel interest. We try to identify: f (t) = cos(exp(ωt)) + b(t) (15) where b(t) is a Gaussian white noise of variance σb2 = 0.4. t ∈ [0, 2] is drawn according to a uniform distribution, ω = 2.4. We also tested the method over classical synthetic data described by Donoho and Johnstone (Donoho & Johnstone, 1994). For those signals, we took t ∈ [0, 1], drawn according to a uniform distribution. We use 200 points for the learning set and 1000 points P for the testing set. The noise is added only on the learning set. Parameters (ν, i |βi |...) are computed by cross validation on the learning set. Table 1 presents the results over 30 runs for each data base. These results point out the sparsity and the efficiency of LARS solutions. Figure 3 illustrates how multiple kernel learning enables the regression function to fit the local frequency of the model. It also shows that selected points belong higher and higher scales with iterations. Indeed, the correlation with the residue can be seen as an energetic criterion: when the amplitude of the signal remain constant, there is more energy in the low frequency part of the signal. That is why the first selected sources of information describe those parts of the signal. The results with different Donoho’s synthetic signals enable us to distinguish the benefits of the LARS method from the benefits of 101 CAp 2005 Nb kernel Algorithm cos(exp(t)) Doppler Blocks Ramp HeaviSine Nb kernel Algorithm cos(exp(t)) Doppler Blocks Ramp HeaviSine ǫ - SVM 0.16 ± 0.016 155.4 0 0.045 ± 0.0062 59.33 0 1.18 ± 0.20 45.30 0 0.026 ± 0.0055 44.16 22 0.48 ± 0.12 51.43 11 1 P LARS- i |βi | ν-LARS 0.16 ± 0.014 0.17 ± 0.015 130.3 120 0 0 0.041 ± 0.0068 0.043 ± 0.0060 37.10 34 0 0 1.03 ± 0.27 1.19 ± 0.17 25.02 21 2 0 0.028 ± 0.0070 0.029 ± 0.0060 25.63 23 4 0 0.48 ± 0.13 0.49 ± 0.12 37.25 40 11 4 LARS-RV 0.17 ± 0.015 141.3 0 0.039 ± 0.0059 32.80 0 1.07 ± 0.22 27.35 0 0.028 ± 0.0065 33.93 3 0.51 ± 0.11 42.11 0 P LARS- i |βi | 0.13 ± 0.014 122.4 17 0.033 ± 0.0060 44.13 12 0.95 ± 0.34 34.02 13 0.031 ± 0.0080 15.13 1 0.50 ± 0.14 51.30 0 6 (Multiple Kernels) ν-LARS LARS-RV 0.13 ± 0.014 0.13 ± 0.016 120 121.4 3 7 0.035 ± 0.0062 0.033 ± 0.0059 46 47.70 0 18 0.97 ± 0.25 0.96 ± 0.25 38 42.35 0 6 0.032 ± 0.0050 0.031 ± 0.0058 27 22.50 0 0 0.51 ± 0.14 0.49 ± 0.15 49 48.22 0 4 LARS-σs 0.14 ± 0.016 127.8 3 0.035 ± 0.0075 49.80 0 0.99 ± 0.33 35.87 9 0.033 ± 0.0059 27.33 0 0.50 ± 0.15 49.03 0 Table 1: Results of SVM and LARS for the cos(exp(t)) and Donoho’s classical functions estimation. Mean and standard deviation of MSE on the test set (30 runs), number of support vectors used for each solution, number of best performances. 102 Kernel Basis Pursuit Scales of chosen points 7 1.5 scale 1 scale 2 scale 3 scale 4 1 6.5 6 0.5 5.5 5 0 4.5 −0.5 4 −1 3.5 −1.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 3 0 10 20 30 40 50 60 70 80 90 Figure 3: These illustrating figures explain the learning of the cos(exp(ωt)) function with low noise level. Selected learning points belong to different scales, depending on the local frequency of the function to learn. Right figure shows that selected points belong higher and higher scales with iterations, namely, the sources of information correlated with the residue are more and more local with iterations. the multiple kernels. The LARS improves the sparsity of the solution, whereas the multiple kernels improve the results on signals that require a multiple scale approach. ǫ-SVM achieves the best results for Ramp and HeaviSine signals. This can be explained by the fact that the Ramp and HeaviSine signals are almost uniform in term of frequency. The ǫ tube algorithm of the SVM regression is especially efficient on this kind of problem. It is important to note that LARS-RV and LARS-σs are parameter free methods when combined P with the heuristic described in section 3.4. Best results are achieved with LARS- i |βi |, however, LARS-RV results are almost equivalent without any parameters. 4.2 Real data Experiments are carried out over regression data bases pyrim and triazines available in the UCI repository (Blake & Merz, 1998). We compare our results with (Chang & Lin, 2005). The experimental procedure for real data is the following one: Thirty training/testing set are produced randomly, table 2 presents mean and standard deviation of MSE (mean square error) on P the test set. 80% of the points are used for training and the remaining paramters (ν, i |βi |...) are computed by cross validation on the learning set. The results obtained with LARS algorithm are either equivalent to Chang and Lin’s ones or better. ǫ-SVM solution is not really competitive but it gives an interesting information on the number of support vectors required for each solution. LARS-RV and LARS-σs results are very interesting: they are parameter free using the heuristic describe in section 3.4, moreover the LARS-RV achieves the best results for pyrim. 103 CAp 2005 Nb kernel Algo 1 SVM (Chang & Lin, 2005) ǫ-SVM 0.007 ± 0.007 0.009 ± 0.016 − 37.11 pyrim − 0 0.021 ± 0.005 0.022 ± 0.006 − 80.80 triazines − 0 Nb kernel Algo triazines i 6 (Multiple Kernels) LARS RV i |βi | 0.007 ± 0.008 0.007 ± 0.006 37.03 38.08 13 17 0.019 ± 0.006 0.020 ± 0.005 37.00 52.03 22 8 P pyrim LARS RV |βi | 0.010 ± 0.011 0.011 ± 0.009 29.67 31.20 0 0 0.022 ± 0.006 0.022 ± 0.005 37.00 42.40 0 0 P σs 0.008 ± 0.009 39.26 0 0.022 ± 0.008 31.86 0 Table 2: Results of SVM and LARS for the different regression database. Mean and standard deviation of MSE on the test set (30 runs), number of support vectors used for each solution, number of best performances. 5 Conclusion This paper enables us to meet two objectives: proposing a sparse kernel-based solution for the regression problem and introducing new solutions for the bias-variance compromise problem. The LARS offers opportunities for both problems. It gives an exact solution to the LASSO problem, which is sparse due to ℓ1 regularization. The ability of dealing with multiple kernels allows rough setting for the kernel parameters. Then, LARS algorithm optimizes the parameters at each iteration, selecting a new point in the optimal scale. The fact that the LARS computes the regularization path offers efficient and non parametric settings for the compromise parameter. This methodology gives good results on synthetic and real data. In the meantime, the required time computation is reduced compared with SVM, due to the sparsity of the obtained solutions. The perspectives of this work are threefold. We have to test LARS-methods on more databases to evaluate all properties. We also want to improve the multiple kernel building. Indeed, the use of the current σk often leads to a slight overfitting and to less sparse solutions. Finally, we will analyze the LARS-RV results deeper, to explain the good results and possibly improve them. References BACH F., T HIBAUX R. & J ORDAN M. (2004). Computing regularization paths for learning 104 Kernel Basis Pursuit multiple kernels. In Advances in Neural Information Processing Systems, volume 17. B I J., B ENNETT K., E MBRECHTS M., B RENEMAN C. & S ONG M. (2003). Dimensionality reduction via sparse support vector machines. Journal of Machine Learning Research, 3, 1229– 1243. B LAKE C. & M ERZ C. (1998). UCI rep. of machine learning databases. C HANG M. & L IN C. (2005). Leave-one-out bounds for support vector regression model selection. Neural Computation. C HEN S. (1995). Basis Pursuit. PhD thesis, Department of Statistics, Stanford University. C HEN S., D ONOHO D. & S AUNDERS M. (1998). Atomic decomposition by basis pursuit. SIAM Journal on Scientific Computing, 20(1), 33–61. D ONOHO D. & J OHNSTONE I. (1994). Biometrika, 81, 425–455. Ideal spatial adaptation by wavelet shrinkage. E FRON B., H ASTIE T., J OHNSTONE I. & T IBSHIRANI R. (2004). Least angle regression. Annals of statistics, 32(2), 407–499. G IROSI F., J ONES M. & P OGGIO T. (1995). Regularization theory and neural networks architectures. Neural Computation, 7(2), 219–269. G RANDVALET Y. (1998). Least absolute shrinkage is equivalent to quadratic penalization. In ICANN, p. 201–206. K IMELDORF G. & WAHBA G. (1971). Some results on Tchebycheffian spline functions. J. Math. Anal. Applic., 33, 82–95. L JUNG L. (1987). System Identification - Theory for the User. L OOSLI G., C ANU S., V ISHWANATHAN S., S MOLA A. J. & C HATTOPADHYAY M. (2004). Une boı̂te à outils rapide et simple pour les svm. In CAp. M ALLAT S. & Z HANG Z. (1993). Matching pursuits with time-frequency dictionaries. IEEE Transactions on Signal Processing, 41(12), 3397–3415. PATI Y. C., R EZAIIFAR R. & K RISHNAPRASAD P. S. (1993). Orthogonal matching pursuits : recursive function approximation with applications to wavelet decomposition. In Proceedings of the 27th Asilomar Conference in Signals, Systems, and Computers. S CH ÖLKOPF B. & S MOLA A. (2002). Learning with kernels. T IBSHIRANI R. (1996). Regression shrinkage and selection via the lasso. J. Royal. Statist., 58(1), 267–288. T IKHONOV A. & A RS ÉNIN V. (1977). Solutions of ill-posed problems. W.H. Winston. V INCENT P. & B ENGIO Y. (2002). Kernel matching pursuit. Machine Learning Journal, 48(1), 165–187. WAHBA G. (1990). Spline Models for Observational Data. Series in Applied Mathematics, Vol. 59, SIAM. 105 106 Méthodologie de sélection de caractéristiques pour la classification d’images satellitaires Marine Campedel et Eric Moulines Ecole Nationale Supérieure des Télécommunications Laboratoire de Traitement du Signal et des Images 46, rue Barrault, 75013 Paris marine.campedel@enst.fr, eric.moulines@enst.fr Résumé : Choisir les descripteurs d’une image en vue de son indexation n’est pas aisé, du fait de la variété des choix présentés dans la littérature. Nous développons à cet effet une méthodologie permettant de comparer différents ensembles de caractéristiques extraits d’une même base d’images. Cette méthodologie repose sur des algorithmes supervisés et non supervisés de sélection de caractéristiques. Elle est appliquée à une base d’images satellitaires dont sont extraites des caractéristiques texturales variées.1 . Mots-clés : Sélection de caractéristiques, classification, apprentissage supervisé et non supervisé, machine à vecteurs supports, textures, pertinence. 1 Problème et méthodologie Le travail présenté s’inscrit dans un vaste projet d’indexation d’images satellitaires. Ces images, de plus en plus nombreuses, sont très mal exploitées du fait de leur diversité et de leurs grandes tailles. Nous nous intéressons à la détermination du meilleur ensemble de caractéristiques à extraire pour leur indexation. Nous prolongeons nos travaux précédents (Campedel & Moulines, 2004), en introduisant des algorithmes de sélection de caractéristiques non supervisés2 . L’idée fondamentale de nos méthodes non supervisées, qui peuvent être qualifiées de filtre, consiste à exploiter une mesure de similarité des caractéristiques par l’intermédiaire d’une clusterisation. Il s’agit, à l’instar des auteurs de (Mitra et al., 2002), de regrouper les attributs similaires puis de choisir des représentants pour chacun des groupes produits. L’exploration méthodique de l’espace des sous-ensembles d’attributs est remplacée (et donc simplifiée) par l’opération de clusterisation. Nous exploitons ainsi deux algorithmes de clusterisation, SVC (Ben-Hur et al., 2001) et kMeans, sous le nom de SVC-FS et kMeans-FS (FS pour feature Selection). 1 Cette étude est financée par le Centre National d’Etudes Spatiales (CNES) effet l’étiquetage manuel peut ne pas être envisagé du fait de la taille de la base, mais aussi parce qu’il n’aurait pas de sens envers l’application finale. En particulier, les images satellitaires sont exploitées différemment par les spécialistes de la géologie, de l’agriculture ou de l’urbanisme. 2 En 107 CAp 2005 2 Expérimentations et conclusion Les sélections produites par les différents algorithmes sont comparées à l’aide de l’entropie de représentation (H) et de performances de classification (k-plus-prochesvoisins, classificateur de Fisher et SVM) évaluées par validation croisée. La base de données est constituée de 600 vecteurs de caractéristiques (les 78 coefficients d’Haralick (Haralick et al., 1973) dans le cas présenté), extraits d’imagettes 64 × 64 issues de scènes SPOT 5, à raison de 100 imagettes par classe de texture (nuage, mer, désert, forêt, ville, champs). Les résultats majeurs, présentés dans le tableau 1, sont : – Le nombre de caractéristiques peut être réduit d’un facteur 4 sans accroissement de l’erreur de classification ; – Les méthodes de sélection non supervisées sont aussi performantes que les méthodes supervisées et souvent plus rapides ; – L’entropie de représentation associée aux méthodes supervisées est plus importante, ce qui est significatif de leur capacité à choisir des sous-ensembles moins redondants d’attributs. Satellite d=D d = 20 Fisher Relieff SVM-RFE l2 -AROM MIC kMeans-FS SVC-FS 600 exemples - 6 classes D = 78, 5 validations croisées kPPV(k=8) Fisher SVM 13.8±2.2 30.8±4.3 7.7±2.0 14.8±1.9 18.0±2.0 16.0±2.7 15.8±2.3 14.8±1.6 13.5±2.8 14.8±2.6 30.0±3.0 30.7±3.6 33.3±3.7 33.2±4.7 34.0±2.7 30.3±5.2 31.7±4.2 9.0±2.7 14.8±4.0 12.3±3.4 11.0±1.5 8.8±1.5 6.7±1.0 11.0±2.3 H 0.51 0.19 0.48 0.88 1.09 1.00 1.13 TAB . 1 – Sélection de 20 attributs parmi 78. Les méthodes de sélection non supervisées sont MIC, kMeans-FS et SVC-FS. Références B EN -H UR A., H ORN D., S IEGELMANN H. & VAPNIK V. (2001). Support vector clustering. Journal of Machine Learning Research, 2, 125–137. C AMPEDEL M. & M OULINES E. (2004). Modélisation de textures par sélection de caractéristiques. In CAp04, p. 1–16, Montpellier. H ARALICK R. M., S HANMUGAN K. & D INSTEIN I. (1973). Textural features for image classification. IEEE Transactions on Systems, Man and Cybernetics, 3(6), 610–621. M ITRA P., M URTHY C. & PAL S. (2002). Unsupervised feature selection using feature similarity. IEEE Trans. Pattern Anal. Mach. Intell., 24(3), 301–312. 108 Semantic Learning Methods: Application to Image Retrieval Philippe H. Gosselin and Matthieu Cord ETIS / CNRS UMR 8051 6, avenue du Ponceau, 95014 Cergy-Pontoise, France Introduction. Indexing, retrieval and classification tools are usefull to process large digital document collections. Digital documents can be automatically gathered into clusters or concepts. For instance, concepts like keywords are useful for text database organization. Concepts do not necessarily form a clustering, i.e. a document can belong to several concepts. Documents are usually represented by low-level features, computed automatically, and learning techniques based on relevance feedback are used to retrieve the concepts (Tong & Koller, 2000; Gosselin & Cord, 2004). According to an incomplete set of partial labels, we propose two semantic learning methods to improve the representation of the document collection, even if the size, the number and the structure of the concepts are unknown. These methods may learn a lot of concepts with many mixed information. We build these methods in a general framework, thus powerful learning or semi-supervised learning methods may be used to retrieve, classify, or browse data. Challenge. Suppose that we have a set of documents, each of them represented by a vector xi ∈ RNd of X = {x1 , . . . , xNx }, and a set of labels Y = {y1 , . . . , yNy }. For instance, X can be the set of feature vectors of an image database, and each yp contains the labels provided by a user during the retrieval session p. We suppose that labels are sampled from a hidden set of concepts. The documents are gathered in a finite (but unknown) number Nc of concepts, and these concepts do not necessarily form a clustering. Thus, a document represented by a vector xi can belong to several concepts. For instance on an image database, one can find buildings, cars, houses, or landscapes, but also cars in front of a building or a house, or houses in a landscape. A vector yp ∈ [−1, 1]Nx is a partial labeling of the set X, according to one of the concepts. Every positive value yip means that the document represented by xi is in this concept, as much as yip is close to 1. Every negative value yip means that the document represented by xi is not in this concept, as much as yip is close to −1. Every value yip close to zero means that there is no information for xi about this concept. We also suppose that the number of non-zero values in yp is small against the size of the concept. Thus, from only one yp , it is impossible to build the corresponding concept. The challenge is to use this set of partial labeling in order to learn the concepts. Vector-based update. The repartition of the centers in space is important in the case of mixed concepts. As we wish to represent any possible combination of memberships, centers should be at the same distance from each other. The building of equidistant cen- 109 CAp 2005 2.5 1 2 0.8 0.6 1.5 0.4 1 0.2 0.5 0 0 −0.2 −0.5 −0.4 −1 −0.6 −1.5 −2 −1.5 −0.8 −1 −0.5 0 0.5 1 1.5 2 (a) −1 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 (b) F IG . 1 – Toy example with 3 mixed concepts, blue = concept 1, red = concept 2, green = concept 3, magenta = concept 1 and 2, cyan = concept 1 and 3, yellow = concept 2 and 3. (a) Initial set. (b) Concept Vector Learning method. ters has implications on the dimension Nd of vectors. A theorem also shows, for Nc concepts in a space of Nc − 1 dimensions, that distance between equidistant concept centers is unique, modulo a scaling. It is easy to see that in higher dimension, this property is no longer true. In the computation of possible centers, we exploit this property in order to get equidistant centers. Kernel-based update (Gosselin & Cord, 2005). The knowledge contained in the matrix Y can be used to update the similarity matrix. The similarity matrix is the matrix of all similarities between image pairs. The strategy is based on a kernel matrix adaptation, and is designed to model mixed concepts. We also manage the complexity constraint using efficient eigenvalue matrix decomposition ; the method has a O(Nx ) complexity and memory need, and so it is applicable to large databases. Experiments. Tests are carried out on the generalist COREL photo database. Results show that the proposed method, and especialy the vector-based one, increase significally the performances of the system in comparison to distance learning methods. Conclusion. We introduced a feature-based and a kernel-based semantic learning methods, to improve the performances of an image retrieval system. These methods deal with the constraints of the CBIR framework, and are able to enhance the database representation with a partial and incomplete knowledge about the structure of the database. Tests carried out on a generalist database show that the data representation may be improved by these learning strategies. Using the proposed learning protocol, the vector-based technique gives the best results. Références G OSSELIN P. & C ORD M. (2004). RETIN AL : An active learning strategy for image category retrieval. In IEEE International Conference on Image Processing, Singapore. G OSSELIN P. & C ORD M. (2005). Semantic kernel learning for interactive image retrieval. In IEEE International Conference on Image Processing, Genova, Italy. T ONG S. & KOLLER D. (2000). Support vector machine active learning with applications to text classification. International Conference on Machine Learning, p. 999–1006. 110 Détection de contexte par l’apprentissage⋆ Gaëlle Loosli1, Sang-Goog Lee2 , Stéphane Canu1 1 PSI, CNRS FRE2645, INSA de Rouen, FRANCE gaelle.loosli@insa-rouen.fr and http://asi.insa-rouen.fr/∼gloosli 2 Interaction Lab./Context Awareness TG, Samsung Advanced Institute of Technology, Korea sglee@samsung.com Abstract : Nos travaux s’intéressent à la détection et l’identification de contexte d’un être humain. Ce domaine, aussi appelé « affective computing », requiert la définition de contextes et d’émotions, d’états affectifs ou émotionnels. Ces définitions étant particulièrement délicates à déterminer, nous pensons qu’une approche ascendante (regarder ce qu’il est possible de voir dans les données et en déduire des contextes) est plus abordable que l’approche descendante (définir et caractériser les états et les rechercher dans les données). Nous présentons donc une méthode de segmentation de signaux physiologiques à l’aide de méthodes d’apprentissage non paramétriques, à savoir les SVM à une classe. Mots-clés : OC-SVM, Segmentation, Détection de rupture, Context-Aware, Affective Computing Introduction Dans un monde où les machines sont de plus en plus présentes, on constate de plus en plus de situations qui provoquent la frustration des utilisateurs. Avoir des machines aptes à prendre en compte ces humeurs est un objectif récurrent de beaucoup de travaux. A cette fin nous proposons une approche basée sur un système d’acquisition de données physiologiques, système porté par l’utilisateur. La capacité « d’apprendre » est essentielle pour cette tâche car chaque personne a un fonctionnement qui lui est propre et on ne peut se contenter de connaître les caractéristiques générales à priori pour reconnaître un état affectif. Segmentation des signaux par OC-SVM Le OC-SVM (SVM à une classe) est un algorithme qui vise à déterminer le contour d’une classe et qui permet de détecter les points qui ne sont pas de la classe concernée. Nous pouvons utiliser cet algorithme pour apprendre la classe courante des ⋆ This work was supported in part by the IST Programme of the European Community, under the PASCAL Network of Excellence, IST-2002-506778. This publication only reflects the authors’ views. 111 CAp 2005 signaux et regarder si l’estimation de cette classe permet d’expliquer les données futures. L’adéquation entre l’estimation d’un OC-SVM sur les données passées et d’un autre OC-SVM sur les données futures est un test statistique approximant le test GLR (generalized likelyhood ratio), optimum sous les conditions de Neyman-Pearson. Les ruptures ainsi détectées permettent de segmenter le signal en une suite d’états qui pourront par la suite être identifiés (soit comme état connu soit comme nouvel état). Résultats expérimentaux Nos expériences utilisent des capteurs physiologiques (pression sanguine, rythme respiratoire, température périphérique, conductivité de la peau, activité musculaire). Nous monitorons un utilisateur équipé des capteurs dans diverses activités et notons les instants des événements (changement d’activité par exemple). Ce sont ces moments que nous espérons retrouver dans les signaux. Les taux de détection vont de 68 à 92% suivant les activités monitorées. Une observation intéressante est qu’avec la détection automatique nous trouvons des ruptures dans les signaux qui ne sont pas sont pas notées par l’observateur et qui correspondent à des changements cachés (essoufflement par exemple). Un dernier point important sur l’implémentation de la méthode est l’utilisation de OC-SimpleSVM, un algorithme qui permet de faire du traitement en ligne et de gérer la mise à jour de la solution optimale à l’arrivée d’un nouveau point 1 . Perspectives Nous montrons le lien entre les tests statistiques et OC-SVM et nous illustrons l’intérêt d’une méthode non-paramétrique dans la segmentation de signaux dans le cadre de la détection de contexte. Nos résultats confirment également notre hypothèse, à savoir qu’il ne faut pas chercher à dresser la liste caractérisée des états attendus, mais partir des données et en tirer les états. La suite d’états automatiquement découpée doit être maintenant être traitée pour être étiqueter. Cette tâche se doit être semi-supervisée. En effet nous pouvons étiqueter un certain nombre de situation et en même temps être capables de gérer les situation nouvelles. References BASSEVILLE M. & N IKIFOROV I. V. (1993). Detection of Abrupt Changes - Theory and Application. Prentice-Hall. DAVY M. & G ODSILL S. (2002). Detection of abrupt spectral changes using support vector machines. In Proc. IEEE ICASSP-02. L IEBERMAN H. & S ELKER T. (2000). Out of context: Computer systems that adapt to, and learn from, context. 39. L OOSLI G. (2004). Fast svm toolbox in Matlab based on SimpleSVM algorithm. http://asi.insa-rouen.fr/~gloosli/simpleSVM.html. P ICARD R. W., PAPERT S., B ENDER W., B LUMBERG B., B REAZEAL C., C AVALLO D., M ACHOVER T., R ESNICK M., ROY D. & S TROHECKER C. (2004). Affective learning : A manifesto. BT Technology Journal, 22(4), 253–269. 1 disponible sur http://asi.insa-rouen.fr/~gloosli/simpleSVM.html 112 Modèles markoviens pour l’organisation spatiale de descripteurs d’images. J.Blanchet, F.Forbes, C.Schmid INRIA Rhône-Alpes ZIRST-655 avenue de l’Europe 38330 Montbonnot Saint Martin Résumé : Ce papier décrit une nouvelle approche probabiliste pour la reconnaissance de textures. Une image est décrite à l’aide de descripteurs locaux, ainsi que par des relations spatiales entre ces descripteurs. On peut alors associer une image à un graphe : les nœuds sont les points d’intérêt de l’image correspondant à des régions caractéristiques et les arêtes relient des régions voisines. Ajouter une telle information de voisinage permet d’améliorer les résultats de reconnaissance. Les approches actuelles consistent à modéliser les descripteurs comme des variables indépendantes, puis à rajouter l’information spatiale par le biais de poids, sans modéliser explicitement ces dépendances. Nous proposons d’introduire un modèle statistique rendant compte directement de cette dépendance entre descripteurs, par l’utilisation de champs de Markov cachés. L’estimation des paramètres de tels modèles étant en pratique difficile, nous utilisons des procédures d’estimation récentes basées sur le principe du champ moyen de la physique statistique. Nous illustrons notre méthode sur la reconnaissance d’images uni et multitextures. Les résultats obtenus sont prometteurs. Mots-clés : Champ de Markov, Algorithme de type EM, Relaxation, Classification, Apprentissage statistique, Reconnaissance de textures. 1 Introduction Une notion clé en vision par ordinateur est celle de descripteurs, caractérisations locales d’une image. De manière générale, un bon descripteur se doit d’être résistant aux occlusions, ainsi qu’invariant à diverses transformations géométriques de l’image. La recherche de “bons” descripteurs a déjà fait l’objet de nombreuses études, alors que la prise en compte de leur organisation spatiale reste un problème très ouvert. Nous proposons donc de coupler l’utilisation d’outils performants de vision et de statistique, dans le but de modéliser l’organisation spatiale de tels descripteurs. Une tentative de prise en compte du caractère spatial des données pour la reconnaissance de textures a déjà été effectuée dans (Lazebnik et al., 2003a) : dans ce travail, lors de la phase de reconnaissance, les probabilités a posteriori d’appartenance aux différentes classes de textures sont raffinées par l’algorithme de relaxation proposé dans (Rosenfeld et al., 1976). Cependant, le voisinage n’y est pris en compte que par un 113 CAp 2005 terme de poids, sans modèle explicite. Nous proposons de modéliser les descripteurs comme des variables statistiques liées, et par conséquent d’utiliser un modèle statistique paramétrique rendant compte explicitement de ces dépendances. Le modèle que nous avons choisi est celui du champ de Markov caché. L’estimation des paramètres d’un tel modèle étant difficile, nous utilisons des procédures d’estimation récentes (algorithme de type EM), basées sur l’algorithme d’Expectation-Maximisation (EM) et sur le principe du champ moyen issu de la physique statistique (Chandler, 1987). La base d’apprentissage considérée dans notre présentation n’est composée que d’images uni-texturées. Cependant, les algorithmes de type EM utilisés pour l’apprentissage pourraient tout à fait être généralisés à des images multi-textures pourvu que soit déclaré l’ensemble des textures qu’elles contiennent. On pourra se référer à (Lazebnik et al., 2003a) ou (Nigam et al., 2000) pour plus de détails. Pour ce qui est de la reconnaissance, la méthode ne se restreint pas aux images uni-textures : chaque vecteur caractéristique est classé individuellement, si bien que les images test peuvent être multi-textures (voir Section 6.2). Dans la Section 2, nous présentons brièvement la procédure d’extraction de caractéristiques, et la façon dont est construit le graphe de voisinage. Le modèle probabiliste utilisé (champs de Markov cachés) pour les textures est explicité dans la Section 3. Les différentes phases d’apprentissage et de reconnaissance sont décrits dans la Section 4. Nous présentons pour comparaison en Section 5 deux autres algorithmes de classification de textures : la relaxation et l’algorithme NEM. Des expériences effectuées sur des images de scènes d’intérieur ainsi qu’une discussion achèvent ce papier. 2 Extraction de caractéristiques et graphe de voisinage Pour la phase d’extraction de caractéristiques, nous suivons la méthode décrite dans (Lazebnik et al., 2003a) pour ses performances en comparaison à d’autres méthodes récentes (Bradshaw et al., 2001; Kumar & Hebert, 2003; Malik et al., 2001; Schmid, 2001). Le détecteur utilisé est le Laplacien avec adaptation affine. Brièvement, les points d’interêt détectés correspondent à des maximum locaux dans l’espace échelle du laplacien normalisé de l’intensité. A ces points sont associés des cercles de rayon l’échelle correspondante, cercles transformés en ellipse par le processus d’adaptation affine (Lindeberg & Garding, 1997). Outre ses performances (notamment l’invariance aux transformations affines), l’intérêt d’un tel détecteur est de permettre la définition naturelle d’un graphe de voisinage (Lazebnik et al., 2003a). Un point i sera dit voisin de j s’il appartient à l’ellipse centrée sur j, grossie d’un certain nombre de pixels (15 dans notre présentation) le long de chacun de ses axes (ceci pour éviter que les points associés à de petites régions aient trop peu de voisins). Notons qu’un tel voisinage est non symétrique. On peut alors voir une image comme un graphe orienté, chaque arcs reliant un point d’interêt détecté à un autre point voisin. Dans l’optique d’utiliser les champs de Markov, définis sur un graphe non orienté, nous avons symétrisé ce voisinage, en remplaçant les arcs par des arêtes (voir figure 1). A chacune des régions (ellipses) détectées, est associé un vecteur caractéristique (descripteur). Les descripteurs utilisés sont des vecteurs de dimension 80 obtenus à partir de spin images (Lazebnik et al., 2003b) , obtenues de la manière suivante : chaque ellipse détectée est transformée 114 Organisation spatiale de descripteurs d’images i k j F IG . 1 – Graphe de voisinage symétrique : les points i et j sont voisins en cercle unité, sur lequel on calcule un histogramme à 2 dimensions : une tranche de la spin image correspondant à la distance d est l’histogramme de l’intensité des pixels situés à la distance d du centre du cercle. Pour notre expérimentation, nous avons pris des spin images de taille 5 × 16. D’autres descripteurs sont envisageables et la méthode que nous proposons s’applique de même. A chaque point d’intérêt détecté est donc associé un vecteur caractéristique de dimension 80. 3 Modélisation des textures L’hypothèse sur laquelle se fonde nos travaux est que les descripteurs sont des variables aléatoires dépendantes, de loi de probabilité spécifique pour chaque texture. Dans (Lazebnik et al., 2003a), la distribution des descripteurs issus d’une texture donnée est modélisée par un mélange de gaussiennes, ce qui suppose que les descripteurs sont des variables indépendantes. Il existe pourtant de manière évidente une forte dépendance spatiale entre les vecteurs caractéristiques d’une même image. Afin de prendre en compte cette dépendance, nous proposons de modéliser leur distribution par un champ de Markov caché, de paramètres inconnus. Soit x = (x1 , . . . , xn ) les n descripteurs (vecteurs de dimension 80) extraits d’une image (ou partie d’image) de la texture m (1 ≤ m ≤ M ). On suppose que chaque texture est composée de K sous-classes cm1 . . . cmK . Nous prendrons K = 10 dans nos expérimentations, indépendemment de la texture, mais la méthode resterait tout à fait identique pour un K(m) dépendant de m. Pour i = 1, . . . , n, on modélise la probabilité d’observer le descripteur xi pour une image de la texture m par : P (xi |Ψm ) = K X P (Zi = cmk |∆m ) f (xi |Θmk ), (1) k=1 où f (xi |Θmk ) dénote la distribution gaussienne multivariée de paramètres Θmk (la moyenne µmk et la matrice de covariance Σmk ). La variable aléatoire Zi représente la sous-classe à laquelle appartient le descripteur xi ; elle peut prendre les valeurs {cm1 , . . . , cmK }, et sa loi est paramétrée par ∆m . Ψm = (∆m , (Θmk )1≤k≤K ) dénote l’ensemble des paramètres du modèle pour la texture m. Dans (Lazebnik et al., 2003a), le modèle utilisé pour P (xi |Ψm ) est le mélange gaus- 115 CAp 2005 sien, ce qui revient à supposer que les Zi sont des variables indépendantes et que P (Zi = cmk |∆m ) = pmk indépendemment du site i. ∆m est alors l’ensemble des proportions (pmk )1≤k≤K du mélange pour la texture m. Cela implique que les decripteurs sont également des variables indépendantes. C’est cette limitation que nous nous proposons de surmonter, en supposant que les descripteurs sont des variables dépendantes. Plus précisément, les dépendances entre descripteurs voisins sont modélisées en considérant que la loi jointe des variables Z1 , . . . , Zn est un champ de Markov discret sur le graphe défini à la section 2. Soit z = (z1 , . . . , zn ) des réalisations des Zi . On définit : P (z|∆m ) = W (∆m )−1 exp(−H(z, ∆m )) (2) où W (∆m ) est une constante de normalisation et H une fonction énergie supposée être de la forme (nous nous limitons aux interactions entre paires) : X X H(z, ∆m ) = Vi (zi , αm ) + Vij (zi , zj ,IBm ) i i∼j (la notation i ∼ j signifie que les sites i et j sont voisins ; la somme de droite ne porte donc que sur des sites voisins). Les fonctions Vi et Vij se rapportent respectivement aux potentiels sur les singletons et sur les paires, de paramètres respectifs αm et IBm . Il s’en suit ∆m = (αm ,IBm ). Nous supposons que les potentiels sur les singletons ne dépendent que de la valeur zi (et non de i), c’est à dire : Vi (zi , αm ) = −αm (k) si zi = cmk Les potentiels sur les singletons sont donc caractérisés par K poids αm = (αm (k))1≤k≤K associés aux K sous-classes de la texture m. Dans le cas particulier où les Vij sont nuls (ce qui revient à supposer qu’il n’y a pas d’interactions entre les points), ∆m se résume à αm et d’après (2), eαm (k) P (Zi = cmk |αm ) = PK αm (l) l=1 e si bien que αm pondère l’importance relative des différentes sous-classes de la texture m. De même, les potentiels sur les paires Vij sont supposés ne dépendre que de zi et zj , soit Vij (zi , zj ,IBm ) = −Bm (k, l) si zi = cmk , zj = cml Ils sont donc caractérisés par la matrice IBm = (Bm (k, l))1≤k,l≤K . Notons que si IBm = βm × Id, le paramètre spatial IBm se réduit à un scalaire βm et nous retombons sur le modèle de Potts traditionnel utilisé en segmentation d’images. La texture m est donc représentée par un champ de Markov caché paramétré par Ψm = (αm ,IBm , (Θmk )1≤k≤K ). 116 Organisation spatiale de descripteurs d’images 4 Apprentissage et classification Dans la modélisation précédente, les paramètres Ψm = (∆m , (Θmk )1≤k≤K ) sont inconnus et doivent être estimés pour chaque texture m. 4.1 Apprentissage des paramètres inconnus Pour apprendre le modèle associé à chacune des textures, on suppose que l’on dispose d’une base d’apprentissage constituée d’images identifiées comme appartenant à l’une des textures. Chaque texture va alors être apprise successivement sur les images correspondantes. Pour la texture m, doivent être estimés les paramètres (µmk , Σmk )1≤k≤K des lois gaussiennes ainsi que les paramètres du champ spatial, ie le vecteur αm = (αm (k))1≤k≤K de K poids et la matrice d’interaction spatiale IBm de dimension K × K. L’algorithme EM (Dempster et al., 1977) est couramment utilisé pour l’estimation de paramètres dans le cas de données cachées, et en particulier pour l’estimation de mélanges indépendants. Pour de tels modèles, l’hypothèse d’indépendance mène à une implémentation facile de l’algorithme. Pour les champs de Markov cachés, du fait de la dépendance des données, l’algorithme n’est pas utilisable en pratique, et des approximations sont donc nécessaires. Dans ce papier, nous utilisons une des approximations de (Celeux et al., 2003), basée sur le principe du champ moyen. Les procédures qui en découlent ont la particularité de prendre en compte la structure markovienne tout en préservant les bonnes qualités de EM. L’algorithme EM variationnel de (Zhang, 1992) en est un cas particulier. Nous utiliserons cependant plutôt les algorithmes de type champ moyen (et en particulier l’algorithme en champ simulé) pour leurs performances dans le cadre de la segmentation (Celeux et al., 2003). Notons cependant qu’il est nécessaire de généraliser ces algorithmes pour permettre l’estimation de la matrice IBm (et non seulement d’un scalaire βm comme dans le modèle de Potts originel). Dans le cas du champ de Markov caché de paramètre Ψm , deux difficultés apparaissent lors de la mise en œuvre de l’algorithme : – la constante de normalisation W (∆m ) de (2) – les probabilités conditionnelles P (zi |x, Ψm ) et P (zi , zj , j ∈ V(i)|x, Ψm ), où V(i) désigne l’ensemble des voisins de i ne peuvent être calculées de manière exacte. Le principe du champ moyen consiste à se ramener à un système de particules indépendantes (sur lequel l’algorithme EM pourra être appliqué) en négligeant, pour un site i, les fluctuations de ses voisins autour de leur moyenne (ie en fixant ∀j ∈ V(i), zj = IE(Zj )). Plus généralement, on parle d’approximation de type champ moyen lorsque, pour un site i, ses voisins sont fixés à des constantes. Ce champ de constantes z̃1 , . . . , z̃n n’est pas arbitraire, il doit satisfaire certaines conditions (Celeux et al., 2003). La distribution markovienne (2) peut alors être approximée par : P (z|∆m ) ≃ n Y P (zi |z̃j , j ∈ V(i), Ψm ) i=1 De même, la loi jointe P (x, z|Ψm ) et la loi markovienne P (z|x, Ψm ) se trouvent approximées par des distributions factorisées. L’utilisation de telles approximations mène 117 CAp 2005 à des algorithmes itératifs à deux étapes (a) et (b) : à l’itération (q), (q) (a) Créer, à partir des observations x et de l’estimation courante des paramètres Ψm , (q) (q) une configuration z̃1 , . . . z̃n , i.e. des valeurs pour les Zi . De part les approximations précédentes, les deux problèmes rencontrés lors de la mise en œuvre de EM disparaissent, et par suite, (b) Appliquer l’algorithme EM sur ce modèle factorisé, afin d’obtenir, à partir du (q−1) (q) paramètre courant Ψm , une nouvelle estimation Ψm . En particulier, l’algorithme en champ moyen consiste, à partir de la distribution condi(q) (q−1) tionnelle P (z|x, Ψm ), à fixer les z̃i à l’estimation de leur moyenne, l’algorithme en champ modal à l’estimation de leur mode et l’algorithme en champ simulé à les simuler. En pratique, pour l’étape (b), une seule itération de l’algorithme EM est suffisante. Dans ce cas, l’algorithme en champ moyen est l’algorithme EM variationnel de (Zhang, 1992). L’utilisation d’un de ces algorithmes nous permet, pour chaque texture m, d’obtenir des ˆ m et estimateurs (µ̂mk , Σ̂mk )1≤k≤K des lois gaussiennes, ainsi que des estimateurs IB α̂m des paramètres du champ caché. Cet ensemble de paramètres Ψ̂m va ensuite être utilisé pour classer les régions d’une image test dans une des textures apprises. 4.2 Classification d’une image test L’objectif est de classer individuellement chacune des régions dans une des M textures. Notons encore x = (x1 , . . . , xn ) les n descripteurs extraits d’une image (ou partie d’image) de texture inconnue (image test). Chaque descripteur est susceptible d’être issu d’une des M textures possibles, et donc d’une des M K sous-classes possibles. Il est alors naturel de modéliser le champ caché par un champ de Markov discret, pouvant prendre les valeurs {cmk , m ∈ [1, M ], k ∈ [1, K]}. Pour i = 1, . . . , n, on modélise donc la probabilité d’observer le descripteur xi par : P (xi |Ψ) = M X K X P (Zi = cmk |∆) f (xi |Θmk ), (3) m=1 k=1 Comme dans la section 3, la fonction d’énergie du champ spatial Z est supposée se décomposer en fonctions potentielles sur les singletons et sur les paires. Son paramètre noté ∆ s’écrit alors sous la forme ∆ = (α,IB), où α est un vecteur de dimension M K pondèrant l’importance relative des différentes sous-classes, et IB est une matrice M K × M K modélisant les interactions entre sous-classes associées à des sites voisins. Il est alors naturel de fixer α égal aux potentiels (α̂m )1≤m≤M appris pendant la phase d’apprentissage. Notons que cela revient à supposer que les différentes textures sont a priori équiprobables. De même, les termes de la matrice IB correspondant aux potentiels d’interaction entre sous-classes cmk et cml d’une même texture m sont fixés aux B̂m (k, l) appris. Les autres termes, au contraire, concernent les interactions entre sous-classes associées à des textures différentes. Une possibilité pour les estimer serait d’effectuer l’apprentissage sur des images multi-textures, mais comme souligné dans (Lazebnik et al., 2003a), l’estimation de ces termes serait mauvaise du fait du faible nombre d’arcs entre sous-classes de textures différentes. En pratique ils sont fixés à 118 Organisation spatiale de descripteurs d’images une valeur constante qui peut varier selon le degré d’interaction que l’on souhaite (−10 ˆ est donc construite de la manière suivante : pour nos expérimentations). La matrice IB ˆ m , et en dehors, la constante choisie. Enfin, il est logique sur la diagonale, les matrices IB de fixer les Θmk aux Θ̂mk obtenus par l’apprentissage. Au final, on obtient donc une ˆ Θ̂) de la loi d’une image quelconque. valeur du paramètre Ψ̂ = (α̂, IB, Une texture m étant composée des K sous-classes cP m1 , . . . , cmK , il est naturel de clasK ser un descripteur xi dans la texture m maximisant k=1 P (Zi = cmk |xi , Ψ̂) et donc PK ˆ f (xi |Θ̂mk ). Cependant, la loi markovienne de Zi maximisant k=1 P (Zi = cmk |∆) fait intervenir la classification inconnue zj des sites j voisins de i, et n’est donc pas calculable directement. On peut cependant réappliquer le principe du champ moyen sur (q−1) les paramètres Ψ̂ laissés fixes. Pour toute sous-classe c, notons ti,c une approximation à l’itération (q − 1) de ti,c ≡ P (Zi = c|xi , Ψ̂). A l’itération (q) pour le site i, un (q) (q) nouveau champ de voisins z̃1 , . . . , z̃n est créé à l’ étape (a) à partir des paramètres (q) (q−1) Ψ̂ et des ti,c . Le principe du champ moyen conduit à réestimer à l’étape (b) les ti,c par : (q) (q) ˆ f (xi |Θ̂c ) ti,c ∝ P (Zi = c|(z̃j )j∈V(i) , ∆) c’est à dire par : (q) ti,c ∝ exp(α̂c + X (q) B(c, z̃j )) f (xi |Θ̂c ). j∈V(i) Pour rendre la comparaison avec d’autres algorithmes (voir Section 5) plus claire, on (q) utilisera également la notation z̃j,c′ qui vaut 1 si z̃j appartient à la sous-classe c′ , et 0 sinon. La formule précédente s’écrit alors : X X (q) (q) B(c, c′ )z̃j,c′ ). (4) ti,c ∝ exp(α̂c ) f (xi |Θ̂c ) exp( j∈V(i) c′ 5 Autres algorithmes de classification de textures Pour comparaison, nous considérons également d’autres algorithmes pour l’apprentissage de textures : la relaxation (Rosenfeld et al., 1976), et l’algorithme Neighborhood EM (Ambroise et al., 1997). 5.1 Relaxation Il s’agit d’une méthode courante en vision, notamment utilisée dans (Lazebnik et al., 2003a), pour ajouter simplement du spatial, par un terme de poids. Le principe consiste à raffiner les probabilités ti,c = P (Zi = c|xi , Ψ) utilisées dans la règle de classifica(q) (q−1) tion. A l’itération (q), les nouvelles probabilités ti,c sont réestimées à partir des ti,c par : X X (q−1) (q−1) (q) B(c, c′ ) tj,c′ ) (5) ti,c ∝ ti,c (1 + j∈V(i) c′ 119 CAp 2005 où le terme B(c, c′ ) exprime à quel point les sous-classes c et c′ sont compatibles. Dans (Lazebnik et al., 2003a), ce terme est calculé comme une co-occurence pour deux sousclasses c et c′ associées à une même texture, et fixé à une constante négative sinon. Notons que la matrice B(c, c′ ) ainsi définie joue un rôle comparable à la matrice IB du champ de Markov : elle traduit la force d’interaction entre les différentes sous-classes. Dans (Lazebnik et al., 2003a), la méthode de classification de textures est la suivante : l’algorithme est initialisé par (0) ti,c = P (Zi = c|xi , ΨEM ) où ΨEM désigne une estimateur de Ψ obtenu par application de l’algorithme EM pour chacune des textures (ce qui suppose que les descripteurs sont indépendants). Notons que dans ce cas, Ψ correpond aux proportions {pc } = {pmk , m ∈ [1, M ], k ∈ [1, K]} du mélange, ainsi qu’aux paramètres {Θc } = {Θmk , m ∈ [1, M ], k ∈ [1, K]} des gaussiennes. L’algorithme de relaxation ne convergeant pas, un certain nombre d’itérations sont effectuées (N=200 en pratique). Un descripteur xi est enfin classé en (N ) fonction des ti,c , selon la même règle que dans la Section 4.2. (0) Notons qu’une classification de base obtenue à l’aide des ti,c consiste à classer un descripteur xi dans la texture de plus grande vraisemblance relativement à xi pour un modèle de mélange indépendant (c’est la méthode que nous appellerons “Maximum de vraisemblance” dans la Section 6). 5.2 Algorithme Neighborhood EM L’algorithme Neighborhood EM ou NEM (Ambroise et al., 1997) est une pénalisation de l’algorithme EM, permettant d’ajouter de l’information spatiale pour des données modélisées par un mélange indépendant. S’inspirant de la Section 4, une méthode de classification de textures basées sur cet algorithme est la suivante : les paramètres {pNEM c } } (les paramètres des gaussiennes) des différentes (les proportions du mélange) et {ΘNEM c textures sont appris en appliquant NEM. Dans la phase de test, comme souligné en Section 4.2, la P classification pourrait consiter à classer un descripteur dans la texture m maximisant k P (Zi = cmk |xi , Ψ̂), mais en pratique les résultats sont grandement améliorés en réappliquant NEM au mélange avec paramètres fixés Ψ̂. Dans ce cas, les probabilités ti,c sont réestimées à l’itération (q) par : X X (q−1) (q) B(c, c′ ) tj,c′ ) (6) f (xi |ΘNEM ti,c ∝ pNEM c c ) exp( j∈V(i) c′ où le terme B(c, c′ ) a la même fonction et est estimé de la même manière que pour la relaxation. Remarquons que dans l’algorithme NEM, à chaque itération, un modèle de mélange est f (xi |ΘNEM sous-jacent, ce qui se note dans la formule (6) par la présence du terme pNEM c c ). Dans la relaxation au contraire, la formule (5) nous montre qu’aucun modèle sousjacent n’est supposé. Dans la formule (4) des algorithmes de type champ moyen, comme du souligné en Section 3, le terme exp(α̂c ) peut être comparé aux proportions pNEM c mélange. En fait, dans le cas particulier où les paramètres sont fixés, l’algorithme en 120 Organisation spatiale de descripteurs d’images champ moyen est équivalent à l’algorithme NEM. Pour les algorithmes en champs (q−1) modal et simulé, le terme dans l’exponentielle diffère : tj,c′ est un réel estimant (q) P (Zi = c′ |xi , Ψ̂), alors que z̃j,c′ prend la valeur 0 ou 1 selon que Zj ait été affecté à la classe c′ ou simulé dans c′ par la loi P (.|xi , (z̃j )j∈V(i) , Ψ̂). 6 Résultats expérimentaux Les expériences sont effectuées sur des images de 7 textures différentes dont un échantillon se trouve dans la Figure 2. T1 Brique T2 Moquette T3 Fauteuil T4 Sol 1 T5 Sol 2 T6 Marbre T7 Bois F IG . 2 – Echantillon des 7 textures utilisées pour les expériences. La base d’apprentissage est composée de 10 images uni-texture pour chacune des 7 textures (soit un total de 70 images). Pour simplifier, nous supposons que K = 10 pour chacune des textures (en fait, la selection de K par l’application du Critère d’Information Bayésien (BIC) de Schwartz (Celeux et al., 2003) ne semble pas apporter d’amélioration significative). De même, nous nous sommes restreints à des matrices de covariances diagonales. Parmi ces modèles, pour chaque texture m, BIC sélectionne 2 celles de la forme Σmk = σm I pour tout k = 1 . . . K (encore une fois, un modèle de 2 la forme Σmk = σmk I n’améliore que très peu les résultats, tout en augmentant très significativement les temps de calcul). 6.1 Reconnaissance d’images uni-texture Nous testons notre méthode sur une base de test comprenant 10 images de chaque texture non utilisées dans la phase d’apprentissage. Le Tableau 1 donne les taux de bonne classification de l’ensemble des régions, c’est à dire, pour chaque texture m, le pourcentage de descripteurs de la texture m effectivement classés dans la texture m. Les différentes lignes se réfèrent aux algorithmes vus précédemment (les résultats correspondant aux champs moyen et modal ne sont pas reportés, car au mieux équivalents à ceux du champ simulé). Les résultats de la Table 1 confirment l’intérêt de prendre en compte l’organisation spatiale des descripteurs : la classification par maximum de vraisemblance donne des taux de classification significativement inférieure pour les textures 1 à 5 (de -20 à -34%). Pour les textures 6 et 7, l’amélioration est moins notable. De manière générale, toutes les méthodes semblent avoir du mal à apprendre les textures 6 et 7. Ceci s’explique par 121 CAp 2005 Texture Max. vraisemblance Relaxation NEM Champ simulé T1 48 78 82 81 T2 77 96 98 97 T3 52 72 78 77 T4 56 86 88 80 T5 51 80 80 86 T6 17 19 20 26 T7 30 42 43 46 TAB . 1 – % de bonne classification des régions sur des images uni-textures. le fait que ces deux textures contiennent des images avec de très brusques changements de luminosité, rendant l’apprentissage d’autant plus difficile. NEM et l’algorithme en champ simulé améliorent les taux de classification pour chacune des textures par rapport à la relaxation. En effet, dans l’algorithme de relaxation, aucun modèle n’est supposé et les itérations sont indépendantes du modèle utilisé pour les données. Au contraire, NEM est originellement fait pour un modèle de mélange, si bien que ce modèle de mélange est pris en compte à chaque itération. La méthode utilisant les champs de Markov est quant à elle la seule où les descripteurs sont modélisés comme des variables statistiques dépendantes. Le taux de bonne classification de NEM est plus élevé que celui du champ simulé pour les textures 1 à 4, mais plus faible pour les textures 5 à 7. En moyenne, c’est l’algorithme en champ simulé qui apparait le plus performant (70.43% de reconnaissance pour l’algorithme en champ simulé contre 69.86% pour NEM). Ces premières expériences montrent qu’il y a un apport significatif à ajouter de l’information spatiale entre les descripteurs. Il apparait en outre qu’il est plus judicieux d’utiliser un modèle paramétrique, comme le modèle de mélange (NEM) ou son extension aux champs de Markov (algorithme de type champ moyen), pour l’apprentissage comme pour le test. Notons toutefois les bonnes performances de l’algorithme de relaxation malgré l’absence des données dans l’itération (5). Ces dernières ne sont prises en compte que dans l’initialisation, ce qui correspond à un principe de maximum a priori et non a posteriori comme le recommande la théorie statistique. Une explication de ces bonnes performances est sans doute la robustesse d’un tel algorithme vis à vis de la mauvaise adéquation du modèle de mélange aux données. Il n’existe pas à ce jour de test statistique pour tester l’hypothèse de mélange mais une voie d’approche est envisageable, basée sur un prétraitement des données visant à les rendre plus proches du modèle choisi. 6.2 Sur des images multi-textures Les différents algorithmes sont également testés sur 62 images multi-textures, dont 5 artificiellement créées. Des exemples de classifications obtenues sont présentés dans les Figures 3 à 8. La Figure 3 est un exemple de segmentation obtenue par les 4 algorithmes étudiés précédemment : le maximum de vraisemblance, la relaxation, NEM et le champ simulé. Il en ressort clairement que la prise en compte de l’information spatiale (par la re- 122 Organisation spatiale de descripteurs d’images Brique Moquette Fauteuil Sol 1 Sol 2 Marbre Bois F IG . 3 – De haut en bas : classification obtenue par le maximum de vraisemblance, la relaxation, NEM et l’algorithme en champ simulé, sur une image composée de fauteuil et de bois laxation, NEM, ou le champ simulé), améliore la classification. De plus on observe que, parmi ces algorithmes spatiaux, c’est celui utilisant une modélisation explicite des dépendances (champ de Markov caché estimé par l’algorithme en champ simulé) qui donne les meilleurs résultats. En outre, on observe que la moquette est très bien reconnue, alors que quelques erreurs subsistent avec le bois. Ces résultats vont dans le sens de ceux obtenus sur des images uni-textures, le bois ayant été mal appris. Un autre exemple illustrant l’intérêt de la prise en compte de l’organisation spatiale des descripteurs est donné Figure 4 : l’algorithme en champ simulé permet une bien meilleure segmentation que le maximum de vraisemblance. Brique Moquette Fauteuil Sol 1 Sol 2 Marbre Bois F IG . 4 – Classification obtenue par le maximum de vraisemblance (en haut) et l’algorithme en champ simulé (en bas), sur une image composée de moquette et de bois Les Figures 5 à 8 sont des exemples de classifications obtenues par l’algorithme en champ simulé. On notera (Figure 5) les performances de cet algorithme spatial sur une image artificielle, constituée de 4 bouts d’images. En Figure 6, on observe clairement le comportement de l’algorithme en champ simulé : le marbre est mal reconnu (ce qui était un résultat prévisible au vu du Tableau 1), mais c’est surtout avec la brique et le bois qu’il est confondu. En effet, cet algorithme 123 CAp 2005 Brique Moquette Fauteuil Sol 1 Sol 2 Marbre Bois F IG . 5 – Classification obtenue par l’algorithme en champ simulé, sur une image artificielle composée de sol 1, de fauteuil, de moquette et de sol 2. spatial tend à regrouper les sites voisins dans un même classe, et va donc, de proche en proche, classer une partie des sites correspondant au marbre dans l’une des deux textures présentes aux alentours, la brique et le bois. Brique Moquette Fauteuil Sol 1 Sol 2 Marbre Bois F IG . 6 – Classification obtenue par l’algorithme en champ simulé, sur une image composée de briques, de marbre et de bois. Enfin, les Figures 7 et 8 mettent en relief les problèmes de classification lorsque la qualité de l’image diminue. En effet, en Figure 7, l’arrière plan (le bois) est flou, et les résultats obtenus sont médiocres (noter que sur l’image nette de la Figure 3, ils sont bien meilleurs). En Figure 8, une partie de l’image (en l’occurence les briques) est mal éclairée, si bien que les sites correspondants sont relativement mal classés, alors que la texture brique a été bien apprise (81% de bonne classification sur les images uni-textures). Plus qu’une limitation de nos algorithmes, c’est plutôt la qualité du descripteur que doit être mis en défaut. La possibilité d’utiliser d’autres descripteurs plus invariants au problèmes de luminosité est à envisager. De manière générale, notons que la plupart de erreurs ont lieu près des bords, ou aux frontières entre textures différentes. Ceci suggère que le graphe de voisinage pourrait être repensé pour limiter ce phénomène. Brique Moquette Fauteuil Sol 1 Sol 2 Marbre Bois F IG . 7 – Classification obtenue par l’algorithme en champ simulé, sur une image de qualité moindre composée de fauteuil et de bois (partie bois floue). 124 Organisation spatiale de descripteurs d’images Brique Moquette Fauteuil Sol 1 Sol 2 Marbre Bois F IG . 8 – Classification obtenue par l’algorithme en champ simulé, sur une image avec mauvais éclairage composée de fauteuil et de briques. 7 Conclusion et perspectives Notre travail s’est basé sur des techniques récentes de description d’image à l’aide de descripteurs calculés en un certain nombre de points caractéristiques de l’image. Notre objectif était de montrer que des modèles statistiques paramétriques pouvaient être introduits pour rendre compte de l’organisation spatiale et géométrique de ces descripteurs. Les champs de Markov cachés étaient des candidats naturels, que nous avons expérimentés dans le cadre de la reconnaissance de textures. L’utilisation de modèles markoviens pour la ségmentation d’images caractérisées par une grille régulière de pixels est standard, mais leur introduction en reconnaissance pour modéliser des vecteurs caractéristiques irrégulièrement espacés est nouvelle. Dans ce contexte, les paramètres de ces modèles ont une interprétation naturelle : certains (les αmk ) peuvent être assimilés à des proportions sur les textures, alors que d’autres (la matrice IB) à des intéractions spatiales. Dans notre méthode, ces paramètres sont estimés, ou bien fixés pour incorporer de la connaissance a priori sur les textures. Des résultats obtenus sur des images uni ou multi textures sont prometteurs. Ils mettent notamment à jour l’intérêt de prendre en compte l’organisation spatiale des descripteurs. De plus, l’utilisation d’un modèle rendant explicitement compte de ces dépendances (champ markovien) améliore les taux de reconnaissance. Notons que les résultats pourraient sans doute encore être améliorés en effectuant sur les données des transformations préliminaires visant à les rendre plus proche du modèle utilisé (un mélange gaussien). Plus précisément, on pourra envisager de coupler des transformations de type Box-Cox avec des tests de gaussianité en grande dimension. Par ailleurs, le formalisme général présenté dans ce papier pourrait être envisagé dans d’autres contextes, en reconnaissance d’objets par exemple. Mais avant cela, une étude plus spécifique du choix de la structure de voisinage serait nécessaire, en particulier concernant la définition d’un graphe de voisinage préservant au maximum l’invariance affine. Enfin, la méthodologie pourrait être testée en utilisant d’autres techniques de description d’images. Références A MBROISE C., DANG V. M. & G OVAERT G. (1997). Clustering of spatial data by the EM algorithm. In K. A. P. D ORDRENCHT , Ed., geoENV I- Geostatistics for Environmental Applications,Quantitative Geology and Geostatistics, volume 9. 125 CAp 2005 B RADSHAW B., S CHOLKOPF B. & P LATT J. (2001). Kernel methods for extracting local image semantics. In Microsoft Research Technical Report, MSR-TR-2001-99. C ELEUX G., F ORBES F. & P EYRARD N. (2003). EM procedures using mean field-like approximations for Markov model-based image segmentation. In Pattern Recognition, volume 36(1), p. 131–144. C HANDLER D. (1987). Introduction to modern statistical mechanics. D EMPSTER A., L AIRD N. & RUBIN D. (1977). Maximum Likelihood from incomplete data via the EM algorithm. K UMAR S. & H EBERT M. (2003). Man-made structure detection in natural images using a causal multiscale random field. In Proc. CVPR. L AZEBNIK S., S CHMID C. & P ONCE J. (2003a). Affine-invariant local descriptors and neighborhood statistics for texture recognition. In Proc. ICCV. L AZEBNIK S., S CHMID C. & P ONCE J. (2003b). Sparse texture representation using affineinvariant regions. In Proc. CVPR. L INDEBERG T. & G ARDING J. (1997). Shape-adapted smoothing in estimation of 3-d depth cues from affine distorsions of local 2-d brightness structure. In Image and Vision Computing, volume 15. M ALIK J., B ELONGIE S., L EUNG T. & S HI J. (2001). Contour and texture analysis for image segmentation. In IJCV, volume 43(1). N IGAM K., M C C ALLUM A., T HRUN S. & M ITCHELL T. (2000). Text classification from labeled and unlabeled documents using EM. In Machine Learning, volume 39 (2/3). ROSENFELD A., H UMMEL R. & Z UCKER S. (1976). Scene labeling by relaxation operations. In IEEE Trans. Systems, Man, and Cybernetics, volume 6(6). S CHMID C. (2001). Constructing models for content-based image retrieval. In Proc. CVPR. Z HANG J. (1992). The Mean Field Theory in EM Procedures for Markov Random Fields. In IEEE trans. Signal Proc., volume 40(10). 126 Planification robuste avec (L)RTDP Olivier Buffet et Douglas Aberdeen National ICT Australia & The Australian National University {olivier.buffet,douglas.aberdeen}@nicta.com.au http://rsise.anu.edu.au/∼{buffet,daa} Résumé : Les problèmes de chemin le plus court stochastique (SSP : Stochastic Shortest Path problem), un sous-ensemble des problèmes de décision markoviens (MDPs), peuvent être efficacement traı̂tés en utilisant l’algorithme Real-Time Dynamic Programming (RTDP). Toutefois, les modèles des MDPs sont souvent incertains (obtenus à l’aide de statistiques ou par intuition). Une approche usuelle est alors la planification robuste : chercher la meilleure politique sous le pire modèle. Cet article montre comment RTDP peut être rendu robuste dans le cas commun où l’on sait que les probabilités de transition se trouvent dans un intervalle donné. Cela permet d’effectuer une planification en tenant compte de l’incertitude d’un modèle appris alors que les approches classiques font l’hypothèse d’un modèle “moyen”. 1 Introduction Pour la planification dans le cadre de la théorie de la décision, les problèmes de décision markoviens (Bertsekas & Tsitsiklis, 1996) sont d’un intérêt majeur quand un modèle probabilitiste du domaine est disponible. Divers algorithmes permettent de trouver un plan (une politique) optimisant l’espérance de l’utilité à long terme. Toutefois, les résultats de convergence vers la politique optimale dépendent tous de l’hypothèse que le modèle probabiliste du domaine est précis. Malheureusement, un grand nombre de modèles de MDPs sont basés sur des probabilités (et récompenses) incertaines. Nombre d’entre elles dépendent de modèles statistiques de systèmes physiques ou naturels, tels que pour le contrôle d’usines ou l’analyse de comportements d’animaux. Ces modèles statistiques sont parfois basés sur des simulations (elles-mêmes étant des modèles mathématiques), des observations d’un système réel ou une expertise humaine. Travailler avec des modèles incertains requiert d’abord de répondre à deux questions étroitement liées : 1– comment modéliser l’incertitude, et 2– comment utiliser le modèle résultant. Les travaux existants montrent que l’incertitude est parfois représentée à travers un ensemble de modèles possibles, à chacun étant assigné une probabilité (Munos, 2001). L’exemple le plus simple est celui d’un ensemble de modèles possibles que l’on considère d’égales probabilités (Bagnell et al., 2001; Nilim & Ghaoui, 2004). Mais 127 CAp 2005 plutôt que de construire un ensemble éventuellement infini de modèles, nous choisissons de représenter l’incertitude sur le modèle en définissant chaque probabilité à l’intérieur du modèle comme se trouvant dans un intervalle donné (Givan et al., 2000; Hosaka et al., 2001). Les probabilités incertaines ont été étudiées dans des problèmes d’allocation de ressources pour trouver le modèle le plus adapté (Munos, 2001) : – ressource temporelle : comment explorer efficacement (Strehl & Littman, 2004), et – ressource spatiale : comment aggréger des états (Givan et al., 2000) ; et dans le but de trouver des politiques robustes (Bagnell et al., 2001; Hosaka et al., 2001; Nilim & Ghaoui, 2004). Nous nous concentrons sur ces derniers, considérant un jeu à deux joueurs où l’adversaire choisi parmi les modèles possibles celui qui dégrade le plus l’utilité à long-terme. Notre principal objectif est de développer un planificateur efficace pour un sousensemble commun de MDPs pour lesquels toutes les politiques optimales ont la garantie de s’arrêter dans un état terminal : les problèmes de chemin le plus court stochastique (SSP : Stochastic Shortest Path). L’algorithme glouton Real-Time Dynamic Programming (RTDP) (Barto et al., 1995) est particulièrement adapté aux SSPs, trouvant de bonnes politiques rapidement et ne nécessitant pas une exploration complète de l’espace d’états. Cet article montre que RTDP peut être rendu robuste, permettant ainsi une planification plus adaptée à un modèle incertain parce qu’appris par expérimentations, voire par intuition. En section 2, nous présentons les SSPs, RTDP et la robustesse. Puis la section 3 explique comment RTDP peut être transformé en un algorithme robuste. Finalement, des expérimentations sont présentées pour analyser le comportement de l’algorithme obtenu, avant une discussion et conclusion.1 2 Contexte 2.1 Chemin le plus court stochastique Un problème de chemin le plus court stochastique (Bertsekas & Tsitsiklis, 1996) est défini ici par un uplet hS, s0 , G, A, T, ci. Il décrit un problème de contrôle où S est l’ensemble fini des états du système, s0 ∈ S est un état de départ, et G ⊆ S est un ensemble d’états buts. A est l’ensemble fini des actions possibles. Les actions contrôlent les transitions d’un état s à un autre s′ selon la dynamique probabiliste du système, décrite par la fonction de transition T définie par T (s, a, s′ ) = P r(st+1 = s′ |st = s, at = a). L’objectif est d’optimiser une mesure de performance basée sur la fonction de coût c : S × A × S → R+ .2 Les SSP requièrent l’hypothèse qu’il existe une politique propre, c’est-à-dire pour laquelle un état but est accessible depuis tout état dans S, de sorte qu’il n’est pas possible de rester bloqué dans un sous-ensemble d’états. On fait de plus l’hypothèse qu’une 1 Ce 2 Le travail est présenté plus en détails dans (Buffet & Aberdeen, 2004). modèle n’étant pas certain, nous ne faisons pas l’hypothèse usuelle c(s, a) = Es′ [c(s, a, s′ )]. 128 Planification robuste avec (L)RTDP politique impropre conduit à un coût à long terme infini pour au moins un état. Un algorithme de résolution d’un SSP doit trouver une politique associant à chaque état une distribution de probabilité sur les actions π : S → Π(A) qui optimise le coût à long terme J défini comme l’espérance de la somme des coûts pour atteindre un état but. Dans cet article, nous considérons des SSPs à des fins de planification, avec connaissance complète de l’uplet définissant le problème : hS, s0 , G, A, T, ci. Dans ce cadre, des algorithmes de programmation dynamique stochastique biens connus tels que Value Iteration (VI) permettent de trouver une politique déterministe optimale. Value Iteration fonctionne en calculant la fonction J ∗ (s) qui donne l’espérance de coût à long terme (finie avec l’hypothèse faite d’existence d’une politique propre) des politiques optimales. C’est le point fixe solution (unique) de l’équation de Bellman : X J(s) = min T (s, a, s′ ) [c(s, a, s′ ) + J(s′ )] . (1) a∈A s′ ∈S Mettre à jour J par cette formule entraı̂ne la convergence asymptotique vers J ∗ . Pour des raisons pratiques, nous introduisons aussi la Q-valeur : X Q(s, a) = T (s, a, s′ )[c(s, a, s′ ) + J(s′ )]. s′ ∈S Les SSPs peuvent facilement être vus comme des problèmes de chemin le plus court dans lesquels choisir un chemin ne mène que de manière probabiliste vers la destination espérée. Ils peuvent représenter un sous-ensemble très utile des MDPs, puisqu’il s’agit essentiellement de MDPs à horizon finis. 2.2 RTDP L’algorithme Trial based3 Real-Time Dynamic Programming (RTDP), introduit dans (Barto et al., 1995), utilise le fait que les coûts du SSP sont positifs et l’hypothèse supplémentaire que chaque essai (parcours depuis l’état de départ) atteindra un état but avec une probabilité 1. Ainsi, avec une initialisation nulle de la fonction de coût à long terme J, J comme les Q-valeurs croissent de manière monotone durant leur calcul itératif. L’idée derrière RTDP (algorithme 1) est de suivre des chemins depuis l’état de départ s0 en choisissant toujours de manière gloutonne des actions associées au coût à long terme le plus bas, et en mettant à jour Q(s, a) au fur et à mesure que les états s sont rencontrés. En d’autres termes, l’action choisie est celle dont on espère qu’elle mènera aux coûts futurs les plus bas, jusqu’à ce que les calculs itératifs montrent qu’une autre action semble pouvoir faire mieux. RTDP a l’avantage de vite éviter les plans qui conduiraient à des coûts élevés. Ainsi, l’exploration regarde principalement un sous-ensemble prometteur de l’espace d’états. Toutefois, parce que l’algorithme suit les chemins en suivant la dynamique du système, les transitions rares ne sont prises en compte que rarement. L’utilisation de la simulation permet d’obtenir de bonnes politiques tôt, mais au prix d’une convergence finale lente, du fait de la mauvaise fréquence de mise à jour des transitions rares. 3 On considèrera toujours la version trial based de RTDP. 129 CAp 2005 Algorithme 1 Algorithme RTDP pour SSPs RTDP(s : état) // s = s0 répéter ESSAI RTDP(s) jusqu’à // pas de condition d’arrêt ESSAI RTDP(s : état) tant que ¬BUT(s) faire a =ACTION G LOUTONNE(s) J(s)= Q(s, a) s =CHOISIR E TAT S UIVANT(s, a) fin tant que 2.3 Robust Value Iteration Pessimisme et optimisme Nous passons maintenant au problème de tenir compte de l’incertitude du modèle lors de la recherche d’une “meilleure” politique. L’ensemble (potentiellement infini) des modèles possibles est noté M. Une approche simpliste est de calculer le modèle moyen sur M, ou le modèle le plus probable, puis d’utiliser des méthodes d’optimisation standard pour SSPs. De telles approches ne garantissent rien sur le coût à long terme de la politique si le vrai modèle diffère de celui choisi pour l’optimisation. Nous suivons l’approche décrite dans (Bagnell et al., 2001), laquelle consiste à trouver une politique se comportant bien face au pire modèle possible. Cela revient à considérer un jeu à deux joueurs et à somme nulle, i.e. où le gain d’un joueur est la perte de l’autre. Le joueur choisit une politique sur les actions (dans l’espace de politiques stochastiques ΠA ) alors que son adversaire “perturbateur” choisit simultanément une politique sur les modèles (dans l’espace ΠM ). Comme c’est un jeu simultané, les politiques optimales peuvent être stochastiques. Cela mène à un algorithme de type max-min :4 max min JπM ,πA (s0 ). πM ∈ΠM πA ∈ΠA Dans ce jeu SSP, Value Iteration converge vers une solution fixe (Patek & Bertsekas, 1999). Il est aussi possible d’être optimiste, considérant que les deux joueurs collaborent (du fait qu’ils endurent les mêmes coûts), ce qui transforme le max en un min dans la formule précédente. Ce second cas est équivalent à un SSP classique où une décision consiste en le choix d’une action et d’un modèle local. 4 Le jeu étant simultané, l’ordre entre max et min est sans importance. 130 Planification robuste avec (L)RTDP Localité Un tel algorithme max-min serait particulièrement coûteux à implémenter. Même en restreignant la recherche à une politique déterministe sur les modèles, il faudrait calculer la fonction de coût à long terme optimale pour chaque modèle avant de choisir le pire modèle et la politique optimale associée. Toutefois, un processus plus simple peut être utilisé pour calculer J en cherchant en même temps le pire modèle. Il faut pour cela faire l’hypothèse que les distributions T (s, a, ·) sont indépendantes d’une paire état-action (s, a) à l’autre. Cette hypothèse n’est pas toujours valide, mais rend les choses plus faciles pour l’adversaire puisqu’il peut ainsi choisir à travers un ensemble de modèles élargi. On ne risque alors que d’avoir des politiques “trop robustes” (parce que trop pessimistes). Parce que nous faisons l’hypothèse d’une indépendance au niveau “état-action” (pas seulement au niveau “état”), c’est équivalent à une situation où le second joueur prend une décision dépendant de l’état courant et de l’action du premier joueur. Cette situation revient à un jeu séquentiel où le mouvement du joueur précédent est connu du joueur suivant : les deux joueurs peuvent agir de manière déterministe sans perte d’efficacité. Le résultat de cette hypothèse est que le pire modèle peut être choisi localement quand Q est mis à jour pour une paire état-action donnée. Comme on peut le voir sur l’algorithme 2, le pire modèle local mas peut changer pendant que les Q-valeurs évoluent. De précédentes mises à jour des coûts à long terme d’états atteignables peuvent changer leur ordre relatif, de sorte que les résultats considérés comme les plus mauvais ne sont pas les mêmes. Algorithme 2 Robust Value Iteration (pour un SSP) Initialiser J to 0. répéter pour tout s : état faire pour tout a : action faire ¤ £ P Qmax (s, a) ← maxmas ∈Mas s′ ∈S Tmas (s, a, s′ ) J(s′ ) + cmas (s, a, s′ ) fin pour J(i) ← mina∈A Qmax (s, a) fin pour jusqu’à J converge L’apport principale de cet article est de montrer que RTDP peut être rendu robuste, permettant la planification dans des domaines très grands et incertains, en assurant le comportement dans le pire cas. 3 Robust RTDP Nous considérons désormais des SSPs incertains basés sur des intervalles, où T (s, a, s′ ) se trouve dans un intervalle [P rmin (s′ |s, a), P rmax (s′ |s, a)]. La figure 1 montre un exemple d’un tel SSP. Nous discutons l’approche pessimiste, l’optimiste amenant à des résultats similaires. 131 CAp 2005 [.7] [.7] s0 (c=1) [.7,.7] (c=1) (c=.87) a0 a1 [.3] a0 [.3] [.5,.9] (c=.9) s0 a1 [.3,.3] (c=1) [.1,.5] (c=.8) s1 s1 a) SSP certain b) SSP incertain F IG . 1 – Deux vues d’un même SSP, selon que l’incertitude sur le modèle est prise en compte (coûts entre parenthèses). Dans le SSP incertain, l’action a0 sera préférée du fait qu’elle atteint rapidement le but s1 . Pour une paire état-action donnée (s, a), il existe une liste R = (s′1 , · · · , s′k ) d’états atteignables (R est choisi pour “reachable”). Pour chaque état atteignable, T (s, a, s′i ) ∈ Ii = [pmin , pmax ]. Ainsi, les modèles possibles sont i i P ceux qui respectent les contraintes représentées par ces intervalles tout en assurant i T (s, a, s′i ) = 1. La figure 2 illustre ceci avec trois états atteignables. s′1 s′1 pmax s′ 1 pmin s′ 1 s′3 s′2 s′3 s′2 F IG . 2 – Un triangle est un simplexe représentant toutes les distributions de probabilité possibles pour trois résultats différents (P r(s′i ) = 1 au sommet s′i ). Sur le triangle de gauche, le trapèze montre l’intervalle-contrainte pour s′1 . Le triangle de droite montre les modèles possibles à l’intersection des trois intervalles-contraintes. Pires modèles locaux — L’étape de maximisation pour calculer Q(s, a) dans l’algorithme 2 est effectuée en donnant la plus grande probabilité au pire résultat. Ceci requiert d’abord d’ordonner les états atteignables de manière décroissante selon les valeurs : c(s, a, s′1 ) + J(s′1 ) ≥ c(s, a, s′2 ) + J(s′2 ) ≥ · · · c(s, a, s′k ) + J(s′k ). Après, la pire distribution est celle associant la plus grand probabilité au premier état s′1 , puis à s′2 , et ainsi de suite jusqu’à s′k . Comme indiqué dans (Givan et al., 2000), il est équivalent de trouver l’index r ∈ [1..k] 132 Planification robuste avec (L)RTDP tel que r−1 X + pmax i i=1 k X ≤ 1. pmin i i=r Les transitions de probabilités résultantes sont alors : ½ max pi if i < r P r(s′i ) = if i > r pmin i P r(s′r ) = 1− k X P r(s′i ). (2) (3) i=1,i6=r Pk , l’algorithme 3 donne une imEn utilisant la borne pré-calculée Bmin = i=1 pmin i plémentation complète. L’algorithme de tri par insertion5 est choisi pour profiter de ce que la liste sera souvent déjà ordonnée. Algorithme 3 Pire modèle pour la paire état-action (s, a) P IRE M OD ÈLE(s : état, a : action) R = (s′1 , · · · , s′k ) = E TATS ATTEIGNABLES(s,a) T RI(R) i = 1, borne = Bmin < 1) faire + pmax tant que (borne − pmin i i min borne ← borne − pi + pmax i P r(s′i ) ← pmax i i←i+1 fin tant que r=i P r(s′r ) ← 1 − (borne − pmin r ) pour tout i ∈ {r + 1, . . . , k} faire P r(s′i ) ← pmin i fin pour return (R, P r(·)) En résumé, Robust VI sur un SSP basé sur des intervalles consiste à appliquer Value Iteration tout en mettant à jour les probabilités de transition à travers l’algorithme 3. Nous n’avons besoin que d’un seul pire modèle pour calculer les pires Q-valeurs. Toutefois, parce que plusieurs états atteignables s′i peuvent avoir la même valeur c(s, a, s′i )+ J(s′i ) que s′r (on note cet ensemble d’états Sr′ ), il peut y avoir une infinité de pire modèles locaux équivalents. Tout modèle ne différant que par la distribution de la masse de probabilité parmi les états également mauvais de Sr′ est aussi un pire modèle local. Pires modèles globaux — Contrairement à VI, RTDP ne visite pas nécessairement tout l’espace d’états. C’est pourquoi (Barto et al., 1995) introduit la notion d’état pertinent (“relevant state”), que 5 http ://en.wikipedia.org/wiki/Insertion sort 133 CAp 2005 nous étendons au cas incertain : un état s est dit être pertinent pour M s’il existe un état de départ s0 , un modèle m ∈ M et une politique optimale π sous ce modèle tels que s peut être atteint de l’état s0 quand le contrôleur utilise cette politique sous ce modèle. Cette notion est importante parce que deux modèles locaux également mauvais sur une paire état-action peuvent interdire l’accès à différents états, de sorte que pour deux modèles m1 et m2 , un état peut être pertinent (dans le sens de (Barto et al., 1995)) dans m1 mais pas dans m2 . Mais RTDP ne devrait pas trouver une politique optimale juste pour les états pertinents d’un seul pire modèle global. Et la politique ne doit pas s’appliquer à tous les états possibles. Elle devrait s’appliquer à tous les états atteignables sous tout modèle (pour des politiques optimales), i.e. à tous les états pertinents. Mais couvrir les états pertinents du pire modèle utilisé pour ré-évaluer les Q-valeurs ne couvre pas nécessairement tous les états pertinents pour M : cela dépend du modèle utilisé pour choisir l’état suivant, c’est-à-dire pour simuler la dynamique du système. Pour éviter de manquer des états pertinents, chaque modèle local utilisé pour la simulation doit assurer que tout état atteignable (d’après M) peut être visité. Comme on peut le voir sur la figure 2, l’ensemble des modèles locaux possibles pour une paire état-action est un polytope convexe à n dimensions. Tout modèle à l’intérieur de ce polytope, excluant la frontière, est ainsi approprié puisque, pour tout s′i , il garantie que P (s′i |s, a) > 0. Ainsi il existe un modèle global md qui peut être employé pour simuler la dynamique du système sans manquer quelque état potentiellement atteignable qu’il soit. 3.1 Robust (Trial-Based) RTDP Robust RTDP diffère du RTDP original en ce que : – A chaque fois que l’algorithme met à jour l’évaluation d’un état, l’adversaire cherche le pire modèle local, utilisé pour calculer les Q-valeurs. – Pour l’exploration, l’algorithme suit une dynamique possible du système qui tient compte de toutes les transitions possibles (utilisant le modèle md ). – Les états “pertinents” sont maintenant les états atteignables en suivant une politique optimale sous n’importe quel modèle possible. De là, nous pouvons adapter à notre contexte le théorème de convergence 2 de (Barto et al., 1995), ainsi que la preuve correspondante, en discutant principalement les modifications qu’elle requiert. Théorème 1 Dans des problèmes de chemin le plus court stochastique incertain et avec atténuation, robust Trial-Based RTDP, avec l’état initial de chaque essai restreint à un ensemble d’états de départ, converge (avec probabilité un) vers J ∗ sur l’ensemble des états pertinents, et la politique optimale du contrôleur converge vers une politique optimale (éventuellement non-stationnaire) sur l’ensemble des états pertinents, sous les mêmes conditions que le théorème 3 dans (Barto et al., 1995). 134 Planification robuste avec (L)RTDP Preuve : La preuve dans (Barto et al., 1995) montre que les états indéfiniment mis à jour par RTDP sont les états pertinents, de sorte qu’une preuve de convergence classique sur les SSP peut être invoquée. Une première remarque est qu’introduire maxm∈M dans la formule de mise à jour ne change pas le fait que Jt est croissante et non-surestimante. Dans notre cas, l’utilisation du modèle md assure de manière similaire que les états indéfiniment mis à jour par robust RTDP sont tous les états pertinents (du SSP incertain). Nous avons établi que nous sommes dans un jeu séquentiel de type chemin le plus court (“Stochastic Shortest Path Games”=SSPG). (Bertsekas & Tsitsiklis, 1996) montre qu’il s’agit de cas particuliers de SSPG général (simultané). La convergence pour les SSPGs généraux est prouvée dans la proposition 4.6 de (Patek & Bertsekas, 1999), laquelle établie que les coûts à long terme convergent avec une probabilité 1 sur l’ensemble des états pertinents. ¤ Quel que soit le modèle réel, l’algorithme apprend toutes les décisions optimales pour tout état pertinent sous l’hypothèse la plus pessimiste. Un état pertinent s peut d’ailleurs ne pas être atteignable à travers un pire modèle global, mais l’environnement réel peut y mener. Ainsi la politique doit couvrir tous les états pertinents mais fait l’hypothèse que le pire modèle s’applique depuis ces états. 4 Expérimentations Labelled RTDP (Bonet & Geffner, 2003) est une version modifiée de RTDP qui peut être rendue robuste de manière similaire. Les expériences effectuées illustrent le comportement de robust LRTDP. Dans ce but, il est comparé au Robust Value Iteration de Bagnell, ainsi qu’à LRTDP. Dans tous les cas, le critère de convergence est ² = 10−3 : – pour LRTDP, un état s a convergé si ses enfants aussi et si son résidu |Jt+1 (s) − Jt (s)| est plus petit que ², et – pour VI, nous nous arrêtons quand le plus grand changement dans le coût à long terme d’un état au court d’une itération est plus petit que ². 4.1 Cœur Dans cette première expérimentation, nous comparons une politique non-robuste optimale avec une robuste sur le petit exemple de la figure 1-b. Le tableau 1 montre les coûts à long terme espérés théoriques de chaque politique sur le modèle normal (plus probable), ainsi que sur les modèles pessimistes et optimistes. La politique robuste est largement meilleure dans le cas pessimiste. On a ici un exemple caricatural du fait qu’une politique robuste fait usage de transitions moins incertaines qu’une politique qui est optimale pour le modèle le plus probable, d’où une moins grande variabilité de son efficacité quand elle est évaluée sur divers modèles. 135 CAp 2005 TAB . 1 – Evaluation théorique de politiques robustes et non-robustes sur divers modèles, concordant exactement à l’évaluation empirique. Normal Pessimiste Optimiste 2.90 8.90 1.70 Non-robuste 3.33 3.33 3.33 Robuste 4.2 La voiture sur la montagne Nous employons ici le problème de la voiture sur la montagne tel que défini dans (Sutton & Barto, 1998) : partant du fond d’une vallée, une voiture doit acquérir assez d’élan pour atteindre le haut d’une montagne (voir figure 3). La dynamique utilisée est la même que décrite dans le logiciel “mountain car”.6 L’objectif est de minimiser le nombre de pas de temps pour atteindre le but. But Réaction de la route Accélération Gravité −1.2 Position 0.6 F IG . 3 – Le problème de la voiture sur la montagne. L’espace d’état continu est discrétisé (grille 32 × 32) et le modèle de transitions incertaines correspondant est obtenu par échantillonage de 1000 transitions depuis chaque paire état-action (s, a). Pour chaque transition, on calcule les intervalles dans lesquels se trouve le vrai modèle avec une confiance de 95%. Ce calcul décrit en annexe B dans (Buffet & Aberdeen, 2004) utilise la variance empirique et assure que le modèle le plus probable satisfait les contraintes obtenues (on a donc toujours au moins un modèle possible). 6 http ://www.cs.ualberta.ca/˜sutton/MountainCar/MountainCar.html 136 Planification robuste avec (L)RTDP Résultats Remarque préliminaire : simuler un chemin montre généralement une voiture oscillant plusieurs fois avant de quitter la vallée. Ceci a deux explications principales : 1- la vitesse acquise est juste suffisante pour atteindre le sommet, et 2- le modèle discrétisé n’est pas assez précis : appliquer la politique obtenue sur le vrai modèle mathématique (au lieu du discrétisé) devrait donner de bien meilleurs résultats. La figure 4 montre la fonction de coût à long terme obtenue en utilisant value iteration, LRTDP et leur contreparties robustes sur le problème de la voiture sur la montagne. Les axes x et y donnent la position et la vitesse de la voiture. L’axe z est l’espérance du coût jusqu’au but. Sur la surface est représenté un exemple de chemin depuis l’état de départ jusqu’à l’état but : il suit la politique gloutonne face au modèle le plus probable. La forme générale de la surface obtenue est toujours la même, avec des parties de l’espace d’états inexplorées par LRTDP et Robust LRTDP (comme attendu). Les échelles verticales sont bien plus grandes dans les cas robustes. Cela reflète le fait qu’atteindre le but consomme bien plus de temps sous un modèle pessimiste. Parce que J peut ici être interprêté comme le temps moyen avant d’atteindre le but, ces graphes montrent comment l’accumulation de petites incertitudes peut amener à des politiques plus longues. Ici les temps sont multipliés par plus de 2.5. Lors de l’exécution des quatre différents algorithmes, une évaluation de la politique gloutonne courante était effectuée tous les 10∗nStates = 10 240 mises à jour d’une Qvaleur. Les résultats apparaissent sur les figures 5 a) et b), l’axe des ordonnées donnant l’espérance de coût à long terme depuis l’état de départ. Sur les deux sous-figures, les algorithmes basés sur LRTDP obtiennent de bonnes politiques rapidement, mais ont de longs temps de convergence de : VI=2.46 × 106 mises à jour, LRTDP=9.00 × 106 , rVI=8.09 × 106 , rLRTDP=11.5 × 106 . Une dernière mesure intéressante à observer est la “Value-at-Risk” (VaR), même si l’on cherche ici un comportement optimal face au pire modèle et non un comportement minimisant le risque. La VaR donne, pour un seuil de “risque” r ∈ [0, 1], le coût à long terme J ′ tel que P r(J > J ′ ) ≤ r. La figure 6 a) montre les courbes de Value-at-Risk pour trois modèles possibles (moyen, bon et mauvais) et pour une politique optimale normale et une politique optimale robuste (d’où un total de 6 courbes). Dans ce cas précis, les courbes de l’une et l’autre politiques se superposent, leurs comportements étant identiques sur chacun des trois modèles. Il semble donc que la politique optimale normale soit déjà robuste, et qu’aucun effet particulier sur le risque n’est observable. 4.3 Navigation maritime Le problème de navigation utilisé ici partage des similarités avec la voiture sur la montagne. Sa description complète peut être trouvée dans (Vanderbei, 1996), et une autre utilisation se trouve dans (Peret & Garcia, 2004). Ici, l’espace est discrétisé en une grille de 10 × 10, ×8 angles de vent et ×8 directions possibles. L’incertitude de ce système est due à l’évolution stochastique de la direction du vent. Le modèle incertain est aussi appris en tirant 1000 échantillons au hasard pour chaque paire état-action, en utilisant la même confiance de 95%. 137 Long-Term Cost Function Example Path V(x,v) 600 1600 1400 500 1200 400 1000 300 800 600 200 400 100 200 0 -0.07 0 -0.07 -0.035 -0.035 0.425 0 v 0.035 0 0.035 -0.425 0.07 -0.85 0.425 0 v 0 x -0.425 0.07 a) Value Iteration -0.85 x b) Robust Value Iteration Long-Term Cost Function Example Path V(x,v) Long-Term Cost Function Example Path V(x,v) 600 1600 1400 500 1200 400 1000 300 800 600 200 400 100 200 0 -0.07 0 -0.07 -0.035 -0.035 0.425 CAp 2005 0 v 0 0.035 -0.85 c) LRTDP 0 0.035 -0.425 0.07 0.425 0 v x -0.425 0.07 -0.85 d) Robust LRTDP x F IG . 4 – Fonction de coût à long terme pour le problème de la voiture sur la montagne Dans tous les cas, le modèle le plus probable est utilisé pour générer un exemple de chemin. 138 Long-Term Cost Function Example Path V(x,v) 8000 average cost to goal average cost to goal LRTDP VI 6000 4000 2000 6000 4000 2000 0 0 0 200 400 600 800 t (unit=10*nStates) 1000 1200 1400 0 a) Voiture / algorithmes non-robustes 1000 200 400 600 800 t (unit=10*nStates) 1000 1200 1400 b) Voiture / algorithmes robustes 1000 LRTDP VI 800 average cost to goal 800 LRTDP VI 600 400 200 600 400 200 0 0 0 20 40 60 80 t (unit=2*nStates) c) Navigation / algorithmes non-robustes 100 0 20 40 60 80 t (unit=2*nStates) d) Navigation / algorithmes robustes 100 F IG . 5 – Coût moyen pour atteindre le but pour le problème de la voiture sur la montagne (et le problème de navigation), coût mesuré toutes les 10 ∗ nStates (resp. 2 ∗ nStates) mises à jour de Q-valeurs. 139 10000 LRTDP VI 8000 average cost to goal Planification robuste avec (L)RTDP 10000 CAp 2005 Résultats Les mêmes tests ont été effectués que sur le problème de la voiture sur la montagne. Les fonctions de coût à long terme obtenues montrent des phénomènes similaires tels que l’augmentation du temps pour atteindre le but. Seules les figures 5 c) et d) sont d’un intérêt particulier, puisqu’elles montrent combien les algorithmes de la famille LRTDP convergent vite. Dans ce problème au plus grand nombre de dimensions, trouver des solutions prend plus de temps au début, mais LRTDP s’avère très efficace pour éliminer les chemins inefficaces. En fait, la plupart des états pertinents se trouvent le long de la diagonale principale du lac (la plupart des états latéraux peuvent être évités par les politiques optimales). Pour les différents algorithmes, le temps de convergence est : VI=3.67 × 106 , LRTDP=0.49 × 106 , rVI=5.22 × 106 , rLRTDP=0.60 × 106 . Pour finir, la figure 6 b) donne les courbes de Value-at-Risk pour trois modèles possibles (moyen, bon et mauvais) et pour une politique optimale normale et une politique optimale robuste. Contrairement au problème de la voiture sur la montagne, on observe un comportement différent selon que la politique est robuste ou non. En fait, dans le cas de la politique robuste, les 3 courbes correspondants aux 3 différents modèles employés sont presque confondues (avec la courbe du milieu : “politique optimale normale / modèle moyen”). On en déduit que la recherche d’une politique robuste amène à des prises de décisions différentes “uniformisant” la prise de risque : la probabilité de dépasser un certain coût à long terme est la même quel que soit le modèle réel du système. value-at-risk value-at-risk 10000 8000 6000 4000 0 0 2000 250 200 150 100 50 0 0 0.2 0.4 0.4 risk risk 0.8 robust policy / average model robust policy / worst model robust policy / best model optimal policy / average model optimal policy / worst model optimal policy / best model 0.6 0.8 robust policy / average model robust policy / worst model robust policy / best model optimal policy / average model optimal policy / worst model optimal policy / best model 0.6 a) Voiture sur la montagne 0.2 b) Navigation 1 1 F IG . 6 – Courbes de Value-at-Risk pour les deux problèmes considérés et 3 modèles de référence. Une autre expérimentation (Buffet & Aberdeen, 2004) confirme ces résultats sur un 140 Planification robuste avec (L)RTDP exemple illustrant cette approche sur un problème de planification temporelle. Dans ce cas, l’incertitude vient de ce que les probabilités d’échec des différentes tâches n’est connue que par consultation d’experts du domaine (Aberdeen et al., 2004). 5 Discussion et conclusion Une extension directe de ce travail, suggérée par (Hosaka et al., 2001), est de trouver les meilleures décisions face aux pires modèles (comme nous le faisons dans cet article), puis de choisir parmi celles-ci les décisions optimales pour un modèle optimiste. Cette idée a été développée dans l’annexe C de (Buffet & Aberdeen, 2004). Si les calculs supplémentaires requis sont raisonnables, ils ne sont utiles que si diverses politiques robustes équivalentes existent, avec une variabilité de leurs résultats sur des modèles optimistes. L’approche de la robustesse adoptée dans ce papier considère que l’on connait un ensemble de modèles possibles. Une question ouverte est de savoir s’il est possible d’utiliser plus d’information issue du modèle incertain en prenant en compte la distribution de probabilité sur les modèles possibles. De manière similaire, l’incertitude sur le modèle a été considérée pour apprendre un modèle pendant la planification (Strehl & Littman, 2004). L’algorithme proposé est optimiste, mais ne semble pas s’adapter à notre cadre dans la mesure où l’évolution du modèle brise l’hypothèse de “non-surestimation” : ∀s ∈ S, t ≥ 0, Jt (s) ≤ J ∗ (s). Il reste toutefois important de noter que robust RTDP ne souffrirait pas d’être utilisé en ligne, puisque la dynamique réelle peut être employée pour choisir l’état suivant (le pire modèle n’apparaı̂t que dans la formule de mise à jour du coût à long terme). Enfin, une hypothèse cruciale de RTDP est qu’un état but doit être atteignable depuis tout état. Nous présentons un algorithme répondant à ce problème dans (Buffet, 2004). Conclusion Des travaux récents montrent que l’incertitude du modèle est un problème important pour la planification dans le cadre de la théorie de la décision. Il peut être intéressant aussi bien d’analyser le modèle pour savoir où il pourrait être raffiné, que prendre des décisions en tenant compte de l’incertitude connue. Nous avons proposé une modification de l’algorithme RTDP lui permettant de calculer des politiques robustes efficacement dans des domaines de grande taille et incertains. L’incertitude sur le modèle est représentée à travers des intervals de confiance sur les probabilités de transition. La preuve de convergence de l’algorithme résultant est esquissée (détails dans (Buffet & Aberdeen, 2004)). Nous faisons la démonstration de robust LRTDP sur un domaine où les intervalles sont estimés de manière statistique. Remerciements Grand merci à Sylvie Thiébaux pour son aide et ses encouragements. 141 CAp 2005 Le National ICT Australia est financé par le gouvernement australien. Ce travail a aussi bénéficié du soutien du DSTO (Australian Defence Science and Technology Organisation). Références A BERDEEN D., T HI ÉBAUX S. & Z HANG L. (2004). Decision-theoretic military operations planning. In Proceedings of the Fourteenth International Conference on Automated Planning and Scheduling (ICAPS’04). BAGNELL J., N G A. Y. & S CHNEIDER J. (2001). Solving Uncertain Markov Decision Problems. Rapport interne CMU-RI-TR-01-25, Robotics Institute, Carnegie Mellon University, Pittsburgh, PA. BARTO A., B RADTKE S. & S INGH S. (1995). Learning to act using real-time dynamic programming. Artificial Intelligence, 72. B ERTSEKAS D. & T SITSIKLIS J. (1996). Neurodynamic Programming. Athena Scientific. B ONET B. & G EFFNER H. (2003). Labeled rtdp : Improving the convergence of real time dynamic programming. In Proceedings of the Thirteenth International Conference on Automated Planning and Scheduling (ICAPS’03). B UFFET O. (2004). Robust (L)RTDP : Reachability Analysis. Rapport interne, National ICT Australia. B UFFET O. & A BERDEEN D. (2004). Planning with Robust (L)RTDP. Rapport interne, National ICT Australia. G IVAN R., L EACH S. & D EAN T. (2000). Bounded parameter markov decision processes. Artificial Intelligence, 122(1-2), 71–109. H OSAKA M., H ORIGUCHI M. & K URANO M. (2001). Controlled markov set-chains under average criteria. Applied Mathematics and Computation, 120(1-3), 195–209. M UNOS R. (2001). Efficient resources allocation for markov decision processes. In Advances in Neural Information Processing Systems 13 (NIPS’01). N ILIM A. & G HAOUI L. E. (2004). Robustness in markov decision problems with uncertain transition matrices. In Advances in Neural Information Processing Systems 16 (NIPS’03). PATEK S. D. & B ERTSEKAS D. P. (1999). Stochastic shortest path games. SIAM J. on Control and Optimization, 36, 804–824. P ERET L. & G ARCIA F. (2004). On-line search for solving markov decision processes via heuristic sampling. In Proceedings of the 16th European Conference on Artificial Intelligence (ECAI’2004). S TREHL A. L. & L ITTMAN M. L. (2004). An empirical evaluation of interval estimation for markov decision processes. In Proceedings of the Sixteenth International Conference on Tools with Artificial Intelligence (ICTAI’04). S UTTON R. & BARTO G. (1998). Reinforcement Learning : an introduction. Bradford Book, MIT Press, Cambridge, MA. VANDERBEI R. J. (1996). Optimal sailing strategies, statistics and operations research program. University of Princeton, http ://www.sor.princeton.edu/˜rvdb/sail/sail.html. 142 Réseau Bayésien Aplati pour l’Inférence dans les HMM hiérarchiques factorisés et Apprentissage avec peu de données1 Sylvain Gelly∗ , Nicolas Bredeche∗ , Michèle Sebag∗ ∗ Équipe Inférence&Apprentissage - Projet TAO (INRIA futurs) LRI - Université Paris-Sud, 91405 Orsay Cedex (gelly,bredeche,sebag)@lri.fr - http ://tao.lri.fr Une limite essentielle des HMM, et plus généralement des modèles de Markov, concerne le passage à l’échelle, l’impossibilité de la prise en compte efficace de l’influence de phénomènes indépendants et la difficulté de généralisation. Pour répondre à ces problèmes, plusieurs extensions existent. En particulier, nous nous intéresserons dans ce qui suit à la hiérarchisation (Shai Fine, 1998; Theocharous et al., 2004) et à la factorisation (Ghahramani & Jordan, 1997). La hiérarchisation permet de réduire le nombre de liens entre états nécessaires dans un HMM et par là même de réduire la complexité algorithmique de l’apprentissage ainsi que l’imprécision. Quant à la factorisation, le principe est d’expliquer les observations par plusieurs causes plutôt qu’une seule. C’est-à-dire qu’on remplace le P (Y |X) des HMM par P (Y |X 1 , X 2 , ..., X n ). Les X i sont des variables cachées pouvant être i gérées indépendamment. Les P (Xt+1 |Xti ) sont alors différents pour chaque i. En pratique, on ne peut pas adapter directement les algorithmes d’inférence existants dans le cas des HMM factorisés, ou hiérarchiques. De plus, un aspect important du problème est que notre système apprend à partir de données éparses car nous faisons l’hypothèse que nous ne disposons que d’un petit nombre d’exemples pour apprendre. Ceci se justifie par notre domaine d’application (la robotique située), où le processus d’échantillonnage des données est contrôlé par un comportement dépendant entre autres de l’environnement et des capacités du robot qui ne permet pas d’obtenir beaucoup d’exemples. Par conséquent, nous souhaitons exprimer un compromis entre précision et vitesse de l’apprentissage. L’approche que nous proposons consiste à changer de formalisme de représentation en transformant un graphe orienté et avec circuits (i.e. HMM hiérarchique factorisé dans lequel on fait abstraction du typage des dépendances) en un réseau Bayésien. Le formalisme des réseaux Bayésiens s’inscrit en effet dans un cadre théorique développé et bien connu qui laisse espérer une résolution plus facile. Toutefois, nous identifions les deux problèmes suivants : – L’existence de dépendances multiples dans les FHHMM entraîne à priori une explosion combinatoire du nombre de paramètres à apprendre, ce qui est d’autant plus problématique lorsque peu d’exemples sont à notre disposition ; – La présence de circuits dans les dépendances conditionnelles entre les variables d’un FHHMM empêchent la modélisation directe par un réseau Bayésien. Il est à noter que ces dépendances ne concernent les variables qu’à un même pas de temps (synchrones). 1 Acknowledgements : This work was supported in part by the PASCAL Network of Excellence. 143 CAp 2005 F IG . 1 – Exemple de changement de représentation (RB => RBA). Le graphe de gauche donne la structure des dépendances conditionnelles entre les variables, et le graphe de droite montre l’expression dans le formalisme des réseaux Bayésien après transformation et ajout de variables additionnelles booléennes. Ces variables additionnelles permettent de forcer la dépendance entre deux variables du réseau Bayésien (elles sont systématiquement observées à vrai). Les probabilités conditionnelles de ces variables sont calculées de telle sorte que les probabilités jointes entre deux variables d’origine soient cohérentes avec les données. En conséquence, nous avons mis au point un algorithme de changement de représentation permettant de construire ce que nous appelons des réseaux Bayésiens aplatis (RBA). Cette modélisation est basée sur un compromis entre précision et vitesse d’apprentissage et repose sur la prise en compte des dépendances multiples en les exprimant deux à deux seulement (cf. Fig. 1). Les résultats obtenus sont prometteurs puisqu’ils montrent que les réseaux Bayésiens aplatis ont les propriétés suivantes : – prise en compte et modélisation des circuits, ceux-ci étant fréquents dans les HMM considérés ; – apprentissage plus rapide avec peu d’exemples, au prix, il est vrai, d’une perte de précision à long terme. En robotique, ce compromis est avantageux puisque l’on dispose souvent d’exemples peu nombreux. Cependant, le formalisme final étant toujours celui des RB (avec des variables additionnelles et un calcul des paramètres satisfaisant des axiomes), nous pouvons très bien envisager des représentations "hybrides" dans lesquelles certaines dépendances (pour lesquelles peu de données sont disponibles) sont exprimées dans le cadre des RBA, tandis que d’autres sont exprimées de façon classique. Ainsi, cette méthode permettrait de tirer parti du compromis expressivité/apprentissage avec peu d’exemples des RBA tout en gardant une expressivité pouvant atteindre celle des RB lorsque le nombre d’exemples disponibles croît suffisamment. Références G HAHRAMANI Z. & J ORDAN M. I. (1997). Factorial hidden markov models. Machine Learning, vol. 29. 1996, pages 245-273. S HAI F INE , YORAM S INGER N. T. (1998). The hierarchical hidden markov model : Analysis and applications. Machine Learning. T HEOCHAROUS G., M URPHY K. & K AELBLING L. (2004). Representing hierarchical pomdps as dbns for multi-scale robot localization. Proc. of the IEEE international Conference on Robotics and Automation (ICRA’04). 144 Systèmes inductifs-déductifs : une approche statistique Nicolas Baskiotis, Michèle Sebag, Olivier Teytaud Equipe TAO, CNRS - Université Paris-Sud (LRI) - INRIA (Futurs), bât 490 Universite Paris-Sud 91405 Orsay Cedex France {nbaskiot, sebag, teytaud}@lri.fr Résumé : Les théorèmes d’essentielle indécidabilité de l’arithmétique ont souvent été cités comme limites à la démonstration automatique ou aux systèmes experts. Toutefois, ces résultats considèrent l’impossibilité d’établir la démonstration d’énoncés au pire cas sur le choix de l’énoncé, ce qui est trop pessimiste pour la vie réelle. C’est pourquoi nous proposons un cadre probabiliste. Précisément, nous examinons le taux d’énoncés non-décidables à mesure que le système d’axiomes s’enrichit, en particulier selon que l’on empile simplement les exemples comme autant d’axiomes ou selon que l’on effectue une réelle induction de système d’axiomes1 . Inspired by the “Learning to Reason” framework and the debate about Quine’s underdetermination thesis, this paper investigates the conditions for a hybrid inductivedeductive system (IDS). This system is provided with a set of axioms or statements (e.g. examples), and its goal is to determine the truth value of any further statement e. From a mathematical logic perspective, the question is whether i) the available set of statements is complete, and ii) the logical setting is complete (decidable logic). The truth value of e is determined using mathematical deduction ; the algorithmic challenge is to provide an efficient search engine for constructing a proof of e or ¬e. When the set of statements is not complete, inductive reasoning is needed to find additional axioms, consistent with the available ones and sufficient for determining the truth value of e. The challenge here is to determine the statistically relevant level of generalization. From a hybrid inductive-deductive perspective, the logical setting considered must thus be examined with respect to both its completeness (deduction-oriented performances), and its VC-dimension or PAC learnability (induction-oriented performances). Typically, statements C(1), C(3), C(5), ¬C(4), ¬C(6), ¬C(2), do not allow for any further deduction. In the meanwhile, inductive logic programming might hypothesize ∀n; C(2n + 1) ∧ ¬C(2n), which could in turn allow for many other deductions2. 1 Voir http://www.lri.fr/˜teytaud/decid.pdf pour la bibliographie et les démonstrations complètes. 2 It must be emphasized that this combination of induction and deduction corresponds to the standard reasoning in mathematics : modifying, adding and removing axioms in order to avoid inconsistencies and provide 145 CAp 2005 This paper examines the convergence properties of an inductive-deductive system (e.g. the probability that the n + 1-th example can be proved from the axioms learned from the previous n examples). The originality of the work is to propose a probabilistic analysis of logic decidability and completeness, contrasting with the worst-case analysis and undecidability results used in the literature. Indeed, a worst-case perspective does not account for the fact that many statements can yet be proved in an essentially undecidable setting. Overview The alternative to a worst-case analysis framework proposed in this paper is based on a logically consistent probability distribution over the set of statements. In each step n, the system outputs a theory An from the first n statements, and one examines whether this theory allows for proving further statements. If these further statements are selected in a worst-case manner, An does not allow for deciding their truth value even with unbounded computational resources. However, a worst-case perspective often leads to overly pessimistic conclusions. In everyday life, many statements are (provably) true or false despite the incompleteness and undecidability of the underlying axiom set. The probabilistic setting proposed is inspired from the standard Probably Approximately Correct (PAC) framework, and the study borrows the standard statistical learning tools (VC-dimension) in order to bound the completeness expectation Ln = M ({e s.t. An 6⊢ e ∧An 6⊢ ¬e}) where M is the measure of probability of the examples. The complete paper presents results about the induction of a target theory with bounded description length, comparing the naive learning (naive adding of examples as axioms), pruned learning setting (reduction of axioms) and fine learning setting (induction of axioms by minimum description length). It is shown that (corollaries 1-4) : i) in all cases, non-asymptotic performance depends on the underlying distribution M and it might be arbitrarily bad (as in the worst-case setting) ; ii) fine learning, and more generally restrictions on the description length entails faster convergence rates than naive learning ; iii) for any algorithm with a faster completeness convergence rate than naive learning, there exists a distribution such that the error or falsity is not almost surely zero (∃M, e s.t. ∀n, P (An ⊢ ¬e) > 0 and M (e) > 0) ; iv) pruned learning can behave arbitrarily badly in the sense of an infinite asymptotic description length. Further works consider considers the case of a target theory with infinite description length, and presents negative results (corollaries 5-8) : i) arbitrarily slow convergence rates can occur ; ii) a fast increase of the axiom set can occur. However, the completeness rate goes to 1 as the number of examples goes to infinity. While results outlined above are based on an oracle (axiomatic optimization or theorem proving with unbounded computational power), we considers as well the case of Turing-computable approximations of such an oracle. Results similar to those of the oracle case are presented (with, unfortunately, a huge computational complexity). a better model for reality, with no guarantee that the current axiom set is correct (see e.g. contradictions in early axiomatisations of the set theory). 146 Statistical asymptotic and non-asymptotic consistency of Bayesian networks : convergence to the right structure and consistent probability estimates Sylvain Gelly, Olivier Teytaud Equipe TAO - INRIA Futurs - Laboratoire de Recherche en Informatique, Bâtiment 490, Université Paris-Sud, 91405 - Orsay Cedex - France {sylvain.gelly,olivier.teytaud}@lri.fr Résumé : Le problème du calibrage de relations à partir d’exemples est un problème classique d’apprentissage. Cette question a en particulier été traitée très différemment par la théorie du processus empirique (fournissant des résultats asymptotiques), par la théorie de l’apprentissage ((A.-N. Kolmogorov, 1961),(V. Vapnik, 1971)), et diverses méthodes plus ou moins empiriques. L’application de la théorie de l’apprentissage aux réseaux bayésiens est encore incomplète et nous proposons une contribution, notamment par l’utilisation de nombres de couverture et son application à des minimisations de risque structurel. Nous considérons en particulier les problèmes suivants : – Consistance de l’apprentissage dans les réseaux Bayésiens : quels paradigmes conduisent à la consistance/consistance universelle ? En particulier, nous proposons un algorithme pour lequel la consistance est démontrée. Les méthodes usuelles de calibrations locales sont en fait non consistentes. – Le choix de la structure d’un réseau Bayésien : Comment garantir que la structure ne va pas converger asymptotiquement vers une structure trop complexe ? En particulier, comment générer des états non observables qui simplifient le réseau résultant ? Nous montrons de plus l’influence d’une entropie structurelle sur les nombres de couvertures, qui n’est pas prise en compte par les scores usuels. – La complexité de l’échantillon dans les réseaux Bayésiens : combien d’exemples faut-il pour atteindre une précision donnée dans l’estimation de la densité ? – La convergence vers la structure réelle : comment éviter que l’arc A → B soit choisi comme paramètre du réseau alors qu’il est inutile ? 1 Introduction Bayesian networks are a well known and powerful tool for representing and reasoning on uncertainty. One can refer to (Pearl, 2000),(P. Naim, 2004) for a general introduction 147 CAp 2005 to Bayesian networks. Learning the structure and the parameters of Bayesian networks can be done through either expert information or data. Here, we only address the problem of learning from data, i.e. learning a law of probability given a set of examples following this law. Although a lot of algorithms allowing learning Bayesian networks from data exist, several problems remain. Furthermore, the use of learning theory for Bayesian network is still far from complete. The purpose of this paper is to provide some theoretical insights into the problems of learning Bayesian networks, especially on the problem of structure learning. Statistical Learning Theory is a mature area of Machine Learning that provides efficient theoretical tools to analyse aspects of learning accuracy and algorithm complexity. The use of this tool gives us first of all bounds on the risk given a maximal error and a number of examples, or the number of examples needed to approximate the distribution for a given risk. We also provide, among other things, an algorithm which is guaranteed to converge to an optimal structure. Furthermore, we make comparisons between the form of our bound to the form of the different scores classically used on Bayesian network structure learning. The paper is organised as follows : in section 2 we present an overview of our most concrete results. In section 3 we briefly survey some classical ways to learn Bayesian networks from data and discuss the contribution of this paper in regard of existing results. In section 4 we introduce formally the problem and the notations. Section 5 first recalls some classical results of learning theory and presents our result about evaluation of VC-dimensions and covering numbers. We then generalise our results to more general Bayesian networks, with hidden variables, in section 6. Finally, section 7 shows usefull corollaries applied to structure learning, parameters learning, universal consistency, and others. Due to length constraint, detailed proofs, additional references and further developments can be found in (S. Gelly, 2005). 2 Overview of results First of all, the usual learning methods for parameters (section 3.1) lead asymptotically to the best parameters if the structure of the Bayesian network is exact. However, we show that the classical method is under optimal if the structure does not match the decomposition of the joint law. On the other hand, we prove universal consistency of global fitting during the minimisation of the empirical error (section 7.2). We obtain risk bounds. Therefore, given a number of example, and after learning, we can say that the probability to have an error larger than ² is bounded by δ. Equivalently, we can deduce the number of examples needed to have a risk ≤ δ to have a error larger than ². We first notice that we address also the case with hidden variables (section 6). We apply these bounds either in the case of a finite number of variables (section 7.3) and infinite number of variables (section 7.4). Section 7.5 and theorem 8 gives an algorithm that guarantees universal consistency and overall convergence toward the "good" structure asymptotically. The "good" structure is given in the sense of the user-defined complexity of the structure. Hence, we 148 prove that the algorithm gives us a not too complex structure. Let’s now compare the form of our bound to the form of existing scores. This comparison gives interesting insights on what is important to measure the complexity of a structure. The first lemmas helps calculating the covering number of the set of Bayesian networks for a given structure. These covering numbers are directly related to the complexity of the structure. Theorem 7 states that the dominating term of the bound is RH(r) Pa where R is the number of parameters of the structure and where H(r) = − k=1 (r(k)/R) ln(r(k)/R) with r(k) the number of parameters for the node k. Hence, H(r) is the entropy of the number of parameters calculated over the nodes. We show then that the number of parameters of the Bayesian network is not the only (and even not the most important) measure of the complexity. Hence, the AIC, BIC or MDL measure are quite different because they don’t take into account this H(r). We also show (difference between theorem 6 and theorem 7) that we have a tighter bound if we consider the number of parameters node by node, without trying to gather the nodes in a more smart way. This means, that more complex patterns on the structure of the Bayesian network do not play a role, for our bound. Only the distribution of the number of parameters between the different nodes is important. 3 Bayesian network learning The problem of learning a Bayesian network can be divided in two parts : – Learning the structure of the network, which is related to a graph, and not to the values of the probabilities. – Given a structure, learning the parameters of the Bayesian network, that is to say the conditional probabilities among variables. Learning the structure, is a much more challenging problem than estimating the parameters. Hence, the larger part of the works have addressed this issue. 3.1 Learning parameters The classical approach of this problem is to calculate the maximum of likehood. This leads, with the classical decomposition of the joint probability in a product, to estimate separately each term of the product with the data. This method asymptotically converge toward the true probability, if the proposed structure is exact. The Bayesian method rather try to calculate the most probable parameters given the data, and this is equivalent, with the Bayes theorem, to weight the parameters with an a priori law. The most used a priori is the Dirichlet distribution (see for example (Robert, 1994)). 3.2 Structure learning Structure learning can be divided in two different methods : – Determine causal relations (and independencies and conditional dependencies) between the random variables, and deduce the structure of the graph. 149 CAp 2005 – Map every structure of Bayesian network to a score and search into the space of all structures for a "good" Bayesian network, that is to say, a structure with a good score. The space of all structures is super exponential, so heuristics must be provided to search using the second method (limiting to the tree structures, sorting the nodes, greedy search. . .). The search could also be done on the space of Markov equivalent structures (the structures which code the same probability law), which has better properties. Our work, among other results, provide a score to the structures of Bayesian networks, and so is closer to the second category. 3.2.1 Learning causality The principle of this method is to calculate the independencies (conditionally or not) between the variables. We can cite the algorithms IC, IC*, PC, and more recently BNPC. The classical statistical tests used to test the independencies between variables is the χ2 test. For the hidden variables, the method is more complex, and we must distinguish several types of causality. We will not go further on this point here. 3.2.2 Algorithms based on a score The notion of score of a structure is generally based on the Occam’s razor principle. The score measures the "complexity" of the structure (the meaning depends upon the algorithm). Therefore, the algorithm choose a compromise between the empirical error made by the structure and the score of this structure. A used notation is Dim(bn), "dimension" of the Bayesian network, which counts the number of parameters. Here follows some well known scores for Bayesian networks. – AIC criteria (Akaike, 1970) or BIC (Schwartz, 1978) use essentially the dim(bn) to penalise the complexity of the Bayesian network. – The Minimum Description Length (MDL) principle (Rissanen, 1978) uses the number of arcs and the number of bits used to code the parameters. – The Bayesian approach puts an a priori probability on the structure. For example, The Bayesian Dirichlet score (G. Cooper, 1992) chooses to put a Dirichlet a priori on the parameters. Some variants exist, like BDe (D. Heckerman, 1994) , or BDgamma (C. Borglet, 2002) which uses an hyperparameter, or methods using a priori probabilities on each relations child/parent (given for example by an expert). 4 Problem definition and notations One can refer to (Pearl, 2000),(P. Naim, 2004) for a general introduction to Bayesian networks. Let A1 , . . . Aa be a binary random variables. We note A = {A1 , . . . , Aa }. The choose of binary variables is to make the results clearer, but all the results presented below can be measly extended to the general case of discrete random variables. 150 4.1 Notations We note, Ab , where b is a subset of [1, a], the random variable product of Ai where i ∈ b. If b = ∅, then Ab is the event always true. A Bayesian network is considered as a set K1 ,. . .,Ka of subsets of [1, a] where i 6∈ Ki (We can suppose that i < Ki , that is to say that i is smaller than every element in Ki , without loss of generality). A instanced Bayesian network ibn, associated Q with a Bayesian network bn, is a law on (A1 , . . . , Ai ) such that ibn(A1 , . . . , Aa ) = j P (Aj |AKj ). With bn a Bayesian network, and ibn an instance of bn, we will say by abuse that ibn ∈ bn. We will map ibn with a vector of size 2a corresponding to all the probabilities of all events (A1 = v1 , . . . , Aa = va ). A Bayesian network bn is said well defined if there exists an instance ibn and if there does not two instances with different probabilities P (Aj |AKj ). We call parameter of a Bayesian network (BN), one of the real number P (Aj |AKj ). We call number of parameters of a BN, and we note p(bn) the sum of 2#Kj , where #b is the cardinal of b. We consider P̂ an empirical law (i.e. a sample of Dirac masses located at examples). Let P be a target law of probability. The sample leading to P̂ is supposed independent and identically distributed (i.i.d.). We note E and Ê the expected value operators associated to P and P̂ respectively. We note χ = (0, 0, 0, 0, . . . , 0, 1, 0, . . . , 0, 0, 0) ∈ {0, 1}2 a (all zeros except one 1 on the ith position with probability the probability of the ith set of possible values of A1 . . . Aa ). For Q a vector of size 2a , of sum 1, identified as a probability distribution on the random vector (A1 , . . . , Aa ) (more precisely Q(i) is the probability of (A1 = a1 , ..., Aa = aa ), with (a1 , ...aa ) the ith tuple of size a, among the 2a tuples possible), we define X L(Q) = E( |Q(i) − χ(i)|2 ) i∈[1,2a ] P P where is the sum operator on vector, and L̂(Q) = Ê( i∈[1,2a ] |Q(i) − χ(i)|2 ). If bn is a well defined BN, we note L(bn) = inf ibn∈bn L(ibn) where inf is on the ibn instanced Bayesian networks associated to bn 4.2 Preliminary lemmas and propositions To spot the interest of L(.) and L̂(.), we can remark that : Lemma 0 : P P With N (Q) = i∈[1,2a ] (P (i) − Q(i))2 . and N̂ (Q) = i∈[1,2a ] (P̂ (i) − Q(i))2 , we claim : X L(Q) = N (Q) + 1 − Pi2 i∈[1,2a ] L̂(Q) = N̂ (Q) + 1 − Moreover, we can remark that 151 X i∈[1,2a ] P̂i2 CAp 2005 Proposition A (see (S. Gelly, 2005) for the proof) : With probability 1 − δ, with x∗ ∈ argminL(.) = argminN (.), for all x̂ ∈ argminL̂ = argminN̂ , with supδ X the 1 − δ quantile of X : L(x̂) ≤ L(x∗ ) + 2 sup |L − L̂| δ And finally : Proposition B : With probability 1 − δ, with x∗ ∈ argminL(.) = argminN (.), For all x̂ ∈ argminL̂ = argminN̂ , with supδ X the 1 − δ quantile of X : N (x̂) ≤ N (x∗ ) + 2 sup |L − L̂| δ Proof : Consequence of lemma 0 and proposition A. All these elements confirm the interest of L̂, which has both the interest of being an empirical average and the advantage of being closely related to natural cost functions. 5 Learning theory results The VC dimension ((V. Vapnik, 1971)) is the more classical tool of learning theory. It allows to bound, depending on the "complexity" of the function family, the difference between the empirical mean and the expected value of the loss function. In particular, it allows to quantify the inaccuracy of calibration of a function. This type of calculus has already been done in (P. Wocjan, 2002). We show similarly results in section 5.1. The use of covering numbers, already known on the time of (A.-N. Kolmogorov, 1961), allows more precise bounds, as shown in section 5.2. We √ will note F (H, δ) the smallest real ∆ such that P (suph∈H |L̂(h) − L(h)| ≥ ∆/ n) ≤ δ, with n the number of examples. F (H, δ) depends upon n, but in many cases the dependency upon n can be removed (i.e. the supremum on n is not a bad approximation) and so we often refer to F (H, δ). 5.1 Bounds based on VC dimension Let bn a Bayesian network defined by K0 = ∅ and Kj = [1, j − 1] for j > 1 (totally connected Bayesian network). Then with a probability more than 1 − δ : √ a sup |L̂(ibn) − L(ibn)| ≤ F ([0, 1]2 , δ)/ n ibn∈bn For a Bayesian network bn, with a probability more than 1 − δ : √ sup |L̂(ibn) − L(ibn)| ≤ F ({ibn}, δ)/ n ibn∈bn The application which maps an instance of a Bayesian network and a value of A[1,a] = A1 × A2 × A3 × · · · × Aa to the log (extended by log(0) = −∞) of the probability of this value is linear in the log of the parameters of the Bayesian network. The 152 VC dimension is so upper bounded by the number of parameters. Taking exponential is preserving the VC dimension, and so the VC dimension of {ibn}, seen as application mapping A[1,a] to a probability is upper bounded by the number of parameters. We then deduce the result : Theorem C : The VC dimension of the set of Bayesian network ibn ∈ bn is upper bounded by the number of parameters V of bn. So thanks to classical results of learning theory P (∃ibn ∈ bn|L̂(ibn) − L(ibn)| ≥ ²) < 8(32e/²) log(128e/²))V exp(−n²2 /32) if n ≥ V , and the covering number of ibn for the metric d(ibn1 , ibn2 ) = E(|ibn1 (A[1,a] ) − ibn2 (A[1,a] )|) is upper bounded by e(R + 1)(4e/²)R . Proof : These results are classical in learning theory. See e.g. (M. Antony, 1999, Th18.4 and 17.4) for the upper bound on the probability and (M. Antony, 1999, Th18.4, p251) for the covering number. We note that our results, even if they are for a sharper norm N 1(.), defined on the following, are better. 5.2 Bound based on the covering number The covering numbers are a classical tool of learning theory. Inequalities of large deviations obtained with this tool are usually tighter than those obtained using VCdimension. 5.2.1 Introduction If one can cover F with N 1(F, ²) ² balls for the distance d(x, y) = and L are between 0 and 2, then : P |xi − yi |, if L̂ 1. the risk, for a given function, to have a deviation |L̂−L| more than 2², is bounded by 2 exp(−2n²2 ) ; 2. The risk to have at least one of the centers of the balls having a deviation more than 2² is upper bounded by 2N 1(F, ²) exp(−2n²2 ) ; 3. If d(f, g) ≤ ² ⇒ |L(f ) − L(g)| ≤ ² and d(f, g) ≤ ² ⇒ |L̂(f ) − L̂(g)| ≤ ², (which is the case here, see lemma 2), then the risk to have at least a function in F having a deviation more than 4² is upper bounded by 2N 1(F, ²) exp(−2n²2 ). Indeed, if for all g of ²-skeleton C, we have |L̂(g) − L(g)| ≤ 2², so we can map every f to one g ∈ C such that d(f, g) < ² and so |L̂(f )−L(f )| ≤ |L̂(f )− L̂(g)|+|L̂(g)−L(g)|+|L(g)−L(f )| ≤ ²+2²+² ≤ 4² The risk to have, among F, a deviation more than ² is then upper bounded by δ = 2N 1(F, ²/4) exp(−2n(²/4)2 ). Then we can write : Proposition (maximal deviation for a covering number given) : √ nF (F, δ) ≤ inf{²| log(2N 1(F, ²/4)) − n²2 /8 ≤ log δ} 153 CAp 2005 A lot of variations of this type of result exists in the literature. One can for example see (Vidyasagar, 1997) and (M. Antony, 1999). a a The covering number N∞ (F, ²) of F = [0, 1]2 is upper bounded by ⌈1/2²⌉2 for the distance d(x, y) = supi |xi − yi |. The covering number N 1(F, ²) of F = {ibn ∈ bn}Pis upper bounded as explained in the following subsection for the distance d(x, y) = |xi − yi |. 5.2.2 Cover number of F We assume, without loss of generality that the nodes of the Bayesian network are topologically sorted (i < Ki for i node of the BN) Let Ek a partition of the node set such as : – If k ≤ k ′ then ∀(i, j) ∈ Ek × Ek′ , i ≤ j – There is no edge between two nodes of a same Ek . We call depth the number k corresponding to the partition Ek and lk the number of the last element (node) of Ek . By convention, E0 = ∅ and l0 = 0. Lemma 1 : N 1(Fk , 2nbe(k) ²′ + ²) ≤ N (Fk−1 , ²)Ninf (Tk , ²′ ) where – Fk indicates the set of the functions calculated by the Bayesian network until the Sk level k (that is to say using only the nodes of i=1 Ei ). – Ninf indicates the covering number for the sup norm. – Tk indicates the set of the vectors of the probabilities involved in the transition l from the level k − 1 to the level k (it is [0, 1]2 k ). – nbe(k) indicates the number of the nodes of the Bayesian network in the level k, so #E Pk k; – lk = i=1 nbe(i) ; P – N 1(., .) indicates the covering numbers for the norm x 7→ |x|. Lemma 2 (proof in (S. Gelly, 2005)) : |L(Q) − L(Q′ )| ≤ X i |Qi − Q′i | Lemma 3 : N∞ ([0, 1]h , ²) ≤ ⌈ 1 h ⌉ 2² Lemma 4 : (proof in (S. Gelly, 2005)) N∞ (Tk , ²) ≤ ⌈ nbe(k) r(k) ⌉ 2² where Tk indicates the set of the vectors of the conditional probabilities involved in the transition from the level k − 1 to the level k and where r(k) indicates the number of parameters of the network involved in the transition between level k − 1 and k. 154 Sk−1 Precisely, for a fixed k, Tk is the set of P (Ek | i=1 Ei ), the Ei , i = 1, ..., k taking the 2lk possible values. r(k) indicates the number of the P (Ai |Ki ) with Ai ∈ Ek , that is to say the number of parameters for this level. Lemma 5 (proof in (S. Gelly, 2005)) : Let K be the number of levels ; then lN 1(K) ≤ K X i=1 r(i) ln(⌈ nbe(i)2nbe(i)−1 ⌉) ∆i where ²i > 0, i = 1...K, ²i < ²K , i = 1...K − 1, ²0 = 0, ∆(i) = ²i − ²i−1 and lN 1(i) = log(N 1(Fi , ²i )) and with the notation lN 1(0) = 0. Theorem 6 (proof in (S. Gelly, 2005)) : lN 1(²) ≤ K X k=1 r(k) ln(nbe(k)2nbe(k)−1 + ²) − K X r(k) ln(²r(k)/R) k=1 PK with R = i=1 r(i), ² = ²K et lN 1(²) = lN 1(FK , ²), in particular for K the number of the last level. Theorem 7 (the proof can be found in (S. Gelly, 2005)) : The best partition {Ek } (for this bound) is the one where all the Ek contain only one node. We have then : lN 1(²) ≤ Pa a X k=1 r(k) ln(1 + ²) − a X r(k) ln(²r(k)/R) k=1 ≤ R ln((1 + ²)/²) + RH(r) where H(r) = − k=1 (r(k)/R) ln(r(k)/R). Remark 1 : We get a better bound on the covering number than the one we get from the VC-dimension which is R(2a /²)R (because R ≤ 2a ). Remark 2 : For a fixed R (total number of parameters), our inequality has a term in log((1/²)R ) and a term which is the entropy of the vector (r(1), . . . , r(a)), which shows that the less the parameters are equally distributed, the more the covering number is well controlled. Proof of lemma 1 : Let k ≥ 1 fixed. LetPP a(Ek ) be the set of parent nodes of Ek . Let X be the set k−1 of the vectors of size 2 i=1 #Ei = 2lk−1 representing the probabilities (hence of sum 1) of all Bayesian networks of a given structure (all ibn ∈ bn) until the level k − 1. More precisely X = {x = P (A1 , ..., Alk−1 )}, the lk−1 -tuple of Ai taking all the 2lk−1 Pk possible values. Let Y be the set of vectors of size 2 i=1 #Ei = 2lk representing the probabilities of ibn ∈ bn until the level k. More precisely, Y = {y = P (A1 , ..., Alk )}, the lk -tuples of Ai taking all the 2lk possible values. Let’s cluster the vectors of the set X by classes X̃i such as for all x ∈ X̃i the values of the parents P a(Ek ) are identical. Let N be the number of such classes. Let tji , i ∈ [1, N ], j ∈ [1, 2neb(k) ] the probability of the jth value of the new variables 155 CAp 2005 (of level k) knowing a value of the class X̃i (each propriate because, by definition of P a(.), the new among E1 , ..., Ek ). Let y, y ′ ∈ Y . We can then claim neb(k) 2 1 yi = (ti X̃i , ti X̃i , ..., t2i X̃i ) and y ′ = 1 value of the variables in X̃i is apvariables depend only on P a(Ek ) 2neb(k) 2 y = (y1 , y2 , ..., yN ) with ′ ′ (y 1 , y 2 , ..., y ′ N ) with y ′ i = X̃i′ ). (t′ i X̃i′ , t′ i X̃i′ , ..., t′ i j ′ ′j Let ² = supi,j |ti − t i | and ² = supi kX̃i − X̃i′ k1 . Then : neb(k) ′ ky − y k = N 2X X i=1 j=1 j j k((tji − t′ i )X̃i + t′ i (X̃i − X̃i′ )k1 nbe(k) ′ ky − y k ≤ = N X i=1 N 2X X i=1 j=1 j ²′ kX̃i k1 + t′ i kX̃i − X̃i′ k1 2neb(k) ²′ kX̃i k1 + kX̃i − X̃i′ k1 ≤ 2nbe(k) ²′ + ² Therefore, N 1(Fk , 2nbe(k) ²′ + ²) ≤ N (Fk−1 , ²)Ninf (Tk , ²′ ) ¥ 5.2.3 Summary of the results We have calculated an upper bound on the covering number of the family of instanced Bayesian networks ibn ∈ bn for a given structure P bn. This structure determines the a number of parameters r(k) for k ∈ [1, K] (and R = k=1 r(k)). Then, theorem 7 states that for all ² > 0 : lN 1(²) ≤ a X k=1 r(k) ln(1 + ²) − a X r(k) ln(²r(k)/R) k=1 The lemma 2 states that the conditions d(f, g) ≤ ² ⇒ |L(f ) − L(g)| ≤ ² and d(f, g) ≤ ² ⇒ |L̂(f ) − L̂(g)| ≤ ² are true. So we can here apply the results stated in the subsection 5.2.1, and then the risk to have, among F, a deviation more than ² is then upper bounded by δ = 2 2N 1(F, ²/4) exp(−2n(²/4) √ ). Therefore, F (F, δ) ≤ n inf{²| log(2N 1(F, ²/4)) − n²2 /8 ≤ log δ}. 6 Results with hidden variables We here consider the case where some variables are hidden, so only a part of all the variables are involved in the calculus of L̂ or L. It is important to remark that it is not equivalent to reduce the Bayesian network to a smaller Bayesian network. For 156 example, a network with a hidden variable B and observed variables Ai for i ∈ [1, d], with dependencies P (Ai |B), has only 2d + 1 parameters and is difficult to modelise (i.e. would need much more parameters) with a Bayesian network which has only the Ai as variables. By mapping a Bayesian network to a vector (of sum 1) of the probabilities it calculates, a Bayesian network in which some variables are hidden can be mapped to a reduced vector (the vector of marginalized probabilities). If all the variables are binary (which is the case in this paper), the number of probabilities to code is divided by 2 by ˜ which has v vaeach variable become hidden. A instance of a Bayesian network (ibn) v−l riables, among them l hidden variables, can be mapped to an element of [0, 1]2 summing to 1, whereas the Bayesian network ibn corresponding which does not have hidv den variables, gives 2v probabilities (hence a vector in [0, 1]2 , summing to 1). ĩbn then equals summing(ibn), where summing(.) is an application summing some quantities. P As summing(.) is 1-lipschitz for the distance d(x, y) = |xi − yi | (i.e. d(x̃, ỹ) ≤ d(x, y)), we deduce : Proposition maximal deviation in a Bayesian network with hidden variables : ˜ ∈ bn ˜ is upper bounded by The risk to have a deviation at least ² for a ibn ˜ = {ibn/ibn ˜ ˜ δ) ≤ F (bn, δ). 2N 1(bn, ²/4) exp(−n²2 /8), with bn ∈ bn}, and F (bn, Remarks : We can notice that we don’t improve the bound in spite of simpler net˜ δ) by F ([0, 1]v−l , δ) if the number of hidden work. We can of course bound F (bn, variables is so large that this rough bound becomes the best. 7 Algorithms Many applications of the calculus above can be defined, in the same spirit of use of covering numbers, to give : – confidence intervals non-parametric non-asymptotic ; – algorithms universally consistents. Furthermore, results of type boostrap on Donsker classes, show how to build asymptotic confidence intervals of inaccuracy of Bayesian networks. One can refer to (Van Der Vaart A., 1996). We state in the sections below some of the numerous corollaries one can deduce from the calculus of covering numbers above. Theses corollaries are also true with hidden variables. 7.1 Choose between several structures of Bayesian network Let’s assume that someone have to choose between several structures bn1 , . . . , bn √h . Consider the algorithm that chooses bni0 such as inf ibn∈bni0 L̂(ibn) + F (bni0 , δ)/ n ˆ ∈ bni such as ibn ˆ = argminibn∈bn L̂(ibn). So, the is minimal and chooses ibn 0 i0 algorithm chooses the structure minimising the empirical error penalised by a term depending upon the complexity of the structure. Then, it chooses the Bayesian network of this structure minimising the empirical error. 157 CAp 2005 ˆ ≤ L(ibn′ )+² for all ibn′ ∈ Corollary C1 (proof in (S. Gelly, 2005)) : Then, L(ibn) √ ∪bni , with ² = 3 sup F (bni , δ)/ n, with a risk upper bounded by hδ. (the constant 3 in ² is not optimal) This gives a natural criteria to choose between several structures, in the spirit of the method of "minimisation of structural risk", which is classical in learning theory. 7.2 Comparison between local and global fitting : consistency of the minimisation of L̂ Corollary C2 (proof in (S. Gelly, 2005)) : Consider bn a Bayesian network. Then for any distribution P , L(argminibn∈bn L̂) → inf L bn whereas for some distributions P , L(ibn /∀P (Ai |AKi ) ∈ bn, ibn(Ai , AKi )/ibn(AKi ) = P̂ (Ai AKi )/P̂ (AKi )) 6→ infbn L (i.e., calibrating each coefficient of bn on P̂ leads asymptotically to a non-optimal ibn), with ibn(B) for B a set of variable, is the probability given by the Bayesian network ibn for the variables B. 7.3 Universal consistency and bound with a finite number of variables We assume that a heuristic system is given in order to rank dependencies between variables, for the building of the structure. This method, whenever asked, provides a dependency Aj → Ai to be added to increase a dependency P (Ai |AKi ) to a dependency P (Ai |AKi ∪{j} ). This method is designed to increase step by step the complexity of the structure. Consider the following algorithm, for ²(n) a sequence converging to 0 as n → ∞ : – Consider n the number of examples and δ the risk threshold chosen by the user. – Heuristically sort the list of dependencies (possibly using a separate database). √ – As long as the next dependency added to bn does not lead to F (bn, δ)/ n > ²(n), add the dependency the most suitable according to the heuristic ; ˆ ∈ bn minimising L̂. – Choose ibn √ – Claim L(ibn) ≤ L̂(ibn) + F (bn, δ)/ n. Corollary C3 : – with confidence at least 1 − δ, the bound provided on L(ibn) is true ; ˆ converges to infibn L(ibn) (inf – in the limit of a large number of examples, L(ibn) among any ibn, independently of the structure, and not only infibn∈bn L(ibn)), at least if the heuristic, within a finite number of increases of the structure, leads to bn such that infibn∈bn L(ibn) = infibn L(ibn) (this is a small and natural hypothesis as the heuristic can simply lead to the complete graph between observable variables if the number of dependencies is sufficiently large). p The proof is a consequence of the convergence of F (bn, δ)/ (n) to 0 (as it is upper bounded by ²(n)) as n → ∞. 158 7.4 Universal consistency and confidence intervals with infinitely many variables We consider here an infinite number of states, but a finite number of examples. Variable j of example i is noted ai,j . The sequence of vectors 1 (ai,1 , . . . , ai,743 , . . . ) for i ∈ N is assumed independently identically distributed. The algorithm is as follows : 1. the user provides n, ² and δ ; an oracle provides the ai,j when they are required by the program. 2. evaluate bn maximal for the inclusion2 (chosen by any heuristic among multiple possible solutions, provided that bn increase as n increases), such that F (bn, δ) is upper-bounded by ² ; the variables modelled by bn are the observable ones among the union of the Aj and AKj such that bn is defined by the P (Aj |AKj ) ; 3. choose ibn ∈ bn minimising L̂ ; √ 4. provide to the user a bound L(ibn) ≤ L̂(ibn) + F (bn, δ)/ n ; Corollary C4 : Let’s note mod(bn) the set of events which are deterministic functions of observable variables modelled by bn. – for any E event depending upon a finite number of Aj , ibn(E) is evaluated if n is large enough and its value converges to P (E) as n → ∞, if at least the heuristic method guarantees that for a given increasing sequence of integers ki , the number of dependencies is bounded by ki as long as the ith observable variable is not added to the network (this is a natural requirement). – the bound provided on L(ibn) holds with probability at least 1 − δ. – thanks to thePBorell-Cantelli lemma (see e.g. (Vidyasagar, 1997, p26)),√one can write that if n δn is finite (for example δn = 1/n2 ) and if F (bnn , δn )/ n → 0 as n → ∞, with bnn the structure chosen for a number n of examples, then there is almost sure convergence of sup |P (E) − ibn(E)| for E ∈ mod(bn ) to√ 0 ; we must ensure δn ≤ δ to assert, moreover, that the bound L̂(ibn) + F (bn, δ)/ n holds. 7.5 Universal consistency and convergence to the right network of dependencies We propose in this section an algorithm in order to build Bayesian networks having two important properties : – it is universally consistant ; – the size of the structure converges to the optimal one. The second point is not trivial, as it is very difficult to guarantee convergence to a non-redundant structure. Precisely, we claim the Theorem 8 : universal consistency and convergence to the right structure 1 There are infinitely many vectors but these vectors are countable. say that a Bayesian network bn1 is included in a Bayesian network bn2 if any dependency in bn1 is a dependency in bn2 within a renumbering of latent variables. 2 We 159 CAp 2005 Define ibn ∈ argminS(ibn)≤n L̂(ibn) + R(ibn, n) where S is an application which associates a real number to any instantiated Bayesian network, such that ∀(ibn1 , ibn2 ) ∈ bn S(ibn1 ) = S(ibn2 ) (i.e., two Bayesian networks having the same structure have the same image through S) , and where R(ibn, n) = R′ (ibn)R(n) associates a real number to an instantiated Bayesian network ibn and to a sample size n. We note in the sequel (by abuse of notation) S −1 (n) = {ibn/S(ibn) ≤ n}. Then : 1. universal consistency : if H0, H1 and H2 hold, then L(ibn) almost surely goes to L∗ ; 2. convergence of the size of the structure : if H0, H1, H2 and H3 hold, then R′ (ibn) → R′ (ibn∗ ) where ibn∗ is such as L∗ = L(ibn∗ ). H0 : for n sufficiently large, ibn∗ ∈ S −1 (n) ; H1 : supibn∈S −1 (n) R′ (ibn)R(n) → 0 as n → ∞ ; √ H2 : F (S −1 (n), 1/n2 )/ n →√0 as n → ∞ ; H3 : F (S −1 (n), 1/n2 )/(R(n) n) → 0 as n → ∞ ; Proof : Define bn = S −1 (n) and ²(bn, n) = supibn∈S −1 (n) |L̂(ibn) − L(ibn)| . Let’s proof the universal consistency under hypothesis H0, H1, H2. L(ibn) ≤ L̂(ibn) + ²(bn, n) ≤ ≤ inf inf ibn′ ∈bn ibn′ ∈bn L̂(ibn′ ) + R(ibn′ , n) − R(ibn, n) + ²(bn, n) L(ibn′ ) + ²(bn, n) + R(ibn′ , n) − R(ibn, n) + ²(bn, n) ≤ inf ibn′ ∈bn L(ibn′ ) + R(ibn′ , n) + 2²(bn, n) Thanks to H1, we only have to prove that ²(bn, n) → 0√almost surely. By definition of F (., .), P (²(bn, n) ≥ F (bn, 1/n2 )/ n) ≤ 1/n2 . √ In particular, for any ², H2 implies that for n sufficiently large, F (bn, 1/n2 )/ n < ², 2 and so P (²(bn, n) > ²) ≤ 1/n . Thanks to the Borell-Cantelli lemma, the sum of the P (²(bn, n) > ²) being finite for any ² > 0, ²(bn, n) almost surely converges to 0. We have achieved the proof of consistency. We now start the proof of the convergence of the size of the structure. Thanks to H0, if n is sufficiently large, ibn∗ ∈ bn. We restrict our attention to such n. L̂(ibn) + R(ibn, n) ≤ L̂(ibn∗ ) + R(ibn∗ , n) R′ (ibn)R(n) ≤ R′ (ibn∗ )R(n) + L̂(ibn∗ ) − L̂(ibn) R′ (ibn)R(n) ≤ R′ (ibn∗ )R(n) + L∗ + 2²(bn, n) − L(ibn) R′ (ibn) ≤ R′ (ibn∗ ) + 2²(bn, n)/R(n) 160 It is then sufficient, using H3, to show that ²(bn, n)/R(n) → 0 almost surely. Let’s show this √ by Borell-Cantelli as well. By definition of F (., .), P (²(bn, n) ≥ F (bn, 1/n2 )/ n) ≤ 1/n2 . In particular, for √ any ², H3 implies that for n sufficiently large, F (bn, 1/n2 )/(R(n) n) < ², and so P (²(bn, n)/R(n) > ²) ≤ 1/n2 . Thanks to the Borell-Cantelli lemma, the sum of the P (²(bn, n)/R(n) > ²) being finite for any ² > 0, ²(bn, n)/R(n) almost surely converges to 0. ¥ 8 Conclusions We have evaluated the covering numbers of Bayesian networks. We have applied these results to algorithms and scores for choosing between structures. We then establish results on consistency and discovering of the real structure of data. Our results concern networks with non-observable states as well. In particular, we have : 1. proposed some criterions of quality of an instantiated Bayesian network, showing the links between these criterions and other criterions (lemma 0 and proposition B), thus generalising our results to other criterions as well ; 2. evaluated VC-dimensions and covering numbers of Bayesian networks (including networks with non-observable states) (theorem C and theorem 6) ; 3. proposed an algorithm with guaranteed universal consistency and almost sure convergence towards a structure with optimal size (including networks with nonobservable states) (theorem 8) ; 4. derived some corollaries, among which : – scores for choosing between structures (corollary C1), showing the influence of an entropy (theorem 7) ; – bounds on the precision of probability estimations (corollary C1 and C3) ; – a comparison between global optimisation of a Bayesian network and local parametrisation of a Bayesian network (corollary C2) ; – established universal consistencies for data mining in large dimension (corollary C4). Acknowledgements This work was supported in part by the PASCAL Network of Excellence. Références A.-N. KOLMOGOROV V.-M. T. (1961). ²-entropy and ²-capacity of sets in functional spaces. In Amer. Math. Soc. Transl. 17, pp 277-364. A KAIKE H. (1970). Statistical predictor identification. In Ann. Inst. Statist. Math., 22 :203-217. C. B ORGLET K. K. (2002). Graphical models - methods for data analysis and mining. In John Wiley and Sons, Chichester, UK. 161 CAp 2005 D. H ECKERMAN , D. G EIGER M. C. (1994). Learning bayesian networks : The combination of knowledge and statistical data. In Ramon Lopez de Mantaras et David Poole, editors, Proceedings of the 10th Conference on Uncertainty in Artificial Intelligence. G. C OOPER E. H. (1992). A bayesian method for the induction of probabilistic networks from data. In Machine Learning, 9 :309-347. M. A NTONY P. B. (1999). Neural network learning : Theoretical foundations. In Cambridge University Press. P. NAIM , P.-H. W UILLEMIN P. L. E . O. P. E . A. B. (2004). Réseaux bayésiens. In Eyrolles. P. W OCJAN , D. JANZING T. B. (2002). Required sample size for learning sparse bayesian networks with many variables. In LANL e-print cs.LG/0204052. P EARL J. (2000). Causality : models, reasonings and inference. In Cambridge University Press, Cambridge, England. R ISSANEN J. (1978). Modeling by shortest data description. In Modeling by shortest data description. ROBERT C. (1994). The bayesian choice : a decision theoric motivation. In Springer, New York. S. G ELLY O. T. (2005). Statistical asymptotic and non-asymptotic consistency of bayesian networks : convergence to the right structure and consistent probability estimates. In http://www.lri.fr/~teytaud/Publications/SoumissionsEtDrafts/ coltBNLong.%pdf. S CHWARTZ G. (1978). Estimating the dimension of a model. In The annals of Statistics, 6(2) :461-464. V. VAPNIK A. C. (1971). On the uniform convergence of relative frequencies of events to their probabilities. In Theory of probability and its applications, 16 :264-280. VAN D ER VAART A. W. J. (1996). Weak convergence and empirical processes. V IDYASAGAR M. (1997). A theory of learning and generalization. In Springer. 162 Apprentissage statistique et programmation génétique: la croissance du code est-elle inévitable? Sylvain Gelly1 , Olivier Teytaud1, Nicolas Bredeche1 , Marc Schoenauer1 Equipe TAO - INRIA Futurs - Laboratoire de Recherche en Informatique, Bâtiment 490, Université Paris-Sud, 91405 - Orsay Cedex - France {nom}@lri.fr Résumé : Le ”Code bloat”, l’augmentation inconsidérée de la taille du code, est un problème fondamental en programmation génétique (GP). Ce papier propose une analyse théorique du bloat dans le cadre de la régression symbolique en GP, du point de vue de la théorie statistique de l’apprentissage. Deux sortes de bloat sont distinguées, selon que le concept soit dans l’espace de recherche ou non. Des résultats importants sont prouvés à partir de résultats classiques de théorie de l’apprentissage. Précisément, la dimension VC des programmes est calculée, et des résultats classiques de théorie de l’apprentissage permettent alors de déduire des propriétés de consistance universelle. Nous montrons alors que choisir a priori une taille de programme selon le nombre d’exemples, bien que conduisant à la consistance universelle, conduit à un phénomène de bloat, alors qu’une fitness adéquatement modifiée permet de l’éviter tout en préservant la consistance universelle. 1 Introduction Code bloat (or code growth) denotes the growth of program size during the course of Genetic Programming (GP) runs. It has been identified as a key problem in GP from the very beginning (Koza, 1992), and to any variable length representations based learning algorithm (Langdon, 1998). It is today a well studied phenomenon, and empirical solutions have been proposed to effectively address the issue of code bloat (see section 2). However, very few theoretical studies have addressed the issue of bloat. The purpose of this paper is to provide some theoretical insights into the bloat phenomenon, in the context of symbolic regression by GP, from the Statistical Learning Theory viewpoint (Vapnik, 1995). Indeed, Statistical Learning Theory is a recent, yet mature, area of Machine Learning that provides efficient theoretical tools to analyze aspects of learning accuracy and algorithm complexity. Our goal is both to perform an in-depth analysis of bloat and to provide, if possible, appropriate theoretical solutions to avoid it. The paper is organized as follows : in section 2 we briefly survey some explanations for code bloat that have been proposed in the literature. Section 3 sets the scenery, and provides an informal description of our results from a GP perspective before discussing 163 CAp 2005 their interest for the GP practitioner. Section 4 gives a brief overview of the basic results of Learning Theory that will be used in Section 5 to formally prove all the advertised results. Finally, section 6 discusses the consequences of those theoretical results for GP practitioners and gives some perspectives about this work. 2 Code Bloat in GP There exists several theories that intend to explain code bloat : – the introns theory states that code bloat acts as a protective mechanism in order to avoid the destructive effects of operators once relevant solutions have been is found (Nordin & Banzhaf, 1995; McPhee & Miller, 1995; Blickle & Thiele, 1994). Introns are pieces of code that have no influence on the fitness : either sub-programs that are never executed, or sub-programs which have no effect ; – the fitness causes bloat theory relies on the assumption that there is a greater probability to find a bigger program with the same behavior (i.e. semantically equivalent) than to find a shorter one. Thus, once a good solution is found, programs naturally tends to grow because of fitness pressure (Langdon & Poli, 1997). This theory states that code bloat is operator-independent and may happen for any variable length representation-based algorithm. As a consequence, code bloat is not to be limited to population-based stochastic algorithm (such as GP), but may be extended to many algorithms using variable length representation (Langdon, 1998) ; – the removal bias theory states that removing longer sub-programs is more tacky than removing shorter ones (because of possible destructive consequence), so there is a natural bias that benefits to the preservation of longer programs (Soule, 2002). While it is now considered that each of these theories somewhat captures part of the problem (Banzhaf & Langdon, 2002), there has not been any definitive global explanation of the bloat phenomenon. At the same time, no definitive practical solution has been proposed that would avoid the drawbacks of bloat (increasing evaluation time of large trees) while maintaining the good performances of GP on difficult problems. Some common solutions rely either on specific operators (e.g. size-fair crossover (Langdon, 2000), or different Fair Mutation (Langdon et al., 1999)), on some parsimony-based penalization of the fitness (Soule & Foster, 1998) or on abrupt limitation of the program size such as the one originally used by Koza (Koza, 1992). Some other more particular solutions have been proposed but are not widely used yet (Ratle & Sebag., 2001; Silva & Almeida, 2003; Luke & Panait, 2002). 3 Context and main results In this paper, we intend to use Statistical Learning Theory to study code bloat, and to try to help designing algorithm that do not suffer from excessive code bloat, if at all possible. However, the main goal of Statistical Learning Theory is to study the convergence of learning algorithms for Machine Learning problems with respect to the number of available examples and the complexity of the hypothesis space. In the framework of this 164 Apprentissage statistique et programmation génétique work – symbolic regression using GP – such results amount to study the algorithms with respect to the number of fitness cases and the allowed size of the GP trees. 3.1 Universal Consistency In this paper, we intend to prove, under some sufficient conditions, that the solution given by GP actually converges, when the number of examples goes to infinity, toward the actual function used to generate the examples. This property is known in Statistical Learning as Universal Consistency. Note that this notion is a slightly different from that of Universal Approximation, that people usually refer to when doing symbolic regression in GP : because polynomial for instance are known to be able to approximate any continuous function, GP search using operators {+, ∗} is also assumed to be able to approximate any continuous function. However, Universal Consistency is concerned with the behavior of the algorithm when the number of examples goes to infinity : being able to find a polynomial that approximates a given function at any arbitrary precision does not imply that any interpolation polynomial built from an arbitrary set of sample points will converge to that given function when the number of points goes to infinity. But going back to bloat, and sticking to the polynomial example, it is also clear that the degree of the interpolation polynomial of a set of examples increases linearly with the number of examples. This leads us to start our bloat analysis by defining two kinds of bloat. 3.2 Structural vs. functional bloat On the one hand, we define the structural bloat as the code bloat that unavoidably takes place when at least one optimal solution (a function that exactly matches all possible examples) does not lie in the search space. In such a situation, optimal solutions of increasing accuracy will also exhibit an increasing complexity, as larger and larger code will be generated in order to better approximate the target function. The extreme case of structural bloat has also been demonstrated in (Gustafson et al., 2004). The authors use some polynomial functions of increasing difficulty, and demonstrate that a precise fit can only be obtained through an increased bloat (see also (Daida, 2001) for related issues about problem complexity in GP). On the other hand, we define the functional bloat as the bloat that takes place when programs length keeps on growing even though an optimal solution (of known complexity) does lie in the search space. In order to clarify this point, let us use a simple symbolic regression problem defined as follow : given a set S of examples, the goal is to find a function f (here, a GP-tree) that minimized the Least Square Error (or LSE). If we intend to approximate a polynomial (ex. : 14 ∗ x2 ), we may observe code bloat since it is possible to find arbitrarily long polynoms that gives the exact solution (ex. : 14 ∗ x2 + 0 ∗ x3 + ...). Most of the works cited in section 2 are in fact concerned with functional bloat which is the most simple, yet already problematic, kind of bloat. 165 CAp 2005 3.3 Overview of results In section 5, we shall investigate the Universal Consistency of Genetic Programming algorithm, and study in detail structural and functional bloat that might take place when searching program spaces using GP. A formal and detailed definition of the program space that will be assumed for GP is given in Lemma 1, section 5, and two types of results will then be derived : – Universal Consistency results, i.e. does the probability of misclassification of the solution given by GP converges to the optimal probability of misclassification when the number of examples goes to infinity ? – Bloat-related results, first regarding structural bloat, that will be proved to be incompatible with accuracy, and second with respect to functional bloat, for which the consequences of introducing various types of fitness penalization and/or bound on the complexity of the programs on the behavior of the complexity of the solution will be thoroughly studied. Let us now state precisely, yet informally, our main results : – First, as already mentioned, we will precisely define the set of programs under examination, and prove that such a search space fulfills the conditions of the standard theorems of Statistical Learning Theory listed in Section 4. – Applying those theorems will immediately lead to a first Universal Consistency result for GP, provided that some penalization for complexity is added to the fitness (Theorem 3) – The first bloat-related result, Proposition 4, unsurprisingly proves that if the optimal function does not belong to the search space, then converging to the optimal error implies that the complexity of the empirical optimal solution goes to infinity (unavoidable structural bloat). – Theorem 5 is also a negative result about bloat, as it proves that even if the optimal function belongs to the search space, minimizing the LSE alone might lead to (structural) bloat (i.e. the complexity of the empirical solutions goes to infinity with the sample size). – But the last two theorems (5’ and 6) are the best positive results one could expect considering the previous findings : it is possible to carefully adjust the parsimony pressure so as to obtain both Universal Consistency and bounds on the complexity of the empirical solution (i.e. no bloat). Note that, though all proofs in Section 5 will be stated and proved in the context of classification (i.e. find a function from Rd into {0, 1}), their generalization to regression (i.e. find a function from Rd into R) is straightforward. 3.4 Discussion First of all, it is important to note that all those results in fact study the solution given by perfectly successful GP runs on the search space at hand : given a set of examples and a fitness function based on the the Least Square Error (and possibly including some parsimony penalization), it will be assumed that GP does find one program in that search space that globally minimizes this fitness — and it is the behavior of this ideal solution when the number of examples goes to infinity that is theoretically studied. 166 Apprentissage statistique et programmation génétique Or course, we all know that GP is not such an ideal search procedure, and hence such results might look rather far away from GP practice, where the user desperately tries to find a program that gives a reasonably low empirical approximation error. Nevertheless, Universal Consistency is vital for the practitioner too : indeed, it would be totally pointless to fight to approximate an empirically optimal function without any guarantee that this empirical optimum is anywhere close to the ideal optimal solution we are in fact looking for. Furthermore, the bloat-related results give some useful hints about the type of parsimony that has a chance to efficiently fight the unwanted bloat, while maintaining the Universal Consistency property – though some actual experiments will have to be run to confirm the usefulness of those theoretical hints. 4 Elements of Learning theory In the frameworks of regression and classification, Statistical Learning Theory (Vapnik, 1995) is concerned with giving some bounds on the generalization error (i.e. the error on yet unseen data points) in terms of the actual empirical error (the LSE error above) and some fixed quantity depending only on the search space. More precisely, we will use here the notion of Vapnik-Chervonenkis dimension (in short, VCdim) of a function space, that somehow gives bounds on the variance of possible better solutions of the regression problem than the one obtained from the limited set of examples. Consider a set of s examples (xi , yi )i∈{1,...,s} . These examples are drawn from a distribution P on the couple (X, Y ). They are independent identically distributed, Y = {0, 1} (classification problem), and typically X = Rd for some dimension d. For any function f , define the loss L(f ) to be the expectation of |f (X) − Y |. Similarly, P define the empirical loss L̂(f ) as the loss observed on the examples : L̂(f ) = 1 i |f (xi ) − yi |. s Finally, define L∗ , the Bayes error, as the smallest possible generalization error for any mapping from X to {0, 1}. The following 4 theorems are well-known in the Statistical Learning community : Theorem A (Devroye et al., 1997, Th. 12.8, p206) : Consider F a family of functions from a domain X to {0, 1} and V its VC-dimension. Then, for any ǫ > 0 P ( sup |L(P ) − L̂(P )| ≥ ǫ) ≤ 4 exp(4ǫ + 4ǫ2 )s2V exp(−2sǫ2 ) P ∈F and for any δ ∈]0, 1] P ( sup |L(P ) − L̂(P )| ≥ ǫ(s, V, δ)) ≤ δ P ∈F q 2V )) where ǫ(s, V, δ) = 4−log(δ/(4s . 2s−4 Other forms of this theorem have no log(n) factor ; they are known as Alexander’s bound, but the constant is so large that this result is not better than the result above unless s is huge ((Devroye et al., 1997, p207)) : if s ≥ 64/ǫ2, 167 CAp 2005 √ P ( sup |L(P ) − L̂(P )| ≥ ǫ) ≤ 16( sǫ)4096V exp(−2sǫ2 ) P ∈F We classically derive the following result from theorem A : Theorem A’ : Consider Fs for s ≥ 0 a family of functions from a domain X to {0, 1} and Vs its VC-dimension. Then, supP ∈Fs |L(P ) − L̂(P )| → 0 as s → ∞ almost surely whenever Vs = o(s/ log(s)). Proof : We use theX classical Borell-Cantelli lemma1 , forX any ǫ ∈ [0, 1] : √ P (|L(P ) − L̂(P )| > ǫ) ≤ 16 ( sǫ)4096Vs exp(−2sǫ2 ) s≥64/ǫ2 s≥64/ǫ2 ≤ 16 X s≥64/ǫ2 √ exp(4096Vs (log( s) + log(ǫ)) − 2sǫ2 ) which is finite as soon as Vs = o(s/ log(s)). Theorem B in (Devroye et al., 1997, Th. 18.2, p290) : Let F1 , . . ., Fk . . . with finite VC-dimensions V1 , . . ., Vk , . . . Let F = ∪n Fn . Then, being given s examples, consider P̂ ∈ Fs minimizing the empirical risk L̂ among Fs . Then, if Vs = o(s/log(s)) and Vs → ∞, P (L(P̂ ) ≤ L̂(P̂ ) + ǫ(s, Vs , δ)) ≥ 1 − δ P (L(P̂ ) ≤ inf L(P ) + 2ǫ(s, Vs , δ)) ≥ 1 − δ P ∈Fs and L(P̂ ) → inf L(P ) a.s. P ∈F Note that for a well chosen family of functions (typically, programs), inf P ∈F L(P ) = L∗ for any distribution ; so, theorem B leads to universal consistency (asymptotic minimization of the error rate for any distribution), for a well-chosen family of functions. Theorem C (8.14 and 8.4 in (Antony & Bartlett, 1999)) : ′ Let H = {x 7→ h(a, x); a ∈ Rd } where h can be computed with at most t′ operations among • α 7→ exp(α) ; • +, −, ×, / ; • jumps conditioned on >, ≥, =, ≤, = ; • output 0 ; • output 1. Then : V Cdim(H) ≤ t′2 d′ (d′ + 19 log2 (9d′ )) . Furthermore, if exp(.) is used at most q ′ times, and if there are at most t′ operations executed among arithmetic operators, conditional jumps, exponentials, ′ ′ ′ ′ ′ π(H, m) ≤ 2(d (q +1))2/2 (9d′ (q ′ + 1)2t )5d (q +1) (em(2t − 2)/d′ )d ′ where π(H, m) is the mth shattering coefficient of H, and hence V Cdim(H) ≤ (d′ (q ′ + 1))2 + 11d′ (q ′ + 1)(t′ + log2 (9d′ (q ′ + 1))) 1 If P n P (Xn > ǫ) is finite for any ǫ > 0 and Xn > 0, then Xn → 0 almost surely. 168 Apprentissage statistique et programmation génétique Finally, if q = 0 then V Cdim(H) ≤ 4d′ (t′ + 2). Theorem D : structural risk minimization, (Devroye et al., 1997) p. 294 Let F1 , . . ., Fk . . . with finite VC-dimensions V1 , . . ., Vk , . . . Let F = ∪n Fn . Assume that all distribution lead to LF = L∗ where L∗ is the q optimal possible error. Then, given s examples, consider f ∈ F minimizing L̂(f ) + 32 s V (f ) log(e × s), where V (f ) is Vk with k minimal such that f ∈ Fk . Then : • if additionally one optimal function belongs to Fk , then for any s and ǫ such that Vk log(e × s) ≤ sǫ2 /512, generalization error is lower than ǫ with probability at most ∆ exp(−sǫ2P /128) + 8sVk × exp(−sǫ2 /512) where ∆ = ∞ j=1 exp(−Vj ) is assumed finite. • the generalization error, with probability 1, converges to L∗ . 5 Results This section presents in details results that have been already surveyed in Section 3. They make an intensive use of the results of Statistical Learning Theory presented in the previous section. More precisely, Lemma 1 and Lemma 1’ define precisely the space of program considered here, and carefully show that it satisfies the hypotheses of Theorems A-C of section 3. This allows us to evaluate the VC-dimension of sets of programs, stated in Theorem 2. Then, announced results are derived. Finally, next we propose a new approach combining an a priori limit on VCdimension (i.e. size limit) and a complexity penalization (i.e. parsimony pressure) and state in theorem 6 that this leads to both universal consistency and convergence to an optimal complexity of the program (i.e. no-bloat). We first recall some classical results of learning theory. Lemma 1 : Let F be the set of functions which can be computed with at most t operations among : • operations α 7→ exp(α) (at most q times) ; • operations +, −, ×, / ; • jumps conditioned on >, ≥, =, ≤, = ; and • output 0 ; • output 1 ; • labels for jumps ; • at mosts m constants ; • at most z variables by a program with at most n lines. We note log2 (x) the integer part (ceil) of log(x)/ log(2). Then F is included in H as defined in theorem C, for a given P with t′ = t + t max(3 + log2 (n) + log2 (z), 7 + 3 log2 (z)) + n(11 + max(9log2 (z), 0) + max(3log2 (z) − 3, 0)), q ′ = q, d′ = 1 + m. 169 CAp 2005 Proof : We define a program as in theorem above that can emulate any of these programs, with at most t′ = t+t max(3+log2 (n)+log2 (z), 7+3 log2 (z))+n(11+max(9log2(z), 0)+ max(3log2 (z) − 3, 0)), q ′ = q, d′ = 1 + m. The program is as follows : • label ”inputs” • initialize variable(1) at value x(1) • initialize variable(2) at value x(2) • ... • initialize variable(dim(x)) at value x(dim(x)) • label ”constants” • initialize variable(dim(x) + 1) at value a1 • initialize variable(dim(x) + 2) at value a2 • ... • initialize variable(dim(x) + m) at value am • label ”Decode the program into c” • operation decode c • label ”Line 1” • operation c(1, 1) with variables c(1, 2) and c(1, 3) and c(1, 4) • label ”Line 2” • operation c(2, 1) with variables c(2, 2) and c(2, 3) and c(2, 4) • ... • label ”Line n” • operation c(n, 1) with variables c(n, 2)and c(n, 3) and c(n, 4) • label ”output 0” • output 0 • label ”output 1” • output 1 ”operation decode c” can be developed as follow. Indeed, we need m real numbers, for parameters, and 4n integers c(., .), that we will encode as only one real number in [0, 1] as follows : 1. let y ∈ [0, 1] 2. for each i ∈ [1, . . . n] : • c(i, 1) = 0 •y =y∗2 • if (y > 1) then { c(i, 1) = 1 ; y = y − 1 } •y =y∗2 • if (y > 1) then { c(i, 1) = c(i, 1) + 2 ; y = y − 1 } •y =y∗2 • if (y > 1) then { c(i, 1) = c(i, 1) + 4 ; y = y − 1 } 3. for each j ∈ [2, 4] and i ∈ [1, . . . n] : • c(i, j) = 0 •y =y∗2 • if (y > 1) then { c(i, j) = 1 ; y = y − 1 } 170 Apprentissage statistique et programmation génétique •y =y∗2 • if (y > 1) then { c(i, j) = c(i, j) + 2 ; y = y − 1 } •y =y∗2 • if (y > 1) then { c(i, j) = c(i, j) + 4 ; y = y − 1 } • ... •y =y∗2 • if (y > 1) then { c(i, j) = c(i, j) + 2log2 (z)−1 ; y = y − 1 } The cost of this is n × (3 + max(3 × log2 (z), 0)) ”if then”, and n × (3 + max(3 × log2 (z), 0)) operators ×, and n(2 + max(3(log2 (z) − 1), 0)) operators +, and n × (3 + max(3 × log2 (z), 0)) operators −. The overall sum is bounded by n(11 + max(9 log2 (z), 0) + max(3log2 (z) − 3, 0)). Lemma 1’ : ”operation c(i, 1) with variables c(i,2) and c(i,3)” can be developed as follows : • if c(i, 1) == 0 then goto ”output1” • if c(i, 1) == 1 then goto ”output 0” • if c(i, 2) == 1 then c = variable(1) • if c(i, 2) == 2 then c = variable(2) • ... • if c(i, 2) == z then c = variable(z) • if c(i, 1) == 7 then goto ”Line c” (must be encoded by dichotomy with log2 (n) lines) • if c(i, 1) == 6 then goto ”exponential(i)” • if c(i, 3) == 1 then b = variable(1) • if c(i, 3) == 2 then b = variable(2) • ... • if c(i, 3) == z then b = variable(z) • if c(i, 1) == 2 then a = c + b • if c(i, 1) == 3 then a = c − b • if c(i, 1) == 4 then a = c × b • if c(i, 1) == 5 then a = c/b • if c(i, 4) == 1 then variable(1) = a • if c(i, 4) == 2 then variable(2) = a • ... • if c(i, 4) == z then variable(z) = a • label ”endOfInstruction(i)” For each such instruction, at the end of the program, we add three lines of the following form : • label ”exponential(i)” • a = exp(c) • goto ”endOfInstruction(i)” Each sequence of the form ”if x=... then” (p times) can be encoded by dichotomy with log2 (p) tests ”if ... then goto”. Theorem 2 : Let F be the set of programs as in lemma 1, where q ′ ≥ q, t′ ≥ t+t max(3+log2 (n)+ 171 CAp 2005 log2 (z), 7+3 log2 (z))+n(11+max(9log2 (z), 0)+max(3log2 (z)−3, 0)), d′ ≥ 1+m. V Cdim(H) ≤ t′2 d′ (d′ + 19 log2 (9d′ )) V Cdim(H) ≤ (d′ (q ′ + 1))2 + 11d′ (q ′ + 1)(t′ + log2 (9d′ (q ′ + 1))) If q = 0 (no exponential) then V Cdim(H) ≤ 4d′ (t′ + 2). Proof : Just plug Lemmas 1 and 1’ in Theorem C  Theorem 3 : Consider qf , tf , mf , nf and zf integer sequences, non-decreasing functions of f . Define Vf = V Cdim(Hf ), where Hf is the set of programs with at most tf lines executed, with zf variables, nf lines, qf exponentials, and mf constants. Then with q ′ f = qf , t′ f = tf + tf max(3 + log2 (nf ) + log2 (zf ), 7 + 3 log2 (zf )) + nf (11 + max(9log2 (zf ), 0) + max(3log2 (zf ) − 3, 0)), d′ f = 1 + mf , Vf = (d′ f (q ′ f + 1))2 + 11d′ f (q ′ f + 1)(t′ f + log2 (9d′ f (q ′ f + 1))) or, if ∀f qf = 0 then define Vf = 4d′ f (t′ f + 2). qThen, being given s examples, consider f 32 s V ∈ F minimizing L̂(f ) + (f ) log(e × s), where V (f ) is the min of all k such that f ∈ Fk . P Then, if ∆ = ∞ j=1 exp(−Vj ) is finite, – the generalization error, with probability 1, converges to L∗ . – if one optimal rule belongs to Fk , then for any s and ǫ such that Vk log(e × s) ≤ sǫ2 /512, the generalization error is lower than ǫ with P∞probability at most ∆ exp(−sǫ2 /128) + 8sVk × exp(−sǫ2 /512) where ∆ = j=1 exp(−Vj ) is assumed finite. Proof : Just plug theorem D in theorem 2.  We now prove the non-surprising fact that if it is possible to approximate the optimal function (the Bayesian classifier) without reaching it exactly, then the ”complexity” of the program runs to infinity as soon as there is convergence of the generalization error to the optimal one. Proposition 4 : Consider Ps a sequence of functions such that Ps ∈ FV (s) , with F1 ⊂ F2 ⊂ F3 ⊂ . . . , where FV is a set of functions from X to {0, 1} with VC-dimension bounded by V . Define LV = inf P ∈FV L(P ) and V (P ) = inf{V /P ∈ FV } and suppose that ∀V LV > L∗ . Then s→∞ s→∞ (L(Ps ) −→ L∗ ) =⇒ (V (Ps ) −→ ∞) Proof : Define ǫ(V ) = LV − L∗ . Assume that ∀V ǫ(V ) > 0. ǫ is necessarily non-increasing. Consider V0 a positive integer ; let us prove that if n is large enough, then V (Ps ) ≥ V0 . There exists ǫ0 such that ǫ(V0 ) > ǫ0 > 0. For s large enough, L(Ps ) ≤ L∗ + ǫ0 , hence LVs ≤ L∗ + ǫ0 , hence L∗ + ǫ(Vs ) ≤ L∗ + ǫ0 , 172 Apprentissage statistique et programmation génétique hence ǫ(Vs ) ≤ ǫ0 , hence Vs > V0 .  We now show that the usual procedure defined below, consisting in defining a maximum VC-dimension depending upon the sample size (as usually done in practice and as recommended by theorem B) and then using a moderate family of functions, leads to bloat. With the same hypotheses as in theorem B, we can state Theorem 5 (bloat theorem for empirical risk minimization with relevant VCdimension) : Let F1 , . . ., Fk . . . non-empty sets of functions with finite VC-dimensions V1 , . . ., Vk , . . . Let F = ∪n Fn . Then, given s examples, consider P̂ ∈ Fs minimizing the empirical risk L̂ in Fs . From Theorem B we already know that if Vs = o(s/log(s)) and Vs → ∞, then P (L(P̂ ) ≤ L̂(P̂ ) + ǫ(s, Vs , δ)) ≥ 1 − δ, and L(P̂ ) → inf P ∈F L(P ) a.s.. We will now state that if Vs → ∞, and noting V (f ) = min{Vk /f ∈ Fk }, then ∀V0 , P0 > 0 ∃P , distribution of probability on X and Y , such that ∃g ∈ F1 such that L(g) = L∗ and for s sufficiently large P (V (P̂ ) ≤ V0 ) ≤ P0 . Remarks : The result in particular implies that for any V0 , there is a distribution of examples such that for some g with V (g) = V1 and L(g) = L∗ , with probability 1, V (fˆ) ≥ V0 infinitely often as s increases. Proof (of the part which is not theorem B) : Consider V0 > 0 and P0 > 0. Consider α such that (eα/2α )V0 ≤ P0 /2. Consider s such that Vs ≥ αV0 . Let d = αV0 . Consider x1 , . . . , xd d points shattered by Fd ; such a family of d points exist, by definition of Fd . Define the probability measure P by the fact that X and Y and independent and P (Y = 1) = 12 and P (X = xi ) = d1 . Then, the following holds, with Q the empirical distribution (the average of Dirac masses on the xi ’s) : 1. no empty xi ’s : P (E1 ) → 0 where E1 is the fact that ∃i/Q(X = xi ) = 0, as s → ∞. 2. no equality : P (E2 ) → 0 where E2 is the fact that E1 occurs or ∃i/Q(Y = 1|X = xi ) = 12 . 3. the best function is not in FV0 : P (E3 |E2 does not hold) ≤ S(d, d/α)/2d 173 CAp 2005 where E3 is the fact that ∃g ∈ Fd/α=V0 /L̂(g) = infFd L̂, with S(d, d/α) the relevant shattering coefficient, i.e. the cardinal of Fd/α restricted to {x1 , . . . , xd }. We now only have to use classical results. It is well known in VC-theory that S(a, b) ≤ (ea/b)b (see for example (Devroye et al., 1997, chap.13)), hence S(d, d/α) ≤ (ed/(d/α))d/α and P (E3 |E2 does not hold) ≤ (eα)d/α /2d ≤ P0 /2 and if n is sufficiently large to ensure that P (E2 ) ≤ P0 /2 (we have proved above that P (E2 ) → 0 as s → ∞) then P (E3 ) ≤ P (E3 |¬E2 ) × P (¬E2 ) + P (E2 ) ≤ P (E3 |¬E2 ) + P (E2 ) ≤ P0 /2 + P0 /2 ≤ P0  We now show that, on the other hand, it is possible to optimize a compromise between optimality and complexity in an explicit manner (e.g., replacing 1 % precision with 10 lines of programs or 10 minutes of CPU) : Theorem 5’ (bloat-control theorem for regularized empirical risk minimization with relevant VC-dimension) : Let F1 , . . ., Fk . . . be non-empty sets of functions with finite VC-dimensions V1 , . . ., Vk , . . . Let F = ∪n Fn . Consider W a user-defined complexity penalization term. Then, being given s examples, consider P ∈ Fs minimizing the regularized empirical risk ˆ ) = L̂(P ) + W (P ) among F . If V = o(s/log(s)) and V → ∞, then L̃(P̂ ) → L̃(P s s s inf P ∈F L̃(P ) a.s. where L̃(P ) = L(P ) + W (P ). Proof : ˜ supP ∈Fs |L̂(P ) − L̃(P )| ≤ supP ∈Fs |L̂(P ) − L(P )| ≤ ǫ(s, Vs ) → 0 almost surely, by theorem A’ Hence the expected result.  Theorem 5’ shows that, using a relevant a priori bound on the complexity of the program and adding a user-defined complexity penalization to the fitness, can lead to convergence toward a user-defined compromise between classification rate and program complexity (i.e. we ensure almost sure convergence to a compromise of the form ”λ1 CPU time + λ2 misclassification rate + λ3 number of lines”, where the λi are userdefined. Remark : the drawback of this approach is that we have lost universal consistency and consistency (in the general case, the misclassification rate in generalization will not converge to the Bayes error, and whenever an optimal program exists, we will not necessarily converge to its efficiency). We now turn our attention to a more complicated case where we want to ensure universal consistency, but we want to avoid a non-necessary bloat ; e.g., we require that if an optimal program exists in our family of functions, then we want to converge to its error rate, without increasing the complexity of the program. We are now going to consider a merge between regularization and bounding of the VC-dimension ; we penalize the complexity (e.g., length) of programs by a penalty term R(s, P ) = R(s)R′ (P ) depending upon the sample size and upon the program ; R(., .) 174 Apprentissage statistique et programmation génétique is user-defined and the algorithm will look for a classifier with a small value of both R′ and L. We study both the universal consistency of this algorithm (i.e. L → L∗ ) and the no-bloat theorem (i.e. R′ → R′ (P ∗ ) when P ∗ exists). Theorem 6 : Let F1 , . . ., Fk . . . with finite VC-dimensions V1 , . . ., Vk , . . . Let F = ∪n Fn . Define V (P ) = Vk with k = inf{t|P ∈ Ft }. Define LV = infP ∈FV L(P ). Consider Vs = ˆ ) = L̂(P ) + R(s, P ) in F and o(log(s)) and V → ∞. Consider P̂ minimizing L̃(P s s assume that R(s, .) ≥ 0. Then (consistency), whenever supP ∈FVs R(s, P ) = o(1), L(P̂ ) → inf P ∈F L(P ) almost surely (note that for well chosen family of functions, inf P ∈F L(P ) = L∗ ) Assume that ∃P ∗ ∈ FV ∗ L(P ∗ ) = L∗ . Then with R(s, P ) = R(s)R′ (P ) and with ′ R (s) = supP ∈FVs R′ (P ) : 1. non-asymptotic no-bloat theorem : R′ (P̂ ) ≤ R′ (P ∗ ) + (1/R(s))2ǫ(s, Vs , δ) with probability at least 1 − δ (this result is in particular interesting for ǫ(s, Vs , δ)/R(s) → 0, what is possible for usual regularization terms as in theorem D, 2. almost-sure no-bloat theorem : if R(s)s(1−α)/2 = O(1), then almost surely R′ (P̂ ) → R′ (P ∗ ) and if R′ (P ) has discrete values (such as the number of instructions in P or many complexity measures for programs) then for s sufficiently large, R′ (P̂ ) = R′ (P ∗ ). 3. convergence rate : with probability at least 1 − δ, L(P̂ ) ≤ infP ∈FVs L(P ) + where ǫ(s, V, δ) = q +2ǫ(s, Vs , δ) R(s)R′ (s) | {z } =o(1) by hypothesis 4−log(δ/(4s2V )) 2s−4 is an upper bound on ǫ(s, V ) = supf ∈FV |L̂(f )−L(f )| (given by theorem A), true with probability at least 1−δ. Remarks : The usual R(s, P ) as used in theorem D or theorem 3 provides consistency and non-asymptotic no-bloat. A stronger regularization leads to the same results, plus almost sure no-bloat. The asymptotic convergence rate depends upon the regularization. The result is not limited to genetic programming and could be used in other areas. As shown in proposition 4, the no-bloat results require the fact that ∃V ∗ ∃P ∗ ∈ FV ∗ L(P ∗ ) = L∗ . Interestingly, the convergence rate is reduced when the regularization is increased in order to get the almost sure no-bloat theorem. Proof : Define ǫ(s, V ) = supf ∈FV |L̂(f ) − L(f )|. Let us prove the consistency : For any P , L̂(P̂ ) + R(s, P̂ ) ≤ L̂(P ) + R(s, P ) 175 CAp 2005 On the other hand, L(P̂ ) ≤ L̂(P̂ ) + ǫ(s, Vs ) So : L(P̂ ) ≤ (infP ∈FVs (L̂(P ) + R(s, P ))) − R(s, P̂ ) + ǫ(s, Vs ) ≤ (infP ∈FVs (L(P ) + ǫ(s, Vs ) + R(s, P ))) − R(s, P̂ ) + ǫ(s, Vs ) ≤ (infP ∈FVs (L(P ) + R(s, P ))) + 2ǫ(s, Vs ) as ǫ(s, Vs ) → 0 almost surely2 and (infP ∈FVs (L(P ) + R(s, P ))) → inf P ∈F L(P ), we conclude that L(P̂ ) → inf P ∈F L(P ) a.s. We now focus on the proof of the ”no bloat” result : By definition of the algorithm, for s sufficiently large to ensure P ∗ ∈ FVs , L̂(P̂ ) + R(s, P̂ ) ≤ L̂(P ∗ ) + R(s, P ∗ ) hence with probability at least 1 − δ, R′ (P̂ ) ≤ R′ (P ∗ ) + (1/R(s))(L∗ + ǫ(s, Vs , δ) − L(P̂ ) + ǫ(s, Vs , δ)) hence R′ (P̂ ) ≤ R′ (V ∗ ) + (1/R(s))(L∗ − L(P̂ ) + 2ǫ(s, Vs , δ)) As L∗ ≤ L(P̂ ), this leads to the non-asymptotic version of the no-bloat theorem. The almost sure no-bloat theorem is derived as follows. R′ (P̂ ) ≤ R′ (P ∗ ) + 1/R(s)(L∗ + ǫ(s, Vs ) − L(P̂ ) + ǫ(s, Vs )) hence R′ (P̂ ) ≤ R′ (P ∗ ) + 1/R(s)(L∗ − L(P̂ ) + 2ǫ(s, Vs )) R′ (P̂ ) ≤ R′ (P ∗ ) + 1/R(s)2ǫ(s, Vs ) All we need is the fact that ǫ(s, Vs )/R(s) → 0 a.s. For any ǫ > 0, we consider the probability of ǫ(s, Vs )/R(s) > ǫ, and we sum over s > 0. By the Borel-Cantelli lemma, the finiteness of this sum is sufficient for the almost sure convergence to 0. The probability of ǫ(s, Vs )/R(s) > ǫ is the probability of ǫ(s, Vs ) > ǫR(s). By theorem A, this is bounded above by O(exp(2Vs log(s) − 2sǫ2 R(s)2 )). This has finite sum for R(s) = Ω(s−(1−α)/2 ). Let us now consider the convergence rate. Consider s sufficiently large to ensure LVs = L∗ . As shown above during the proof of the consistency, L(P̂ ) ≤ (infP ∈FVs (L(P ) + R(s, P ))) + 2ǫ(s, Vs ) ≤ (infP ∈FVs (L(P ) + R(s)R′ (P ))) + 2ǫ(s, Vs ) ≤ infP ∈FVs L(P ) + R(s)R′ (s) + 2ǫ(s, Vs ) so with probability at least 1 − δ, ≤ infP ∈FVs L(P ) + R(s)R′ (s) + 2ǫ(s, Vs , δ) 2 See theorem A’ 176  Apprentissage statistique et programmation génétique 6 conclusion In this paper, we have proposed a theoretical study of an important issue in Genetic Programming known as code bloat. We have shown that GP trees used in symbolic regression (involving the four arithmetic operations, the exponential function, and ephemeral constants, as well as test and jump instructions) could be applied some classical results from Statistical Learning Theory. This has lead to two kinds of original outcomes : some results about Universal Consistency of GP, i.e. some guarantee that if GP converges to some (empirical) function, this function will be close from the optimal one if sufficiently enough examples are used ; and results about the bloat, both the unavoidable structural bloat in case the target ideal function is not included in the search space, and the functional bloat, for which we proved that it can – theoretically – be avoided by simultaneously bounding the length of the programs with some ad hoc bound) and using some parsimony pressure in the fitness function. Some negative results have been obtained, too, such as the fact though structural bloat was know to be unavoidable, functional bloat might indeed happen even when the target function does lie in the search space, but no parsimony pressure is used. Interestingly enough, all those results (both positive and negative) about bloat are also valid in different contexts, such as for instance that of Neural Networks (the number of neurons replaces the complexity of GP programs). Moreover, results presented here are not limited to the scope of regression problems, but may be applied to variable length representation algorithms in different contexts such as control or identification tasks. Further research will first be concerned with experimental validations of those theoretical results, emphasizing their usefulness for practitioners (see the discussion Section 3.4). However, we are aware that the balance between both parsimony factors (the bound on the complexity of the search space, and the penalization factor in the fitness) might be tricky to tune, and the solution might prove to be highly problem-dependent. Another extension of those results concerns noisy and dynamic fitness-es since most of them could probably be easily generalized to ǫ-convergence instead of actual convergence. Finally, going back to the debate about the causes of bloat in practice, it is clear that our results can only partly explain the actual cause of bloat in a real GP run – and tends to give arguments to the “fitness causes bloat” explanation (Langdon & Poli, 1997). It might be possible to study the impact of size-preserving mechanisms (e.g. specific variation operators, like size-fair crossover (Langdon, 2000) or fair mutations (Langdon et al., 1999)) as somehow contributing to the regularization term in our final result ensuring both Universal Consistency and no-bloat. Acknowledgements This work was supported in part by the PASCAL Network of Excellence. Références A NTONY M. & BARTLETT P. (1999). Neural network learning : Theoretical foundations, 177 CAp 2005 cambridge university press. BANZHAF W. & L ANGDON W. B. (2002). Some considerations on the reason for bloat. Genetic Programming and Evolvable Machines, 3(1), 81–91. B LICKLE T. & T HIELE L. (1994). Genetic programming and redundancy. In J. H OPF, Ed., Genetic Algorithms Workshop at KI-94, p. 33–38 : Max-Planck-Institut für Informatik. DAIDA J. M. (2001). What makes a problem gp-hard ? analysis of a tunably difficult problem in genetic programming. Genetic Programming and Evolvable Machines, 2(2), 165 – 191. D EVROYE L., G Y ÖRFI L. & L UGOSI G. (1997). A probabilistic theory of pattern recognition, springer. G USTAFSON S., E KART A., B URKE E. & K ENDALL G. (2004). Problem difficulty and code growth in Genetic Programming. GP and Evolvable Machines, 4(3), 271–290. KOZA J. R. (1992). Genetic Programming : On the Programming of Computers by Means of Natural Selection. Cambridge, MA, USA : MIT Press. L ANGDON W. B. (1998). The evolution of size in variable length representations. In ICEC’98, p. 633–638 : IEEE Press. L ANGDON W. B. (2000). Size fair and homologous tree genetic programming crossovers. Genetic Programming And Evolvable Machines, 1(1/2), 95–119. L ANGDON W. B. & P OLI R. (1997). Fitness causes bloat : Mutation. In J. KOZA, Ed., Late Breaking Papers at GP’97, p. 132–140 : Stanford Bookstore. L ANGDON W. B., S OULE T., P OLI R. & F OSTER J. A. (1999). The evolution of size and shape. In L. S PECTOR , W. B. L ANGDON , U.-M. O’R EILLY & P. A NGELINE , Eds., Advances in Genetic Programming III, p. 163–190 : MIT Press. L UKE S. & PANAIT L. (2002). Lexicographic parsimony pressure. In W. B. L. ET AL ., Ed., GECCO 2002 : Proceedings of the Genetic and Evolutionary Computation Conference, p. 829– 836 : Morgan Kaufmann Publishers. M C P HEE N. F. & M ILLER J. D. (1995). Accurate replication in genetic programming. In L. E SHELMAN, Ed., Genetic Algorithms : Proceedings of the Sixth International Conference (ICGA95), p. 303–309, Pittsburgh, PA, USA : Morgan Kaufmann. N ORDIN P. & BANZHAF W. (1995). Complexity compression and evolution. In L. E SHELMAN, Ed., Genetic Algorithms : Proceedings of the Sixth International Conference (ICGA95), p. 310– 317, Pittsburgh, PA, USA : Morgan Kaufmann. R ATLE A. & S EBAG . M. (2001). Avoiding the bloat with probabilistic grammar-guided genetic programming. In P. C. ET AL ., Ed., Artificial Evolution VI : Springer Verlag. S ILVA S. & A LMEIDA J. (2003). Dynamic maximum tree depth : A simple technique for avoiding bloat in tree-based gp. In E. C.-P. ET AL ., Ed., Genetic and Evolutionary Computation – GECCO-2003, volume 2724 of LNCS, p. 1776–1787 : Springer-Verlag. S OULE T. (2002). Exons and code growth in genetic programming. In J. A. F. EuroGP 2002, volume 2278 of LNCS, p. 142–151 : Springer-Verlag. ET AL ., Ed., S OULE T. & F OSTER J. A. (1998). Effects of code growth and parsimony pressure on populations in genetic programming. Evolutionary Computation, 6(4), 293–309. VAPNIK V. (1995). The nature of statistical learning theory, springer. 178 Introduction à l’extraction de l’information à partir des flux de données Toufik Boudellal, David William Pearson Equipe Universitaire de Recherche en Informatique de St-Etienne, Faculté des Sciences et Techniques, Département Informatique 23, Rue Paul Michelon, 42023, St-Etienne, Cedex 2 toufik.boudellal@univ-st-etienne.fr david.peasron@univ-st-etienne.fr Le présent travail concerne l’extraction de l’information à partir des flux de données (EIFD) ’Mining Data Streams’. En effet,l’EIFD est un nouveau domaine principalement lié aux besoins réels d’applications qui analysent prestement et de manière continue ces flux de données (fd(s)). Les sources de ces données peuvent être par exemple des capteurs industriels qui génèrent périodiquement des observations (données sismiques, données atmosphériques, . . . etc.). Les travaux actuels s’intéressent à : La description continue d’un certain ensemble de flux de sortie (fs) en fonction d’un certain ensemble de flux d’entrée (fe), identifier les données expirées, . . . etc (Wang et al., 2003; Fan et al., 2004; Aggarwal et al., 2004). Les principales difficultés dans ce domaine sont l’aspect infini des données, la multiplicité des flux et les types des données des flux. Nous contribuons dans ce domaine en introduisant des mesures de similarités adaptées au cas multi flux de données pour la description continue de données symboliques. Ces mesures ne supposent pas un domaine de définition initialement connu ni un précodage de ces données, possèdent un pouvoir d’extraction d’informations comparatif aux mesures existantes et sont réduites en complexité de calculs. Le paragraphe suivant présente un scénario possible. Un nouveau paquet de données arrive au système, ce paquet de données est considéré comme le contexte informatif courant et constitué de l’ensemble des observations des flux d’entrée et de sortie. Un deuxième paquet arrive au système sous forme d’une requête, constitué uniquement des observations liées aux flux d’entrée. Les deux paquets forment la fenêtre d’informations. L’objectif principal est l’extraction des différentes similarités pour pouvoir prédire approximativement les observations liées aux flux de sortie. Les mesures de similarités qui existent actuellement se basent sur la théorie des statistiques ou la théorie de l’information. L’article (Tan et al., 2004) propose une synthèse des différentes mesures, ces mesures présentent une grande corrélation entre elles. A titre comparatif, nous avons choisi les mesures de similarités de base et les plus pertinentes. La mesure de Pearson (P) considérée comme la base de plusieurs variantes, elle permet la construction des tables de contingences entre les différents flux pour découvrir des règles d’associations (Tan et al., 2004). La mesure de Smyth et Goodman (S-G) (Tan et al., 2004) est une entropie relative qui permet d’évaluer les différentes règles 179 CAp 2005 d’association. Nous proposons trois mesures de similarités (mesures de Boudellal-Pearson). Si on considère un seul flux de sortie alors la similarité sur la capacité de décision (DCP) exprime l’information qui lie les sous ensembles de symboles du flux de sortie par rapport aux flux d’entrée, sachant l’ordre des données sur la fenêtre d’information courante. La similarité sur l’incertitude de décision (DIS) mesure la contiguïté des symboles du flux de sortie, cette contiguïté est relative à chaque flux d’entrée. La similarité sur l’aptitude de décision (DAP) permet de mesurer le lien de chaque symbole du flux d’entrée aux symboles du même flux et au flux de sortie. La considération de la complexité de calcul des différentes mesures est d’une importance principale. La mesure de Smyth-Goodman et la corrélation de Pearson se basent sur la jonction des différents flux d’entrée, ensuite une jonction avec le flux de sortie. Contrairement à nos mesures qui se basent sur un critère additif entre les différents flux d’entrée. Pour comparer les différentes mesures, on a injecté les jeux des données standards (UCI) 1 dans un module aléatoire. Ce module permet de choisir aléatoirement des exemples pour former un paquet de données pour une taille donnée. Nous avons essayé l’expérience sur plusieurs tailles (10–100). Les jeux de données utilisés sont les suivants :"Tic-Tac-Toe", "Connect", "Champignons", "Cancer de seins". Le plan d’expériences utilisé cherche à présenter le pouvoir d’extraction d’informations des mesures suivant la taille de la fenêtre. Nous avons choisi pour les premières expériences deux flux d’entrée et un flux de sortie (vue la complexité de calcul des deux mesures (S-G),(P)). Ensuite, nous avons choisi d’autres expériences pour une comparaison locale à nos mesures. Le tableau suivant résume le classement (⋆ ⋆ ⋆ :meilleur) des différentes mesures . Pour conclure, On a proposé de nouvelles mesures dans le domaine EIFD, qui présentent un avantage considérable au niveau de la complexité de calcul et le pouvoir d’extraction. Notre perspective est le traitement des flux bruités. S-G P DCP DIS DAP 1-2 ⋆⋆ ⋆ ⋆⋆⋆ ⋆⋆ ⋆⋆⋆ TicTacToe 3-4 5-6 ⋆⋆ ⋆⋆⋆ ⋆⋆⋆ ⋆ ⋆⋆⋆ ⋆⋆⋆ ⋆⋆⋆ ⋆⋆ ⋆⋆⋆ ⋆⋆ 7-8 ⋆⋆ ⋆ ⋆⋆⋆ ⋆⋆⋆ ⋆⋆ Connect 1-2 3-4 ⋆⋆ ⋆⋆ ⋆ ⋆ ⋆⋆⋆ ⋆⋆ ⋆⋆ ⋆⋆⋆ ⋆⋆ ⋆⋆ Champignon tous −− −− ⋆⋆⋆ ⋆⋆ ⋆⋆⋆ Cancer tous −− −− ⋆⋆⋆ ⋆⋆⋆ ⋆⋆⋆ Références AGGARWAL C. C., H AN J., WANG J. & Y U P. S. (2004). On demand classification of data streams. In KDD ’04, p. 503–508. FAN W., AN H UANG Y., WANG H. & Y U P. S. (2004). Active mining of data streams. In SDM, p. 457–461. TAN P.-N., K UMAR V. & S RIVASTAVA J. (2004). Selecting the right objective measure for association analysis. Information Systems, 29(4), 293–313. WANG H., FAN W., Y U P. S. & H AN J. (2003). Mining concept-drifting data streams using ensemble classifiers. In KDD ’03, p. 226–235. 1 UCI : ’Knowledge Discovery in Databases’, http ://kdd.ics.uci.edu 180 Apprentissage non supervisé de motifs temporels, multidimensionnels et hétérogènes Application à la télésurveillance médicale Florence Duchêne1 , Catherine Garbay1 et Vincent Rialle1,2 2 1 Laboratoire TIMC-IMAG, Faculté de médecine de Grenoble, France Département d’Informatique Médicale de l’hôpital Michallon, Grenoble, France Florence.Duchene@sophia.inria.fr, Catherine.Garbay@imag.fr, Vincent.Rialle@imag.fr Résumé : On propose une méthode générique d’extraction non supervisée de motifs temporels dans des séries multidimensionnelles et hétérogènes, appliquée à l’apprentissage des comportements récurrents d’une personne à domicile. Mots-clés : Fouille de séries temporelles, multidimensionnelles et hétérogènes, Motifs temporels, Apprentissage non supervisé, Télésurveillance médicale. Pour la détection des évolutions critiques à long terme de personnes à domicile, on propose un système d’apprentissage d’un profil comportemental dans la vie quotidienne. Un écart de comportement par rapport à ce profil peut être inquiétant car significatif d’une dégradation de l’état de santé. Il s’agit d’extraire des motifs “haut niveau” de séquences “bas niveau” collectées de capteurs installés au domicile. Un motif est le représentant d’une classe de sous-séquences récurrentes, et correspond à un comportement type de la personne. Ce problème d’apprentissage a les caractéristiques suivantes : 1. Séquences analysées – Les séquences analysées sont multidimensionnelles, hétérogènes, et mixtes : elles contiennent à la fois des sous-séquences représentatives de motifs et des “non motifs”. 2. Méthode utilisée – L’extraction de motifs est non supervisée pour s’adapter aux spécificités individuelles et au manque de connaissances a priori. 3. Séquences temporelles – Les séquences analysées sont multidimensionnelles, hétérogènes, et mixtes – i.e. contenant à la fois des motifs et des “non motifs”. 4. Motifs extraits – On recherche des motifs multidimensionnels afin d’éviter une sur-simplification du système observé, et la non détection de certaines évolutions critiques. Les instances d’un motif ont les caractéristiques suivantes : – Variabilité dans les valeurs, due à celle des comportements humains. – Présence d’interruptions dans la réalisation d’une activité (toilettes, etc.). – Déformations et translation dans le temps, car une même activité se répète à des instants et sur des durées variables. 181 CAp 2005 F IG . 1 – Méthode d’identification non supervisée de motifs temporels. Les signaux représentés illustrent sur une dimension le type des données disponibles après chaque étape. Une originalité de ce travail est la considération de séquences multidimensionnelles et hétérogènes, dans l’objectif d’extraction de motifs multidimensionnels. Il est en particulier nécessaire de définir une mesure de similarité adaptée à la comparaison de séquences de ce type. La mesure proposée est basée sur la plus longue sous-séquence commune – Longest Common Subsequence (LCSS) (Duchêne et al., 2004). La première étape de la méthode proposée (voir figure 1) consiste en l’abstraction des données brutes issues des capteurs, pour leur donner un sens au regard de l’objectif de l’analyse. Il s’agit de mettre en évidence les tendances à plus ou moins long terme, en résumant les situations “stationnaires” observées. Une séquence est ainsi représentée par une succession de symboles estampillés. La fouille de données comprend d’abord une étape de fouille de caractères, basée sur la méthode des projections aléatoires (Buhler & Tompa, 2002; Chiu et al., 2003), pour l’identification des sous-séquences récurrentes. Les sous-séquences significatives sont sélectionnées selon deux critères maximum de distance et minimum de collisions. Une méthode de synthèse basée sur une classification divisive des sous-séquences récurrentes permet ensuite de générer un ensemble de sous-séquences disjointes – les tentatives de motifs. Leur classification ascendante hiérarchique en motifs est enfin réalisée sur la base d’une mesure de distance. L’approche proposée est expérimentée dans le cadre de la télésurveillance médicale à domicile, à partir des déplacements, postures, niveau d’activité, fréquence cardiaque moyenne d’une personne. De manière générale, on constate de bonnes performances des étapes d’extraction et de classification des motifs. À partir de séquences simulées pour une personne dans des conditions habituelles de vie, on vérifie qu’il est possible d’extraire des sous-séquences représentatives de comportements qu’on sait interpréter a posteriori en terme de la réalisation de certaines activités de la vie quotidienne. Références B UHLER J. & T OMPA M. (2002). Finding motifs using random projections. Journal of Computational Biology, 9(2), 225–242. C HIU B., K EOGH E. & L ONARDI S. (2003). Probabilistic discovery of time series motifs. In Proceedings of the 9th ACM International Conference on Knowledge Discovery and Data Mining (KDD’03), Washington DC., USA, p. 493–498. D UCH ÊNE F., G ARBAY C. & R IALLE V. (2004). Similarity measure for heterogeneous multivariate time-series. In Proceedings of the 12th European Signal Processing Conference (EUSIPCO), Vienna, Austria. 182 Taylor-based pseudo-metrics for random process fitting in dynamic programming : expected loss minimization and risk management Sylvain Gelly1 , Jérémie Mary1 , Olivier Teytaud12 1 TAO-inria TAO, LRI, UMR 8623, CNRS - Univ. Paris-Sud, bat 490, F-91405 Orsay 2 Artelys 215 rue J.J. Rousseau, F-92136 Issy-Les-Moulineux Abstract : L’optimisation stochastique est la recherche de x optimisant l’espérance EC(x, A), où A est une variable aléatoire. Typiquement C(x, a) est le coût associé à une stratégie x qui fait face à une réalisation a du processus aléatoire. De nombreux problèmes d’optimisation stochastique traitent de plusieurs pas de temps, et conduisent à des temps de calcul importants ; des solutions efficaces existent, par exemple via le principe de décomposition de Bellman, mais seulement si le processus stochastique est représenté de manière bien structuré, typiquement par un modèle de Markov ou un arbre de scénarios. Le problème est que dans le cas général, A est loin d’être markovien ou bien structuré. Aussi, on cherche A′ , "ressemblant à A", mais appartenant à une famille donnée A′ qui ne contient pas A. Le problème est alors la quantification du fait que A′ ressemble à A, i.e. la définition d’une mesure de similarité pertinente entre A et A′ . Une solution classique est l’utilisation de la distance de Kantorovitch-Rubinstein (Gröwe-Kuska et al, 2003), justifiée par des bornes sur la différence |EC(x, A)− EC(x, A′ )| via la distance de Kantorovitch-Rubinstein et des conditions de Lipschitz. Nous proposons d’autres (pseudo-)distances, basées sur des inégalités affinées, garantissant un bon choix de A′ . De plus, comme dans beaucoup de cas on préfère en fait l’optimisation avec gestion du risque, i.e. l’optimisation de E C(x, bruit(A)) où bruit(.) est un bruit alèatoire modélisant notre ignorance sur la variable aléatoire réelle, nous proposons une distance telle que A′ optimisant la distance entre A′ et A conduise à de bons coûts, en moyenne, pour bruit(A). Des tests sont menés sur des données artificielles aux fonctions de coût réalistes pour montrer la pertinence de la méthode. L’article complet est disponible à http://www.lri.fr/~teytaud/ alea_english.pdf. The stochastic optimization considered below typically consists in : i) choose A′ 183 CAp 2005 compatible with your optimizer close to A for your preferred distance; ii) optimize C(s, A′ ) ; iii) verify that C(s, A) is not too large. Instead of the Kantorovitch-Rubinstein distance between a random variable A and a random variable π(A), we define 1 distance2 = EA (|∇A C(s0 , A)(π(A) − A)| + (π(A) − A)t HA C(s0 , A)(π(A) − A)) 2 which is dependent upon s0 , that we assume to be a strategy not too far from the optimal. We show under mild hypotheses that choosing π minimizing this distance is better than minimizing the Kantorovitch-Rubinstein distance. In particular, figure 1 shows a much smaller resulting cost for the 50 random processes A′ which are the closest to A for our distance (among 200 random processes), than for the 50 random processes A′ which are the closest to A for the Kantorovitch-Rubinstein distance. This shows that E C(arg min E C(., A′ ), A) is better with A′ = arg min distance2(A′ , A) than with A′ = arg min dk(A′ , A) where dk is the Kantorovitch-Rubinstein distance. 7.35 distance2’ distance2 kantorovitch 7.34 7.33 Cost 7.32 7.31 7.3 7.29 7.28 0 10 30 20 40 50 Distance (order) Figure 1: Results in dimension 2. We see that the Kantorovitch-Rubinstein distance is not correlated to the cost, whereas the distance(2) leads to good results. Hence, choosing a random process A′ "close" to A in the Kantorovitch-Rubinstein distance leads to have a very bad estimation of the best cost, and leads to get an apparently-optimal solution (when looking at the cost for A′ ) very far from the real optimum. An adaptation to the case with risk has also been performed. Acknowledgements This work was supported in part by the Pascal Network of Excellence. References N. Gröwe-Kuska, H. Heitsch, W. Römisch, Scenario Reduction and Scenario Tree Construction for Power Management Problems, IEEE Bologna Power Tech Proceedings (A. Borghetti, C.A. Nucci, M. Paolone eds.), 2003. 184 Acquisition de contraintes ouvertes par apprentissage de solveurs Andreı̈ Legtchenko, Arnaud Lallouet Université d’Orléans — LIFO Laboratoire d’Informatique Fondamentale d’Orléans BP 6759 — F-45067 Orléans cedex 2 prenom.nom@lifo.univ-orleans.fr Résumé : Nous présentons une technique d’apprentissage d’un objet très particulier qui est un solveur de contraintes. Étant donné un sous-ensemble de solutions et un autre sous-ensemble de non-solutions pour une contrainte, nous cherchons une représentation de la contrainte entière sous la forme d’un solveur. Un solveur permet de distinguer les solutions des non-solutions, et ainsi il effectue la tache de classification. Mais il permet également réduire le domaine des variables lors du processus de résolution. Les résultats de tests démontrent la qualité de classification obtenue par l’apprentissage de solveurs, mais aussi l’efficacité de la réduction de domaines. Mots-clés : Contraintes ouvertes ; Apprentissage de solveurs ; Algorithmes de classification. 1 Introduction La programmation par contraintes est un outil très puissant de modélisation et de résolution de problèmes. Dans ce paradigme, un problème est représenté par un certain nombre de variables, avec leurs domaines (les valeurs possibles) et un ensemble de contraintes sur ces variables. Un exemple classique bien connu de problème avec contraintes (Constraint Satisfaction Problem, CSP) est un système d’équations mathématiques, par exemple X 3 + cos(Y + Z) = Z 2 ∧ X + Y + Z = 0. Une solution du problème est une affectation de toutes les variables qui satisfait toutes les contraintes. Dans le domaine de la Programmation par Contraintes, il existe deux principales difficultés. La première concerne la modélisation par contraintes du problème à résoudre. L’utilisateur doit composer le CSP en utilisant une bibliothèque de contraintes disponibles (par exemple, des contraintes arithmétiques). Cette tâche peut s’avérer assez complexe, car la bibliothèque des contraintes disponibles peut être insuffisante pour un problème particulier. La deuxième difficulté consiste à résoudre efficacement le CSP formé, c’est-à-dire à trouver une (les) affectation(s) de variables satisfaisant à toutes les contraintes. Évidemment, la résolution d’un problème avec contraintes peut en théorie être faite par un algorithme général de recherche, qui parcourrait l’arbre des affecta- 185 CAp 2005 tions possibles. Mais en pratique cette méthode est inutilisable vu la taille de l’espace de recherche. Ainsi, plusieurs techniques plus ou moins générales ont été développées afin de rendre la recherche de solutions la plus rapide possible. Notre travail étend les possibilités de modélisation par contraintes tout en permettant une résolution efficace. L’idée de départ était de proposer une méthode qui permet à l’utilisateur de définir ses propres contraintes en donnant des exemples de solutions et de non-solutions. En effet, dans plusieurs problèmes réels interviennent les contraintes spécifiques dont l’expression formelle n’est pas connue. Ces contraintes expriment des préférences (”être une bonne configuration”), des concepts (”être un arbre”) ou encore les habitudes. On dispose généralement d’un certain nombre d’observations étiquetées (”solution” ou ”non-solution”) et on doit produire une représentation de toute la contrainte (qui sépare l’espace total des n-uplets en deux parties). On appelle une contrainte ouverte l’ensemble des exemples connus. On ”devine” la contrainte à partir des exemples. On appelle ce processus l’acquisition ou la fermeture de contrainte ouverte. Mais il ne suffit pas d’avoir une représentation quelconque de la contrainte, même si elle est juste (au sens qu’elle représente bien le concept). Une fois la contrainte obtenue, elle sera mise dans un CSP à résoudre, avec un certain nombre d’autres contraintes. Selon la technique de résolution utilisée, la représentation des contraintes joue plus ou moins sur la rapidité du processus de résolution. Ainsi on cherche une représentation qui : – corresponde bien à la contrainte, c’est-à-dire permet de distinguer avec le minimum d’erreurs les solutions des non-solutions, – facilite le processus de résolution, dans le cadre de la technique de résolution choisie à l’avance. En clair, il ne suffit pas de classer bien les n-uplets, il faut aussi participer de façon la plus efficace possible à la résolution. Cette dernière condition fait de l’acquisition d’une contrainte à partir des exemples un problème plus complexe que l’apprentissage de classificateurs. Un arbre de décision peut classer correctement les n-uplets (en solutions ou en non-solutions), mais comment intégrer efficacement cet arbre dans la résolution de CSP, par exemple, par la réduction de domaines ? A notre connaissance, il n’y a pas de réponse à cette question. Au lieu d’essayer d’adapter un classificateur connu à la résolution efficace, nous proposons le schéma inverse : partir d’une représentation particulièrement intéressante pour la résolution et arriver à proposer une technique d’apprentissage pour cette représentation. La suite de l’article se compose comme suit. Dans la section 2, on donne un certain nombre de définitions importantes (contrainte, consistance, résolution par réduction de domaines, opérateurs de réduction, etc). On donne également une représentation générale pour les contraintes sous la forme d’un ensemble d’opérateurs de réduction de domaines (qui jouent un rôle actif pendant la résolution). Dans la section 3, on présente la méthode d’apprentissage des opérateurs de réduction à partir des exemples. Cette méthode permet d’acquérir la contrainte à partir des exemples sous la forme d’un ensemble de classificateurs particuliers. On compare la qualité de classification de notre système avec l’algorithme C5.0 et C5.0 avec boosting sur quelques jeux de données réels. Dans la section 4 nous montrons comment la représentation de la section précédente est transformée en un ensemble d’opérateurs de réduction pour la contrainte apprise. Nous présentons aussi les performances des 186 Apprentissage de solveurs opérateurs de réduction obtenus pour quelques cas réels. Enfin, l’article se termine par une discussion et une conclusion. 2 Préliminaires : Contraintes et Résolution Dans cette partie on donne les définitions relatives aux contraintes et à la résolution des CSP utiles à la compréhension du cadre général. Soit V un ensemble de variables et D = (DX )X∈V leurs domaines finis. On note Π le produit cartésien des ensembles. Pour un sous-ensemble W ⊆ V , on note DW l’ensemble de n-uplets sur W , c’est-àdire l’ensemble ΠX∈W DX . La projection d’un n-uplet ou d’un ensemble de n-uplets sur une variable ou un ensemble de variables est notée |, la jointure de deux ensembles de n-uplets est notée ⊲⊳. Si A est un ensemble, alors P(A) désigne l’ensemble des parties de A et |A| son cardinal. Définition 1 (Contrainte) Une contrainte c est un couple (W, T ) où : – W ⊆ V est l’arité1 de la contrainte c ; – T ⊆ DW est l’ensemble de solutions de c. La jointure de deux contraintes est définie comme une extension naturelle de la jointure des n-uplets : si c = (W, T ) et c′ = (W ′ , T ′ ), alors c ⊲⊳ c′ = (W ∪ W ′ , T ⊲⊳ T ′ ). La ′ table T ⊲⊳ T ′ contient tous les n-uplets t ∈ DW ∪W tels que t|W ∈ T (la projection sur les variables de W est un n-uplet de T ) et t|W ′ ∈ T ′ (la projection sur les variables de W ′ est un n-uplet de T ′ ). Un CSP est un ensemble fini de contraintes. La jointure est naturellement étendue aux CSPs et les solutions d’un CSP C = {c1 , .., cn } sont c1 ⊲⊳ ... ⊲⊳ cn . Le calcul direct de cette jointure est trop complexe pour être faisable en pratique. D’où l’intérêt particulier des cadres d’approximation. Le cadre qui a le plus de succès est celui de réduction de domaines. Ainsi pour un ensemble W ⊆ V un état de recherche est un ensemble des valeurs encore possibles pour chaque variable : SW = (sX )X∈W tel que sX ⊆ DX . L’espace de recherche est SW = ΠX∈W P(DX ). L’ensemble SW ordonné par l’inclusion point à point est un treillis complet. De même, l’inclusion et l’intersection des états de recherche sont définies aussi point à point. L’espace de recherche entier SV est noté simplement S. Des états de recherche particuliers, appelés singletoniques jouent un rôle important dans notre cadre. Un état de recherche singletonique ne contient qu’une seule valeur pour chaque variable, et ainsi représente un n-uplet. Un n-uplet est transformé en un état singletonique par l’opérateur ⌈ ⌉ : pour t ∈ DW , on a ⌈t⌉ = ({tX })X∈W ∈ SW . Inversement, un état de recherche singletonique est transformé en un ensemble de n-uplets en prenant le produit cartésien Π : pour s ∈ SW , Πs = ΠX∈W sX ⊆ DW . On note SingW l’ensemble ⌈DW ⌉ des états de recherche singletoniques. Par définition, ⌈DW ⌉ ⊆ SW . 1 Dans notre formalisme ensembliste, arité a un sens plus précis que le simple nombre de variables et contient l’information de typage. 187 CAp 2005 La résolution du CSP est faite par un enchaı̂nement d’étapes de propagation et d’étapes de recherche (figure 1). Une étape de propagation consiste à faire une itération chaotique des opérateurs de réduction de domaines jusqu’à un point fixe (Apt, 1999). Un opérateur de réduction est une fonction de f : SW → SW croissante (pour l’inclusion) et contractante (∀s ∈ SW , f (s) ⊆ s). Malheureusement, la réduction de domaines ne permet pas toujours de trouver directement une affectation de variables (les domaines ne deviennent pas toujours singletoniques). Pour remédier à ce problème, cette étape de propagation (qui n’a pas abouti à une affectation) est suivie par une étape de recherche (appelée labeling) qui, pour une variable du CSP, choisit et affecte une valeur parmi les valeurs encore possibles pour cette variable. Ensuite on recommence la réduction de domaines par propagation et ainsi de suite jusqu’à trouver une solution ou jusqu’à arriver à un domaine vide (absence de solutions). Si un choix pendant une étape de recherche conduit à l’échec (absence de solutions), une autre valeur pour la même variable sera essayée. F IG . 1 – Résolution d’un CSP Ainsi, la résolution d’un CSP est le parcours de l’arbre des affectations possibles, mais l’arbre est dynamiquement élagué par la réduction de domaines. Notons que ce schéma de résolution n’est pas le seul dans le domaine de la résolution des CSP (Tsang, 1993). Néanmoins, la résolution par itération des opérateurs de réduction de domaines et labeling a déjà fait ses preuves et elle est très largement répandue. Les opérateurs de réduction sont généralement associés aux contraintes elle-mêmes. Chaque contrainte de la bibliothèque possède son propre opérateur de réduction. Cet opérateur est une représentation ”active” de la contrainte. On appelle un tel opérateur une consistance : Définition 2 (Consistance) Un opérateur f : SW → SW est une consistance pour une contrainte c = (W, T ) si : – f est croissante : ∀s, s′ ∈ SW , s ⊆ s′ ⇒ f (s) ⊆ f (s′ ). – f est contractante : ∀s ∈ SW , f (s) ⊆ s. – f est correcte : ∀s ∈ SW , Πs ∩ T ⊆ Πf (s) ∩ T . – f est associée à la contrainte c : F ix(f )∩SingW = ⌈T ⌉ où F ix(f ) est l’ensemble des points fixes de f . 188 Apprentissage de solveurs La correction veut dire qu’une consistance ne réduit jamais les domaines de telle sorte qu’une solution de la contrainte serait rejetée. La dernière propriété de la définition est très importante : une consistance est une représentation fonctionnelle de la contrainte, car les seuls n-uplets acceptés par l’opérateur sont exactement les solutions de la contrainte. La représentation de la contrainte par son opérateur de consistance est une représentation idéale dans le cadre de résolution de CSPs par la réduction de domaines et la recherche. On appelle solveur l’opérateur de consistance pour une contrainte, car la combinaison de l’opérateur avec un algorithme de parcours d’arbre donne un solveur pour la contrainte. L’arc-consistance est la consistance probablement la plus connue et l’une des plus utilisées. Bien qu’elle soit définie comme une propriété, il est possible de la calculer avec un opérateur. L’arc-consistance est définie par ∀s ∈ SW , acc (s) = s′ avec ∀X ∈ W , s′X = (Πs ∩ T )|X . En clair, on supprime des domaines les valeurs avec lesquelles on ne peut pas former de solutions de c. Pour cela, on réduit chaque domaine avec les projections de la contrainte sur la variable en question. L’arc consistance est la consistance la plus contractante qui peut exister pour une contrainte c indépendamment du contexte, c’est-à-dire sans considérer plusieurs contraintes à la fois (d’après la définition de ac). Supposons maintenant que chaque domaine DX est équipé d’un ordre total ≤. On appelle l’intervalle [a..b] l’ensemble {e ∈ DX |a ≤ e ≤ b}. QOn appelle IntX le treillis d’intervalles construit sur DX . On note aussi IntW = X∈W IntX . Pour tout A ⊆ DX on note [A] l’intervalle [min(A)..max(A)]. Alors on définit la consistance de bornes par : ∀s ∈ SW , bcc (s) = s′ avec ∀X ∈ W , s′X = sX ∩ [(Πs ∩ T )|X ]. La consistance de bornes supprime les valeurs en faisant bouger les bornes des intervalles. En général, c’est une consistance plus faible que l’arc-consistance (moins contractante) mais au même temps plus rapide à calculer. La rapidité de calcul et la possibilité de traitement de très grands domaines (pour approximer le continu) rend la consistance de bornes largement utilisée elle-aussi. On peut ordonner les consistances selon leur pouvoir de réduction : f1 ⊆ f2 ⇔ ∀s ∈ SW , f1 (s) ⊆ f2 (s). Alors on a ac ⊆ bc. Soit c = (W, T ) une contrainte. Soit un opérateur de consistance op pour c. Soit s ∈ SW un état de calcul (les valeurs encore possibles pour les variables de W ). L’application de l’opérateur op à s a pour l’effet la suppression (éventuelle) de certaines valeurs dans s. Il est possible de modéliser l’action de op sur s par le test de la présence des valeurs dans les domaines des variables. Soit une variable X ∈ W et une valeur a ∈ DX . On appelle Fonction de Réduction Élémentaire (FRE) la fonction fX=a :SW −{X} → B qui renvoie true si la valeur a doit rester dans le domaine DX , et false si elle doit être supprimée. L’action de l’opérateur op sur un état de calcul s ∈ SW est obtenu par la suppression dans tous les domaines courants sX des valeurs a pour lesquelles leur fonction respective fX=a répond false. L’avantage de représenter un opérateur de consistance avec les FREs réside dans la simplicité des objets en présence. Un opérateur op est une fonction qui prend en paramètre un produit cartésien d’ensembles pour retourner un autre objet de même type. Une Fonction de Réduction Élémentaire est une fonction qui, certes, prend en paramètre toujours un produit cartésien d’ensembles, mais reP tourne un booléen. Nous avons donc X∈W |DX | fonctions et chacune est plus simple qu’un opérateur de réduction. Le type d’une FRE rend sa construction automatique plus simple que la construction automatique d’un opérateur de réduction. 189 CAp 2005 Dans la section suivante, on introduit le concept de contrainte ouverte, ainsi qu’une méthode d’acquisition inspirée par la forme et le sens des fonctions de réduction élémentaires. 3 Contraintes ouvertes : acquisition La modélisation par contraintes des problèmes réels peut être considérablement enrichie par la possibilité donnée à l’utilisateur de définir ses propres contraintes. Nous nous intéressons au cas où l’utilisateur fournit un certain nombre d’exemples de solutions et de non-solutions pour la contrainte, et la totalité de la contrainte est obtenue par apprentissage. On appelle la contrainte ouverte la partie connue de la contrainte : Définition 3 (Contrainte Ouverte) Une contrainte ouverte est un triplet (W, T + , T − ) où – T + ⊆ DW et T − ⊆ DW – T + 6= ∅ et T − 6= ∅ – T+ ∩ T− = ∅ Une contrainte ouverte est difficilement utilisable dans un CSP classique, car on est incapable de faire le test de satisfiabilité (décider si le n-uplet est une solution ou pas) pour les n-uplets non étiquetés. Nous devons d’abord ”fermer” la contrainte ouverte, c’est-à-dire pouvoir étiqueter l’ensemble de n-uplets de DW et ainsi définir une contrainte ”classique”. Nous appelons cette phase de ”fermeture” la phase d’acquisition de la contrainte. Quels sont les cas pratiques où on a besoin d’acquérir une contrainte à partir d’une contrainte ouverte ? Nous pouvons aujourd’hui suggérer deux grandes familles : – Les contraintes ”être un bon plan” ou ”être n états consécutifs d’un système dynamique”, où chaque variable Xi représente l’action à effectuer au pas numéro i. Les applications de ce type de contraintes sont la robotique (Lallouet et al., 2004), programmation de processus industriels, les traitements médicaux, les plans d’investissement, un agenda coopératif qui essaie de modéliser les emplois de temps des autres personnes. – Les contraintes de type ”être un bon objet”, ”être une configuration préférée” ou ”être un exemple du concept”, où chaque variable représente un degré de liberté de configuration et les valeurs des variables représentent les choix possibles (ex : variable ”processeur” et les types de processeurs possibles comme valeurs ; variable ”couleur de sièges” et les couleurs disponibles comme valeurs). Voici un exemple d’utilisation de contrainte ouverte : Exemple 4 (Salades) On suppose qu’une société possède une cantine qui sert un grand nombre de repas par jour. Dans chaque plateau servi, il y a une salade. Le problème que le chef doit traiter, c’est quelle recette choisir et combien de portions préparer de chaque recette. Les contraintes sont : le nombre de repas à servir, la quantité des ingrédients disponibles, le coût des salades à minimiser etc. Les variables correspondent aux différents ingrédients, 190 Apprentissage de solveurs et les valeurs - les quantités à utiliser. Le chef dispose d’une base de recettes qui, dans cette modélisation, correspond à la contrainte ”être une bonne salade”. Nous proposons, en ajoutant un certain nombre de ”mauvaises recettes”, considérer l’ensemble de nuplets obtenus comme une contrainte ouverte. La fermeture de cette contrainte ouverte permettra d’étendre la base de recettes, mais il est souhaitable que la performance de résolution ne soit pas compromise. Voici la description détaillée de cette contrainte ouverte ”salades” (que nous avons constituée avec un expert en la matière) : il y a 22 ingrédients, comme les tomates, la mayonnaise, le thon en conserve, l’huile d’olive ou encore la laitue. P Le domaine de chaque variable est entre 2 ou 4 valeurs. Il y a 64 valeurs en tout ( 22 i=1 |Di |). L’ensemble des solutions connues comporte 53 recettes ; l’ensemble des non-solutions connues (qui sont des recettes pas bonnes ou qui ne sont pas du tout des recettes) comporte 281 exemples. Nous proposons une méthode d’acquisition qui est basée sur les puissantes techniques d’apprentissage connues pour obtenir un bon résultat. En même temps, la représentation obtenue est facilement et automatiquement transformable en un opérateur de consistance pour la contrainte fermée (c’est-à-dire celle obtenue par apprentissage à partir de la contrainte ouverte). P Soit (W, T + , T − ) une contrainte ouverte. Nous allons apprendre X∈W |DX | classificateurs à deux classes spécifiques, c’est-à-dire autant qu’il y a de FREs pour représenter l’opérateur de consistance pour une Qcontrainte sur les variables de W . Soit X ∈ W et a ∈ DX . Le classificateur nX=a : W −{X} DX → B prend en paramètres les variables instanciées de W , autres que X et retourne true si la valeur a est possible pour la variable X, et false si la valeur a est impossible. En fait, un classificateur nX=a est la version singletonique (qui fonctionne seulement sur les variables instanciées) de la fonction de réduction élémentaire fX=a . C’est la particularité de notre méthode, que d’utiliser les classificateurs inspirés par les fonctions de réduction élémentaires pour apprendre un concept. Dans la section suivante on verra que la transformation du classificateur nX=a en FRE fX=a est formelle et ne fait pas d’appel aux techniques d’apprentissage. L’ensemble d’exemples et de contre-exemples pour le classificateur nX=a est obtenu par la sélection des n-uplets t tels que tX = a suivie de la projection sur W − {X}. Les n-uplets de T + (les exemples de solutions) dont la projection sur X est a nous donnent les exemples pour nX=a : + Ex+ X=a = {t|W −{X} |t ∈ T , t|X = a}. De même, les n-uplets de T − dont la projection sur X est a donnent les contre-exemples pour nX=a : − Ex− X=a = {t|W −{X} |t ∈ T , t|X = a}. Nous avons réalisé le système Solar qui effectue l’apprentissage de classificateurs nX=a pour une contrainte ouverte donnée par l’utilisateur. Pour représenter les classificateurs nous avons choisi les perceptrons avec une couche cachée (voir (Mitchell, 1997) pour plus de références). Le choix a été suggéré, d’une part, par la puissance de cette technique, et par la facilité de transformation en FRE d’un perceptron multi-couches, d’autre part. L’architecture du réseau utilisé est tout à fait classique (figure 2). La fonction d’activation est la fonction sigmoı̈de. Chaque neurone de la couche cachée est 191 CAp 2005 F IG . 2 – Architecture du réseau de neurones utilisé connecté à chacun des neurones d’entrée. De même, le neurone de sortie est connecté à tous les neurones de la couche cachée. La sortie des neurones est dans l’intervalle ]0, 1[. En supposant les domaines de variables totalement ordonnés, on fait correspondre à chaque valeur un entier naturel : par exemple, à chaque ai ∈ DX on associe i. On effectue ensuite une conversion vers l’intervalle [0, 1]. Le neurone d’entrée correspondant à X reçoit la quantité i/|DX | quand la variable X reçoit ai . Après le neurone de sortie, il y a une unité de décision : si la valeur de sortie de ce neurone est supérieure ou égal à 0.5, la réponse du classificateur est true, et false sinon. Le nombre de neurones dans la couche cachée est le même pour tous les classificateurs, pour une contrainte ouverte donnée. Ceci n’est pas obligatoire et d’ailleurs ce nombre est un paramètre de la méthode. Nous l’avons fixé pour nos exemples entre 3 et 5. L’apprentissage des poids est fait par l’algorithme de rétropropagation du gradient. L’apprentissage de chaque classificateur est arrêté quand l’ensemble des exemples est bien classé, ou après un délai raisonnable. Une fois les classificateurs appris, on les combine pour obtenir un classificateur global de n-uplets qui effectue le test de satisfiabilité (détermine si un n-uplet est une solution ou non). Soit un n-uplet t ∈ DW . Soit X ∈ W . Nous supposons que t|X = a. Nous allons exécuter le classificateur nX=a sur t|W −{X} . Si la valeur retournée est false, cela veut dire que selon le classificateur nX=a la valeur t|X = a est impossible vu les affectations des autres variables. Nous allons exécuter tous les classificateurs nX=a tels que X ∈ W et t|X = a. Le classificateur associé à une valeur du n-uplet t vérifie la légitimité de la présence de cette valeur dans le n-uplet. Il y a en tout |W | classificateurs qui sont sollicités pour tester un n-uplet. Les |W | réponses sont combinées pour donner un avis sur le n-uplet selon deux méthodes : – la méthode ”vote majoritaire” : si le nombre de valeurs légitimes dépasse la moitié des votants, le n-uplet est déclaré comme une solution, sinon c’est une nonsolution ; – la méthode ”vote avec veto” : un n-uplet est considéré comme une solution seulement si toutes les valeurs sont légitimes, et comme une non-solution si au moins une valeur n’est pas légitime. La deuxième méthode est issue du monde des contraintes, où un état de calcul s ∈ SW est rejeté si au moins un domaine de variables est vide. Comme les classificateurs nX=a sont les versions singletoniques des fonctions de réduction élémentaires, la méthode de 192 Apprentissage de solveurs vote avec veto est seulement la traduction du comportement des FREs sur un état de calcul singletonique, quand il y a une seule valeur dans chaque domaine). Nous avons testé la qualité de notre méthode d’acquisition comme une méthode de classification à 2 classes. Nous avons pris 4 jeux de données différents : la base ”recettes de salades” de l’exemple 4 et trois bases trouvées dans UCI Machine Learning Repository2. Pour avoir une idée de la performance relative de notre technique nous avons testé sur les mêmes bases l’algorithme d’apprentissage d’arbres de décision C5.0 (qui est une version améliorée du très populaire C4.5 (Quinlan, 1993)) et C5.0 avec boosting (RuleQuest Research, 2004) avec |W | votants pour contrebalancer le nombre de nos classificateurs. Notons au passage que notre méthode de construction de classificateurs est différente de celle du boosting (Freund & Shapire, 1999) par la façon de construire les ensembles d’exemples pour les classificateurs. Nous avons utilisé la validation croisée classique avec 10 blocs. Le jeu de données est divisé de manière aléatoire en 10 blocs de même taille. Un bloc est utilisé pour la validation, et les autres pour l’apprentissage. Après avoir fait 10 tests, à chaque fois avec un bloc de validation différent, on calcule la moyenne. Cinq sessions différentes de validation croisée ont été effectuées pour augmenter la fiabilité de résultats (il y a donc 50 tests au total). Les résultats des tests ainsi que la description des bases sont regroupés dans le tableau 1. Dans ce tableau, ”Solar veto” et ”Solar maj” signifient les performances de notre système avec les différentes modes de vote. Le nombre optimal de neurones dans les couches cachées a été à chaque fois déterminé empiriquement. Le temps d’apprentissage est le temps nécessaire pour apprendre tous les classificateurs. Le temps d’apprentissage pour le système C5.0 avec ou sans boosting est moins d’une seconde. Mais le temps d’apprentissage n’a absolument aucune importance dans l’application aux contraintes, car le gain apporté par l’utilisation des propagateurs obtenus compense très largement les minutes nécessaires pour apprendre les classificateurs élémentaires. Ainsi, la comparaison de notre technique avec les algorithmes connus, comme les arbres de décision, sert seulement à signaler la qualité d’acquisition de concepts, sans se mettre en compétition avec les autres technique d’apprentissage, car les techniques d’apprentissage connues ne fournissent pas de solveur pour le concept appris. Comme on le constate, la qualité de classification défie celle des algorithmes réputés comme très efficaces. On constate que la méthode de vote avec veto est visiblement moins performante que la méthode avec vote majoritaire. Mais il faut comprendre que lors de la classification par le vote avec veto, l’erreur est principalement faite (en proportion écrasante) sur la classe ”solution”. En fait, cette méthode accepte seulement les n-uplets qui sont des solutions ”irréprochables”. Ainsi cette méthode tend à ”purifier” la classe de solutions, ce qui peut même être recherché par l’utilisateur (dans les cas où il vaut mieux avoir une solution sûre quitte à en avoir moins au total). Par exemple, dans le cas de la base ”salades”, on passe par apprentissage de 53 recettes à 7.4E4 recettes (le nombre de n-uplets acceptés unanimement). Probablement, la vraie classe ”bonne salade” est encore plus grande, mais 7.4E4 recettes sont déjà largement suffisantes. En plus, les 7.4E4 recettes sont des recettes ”sûres” car acceptées unanimement (un expert confirme qu’il y a moins de 3% de mauvaises recettes dans un échantillon de 100 recettes prélevées aux hasard dans les 7.4E4 solutions). 2 http ://www.ics.uci.edu/˜mlearn 193 CAp 2005 Database Arité Taille de domaines #Classificateurs #examples #neurones dans CC Temps d’app. Erreur Solar veto Erreur Solar maj Erreur C5.0 Erreur C5.0 boost salades 22 2-4 64 334 3 55′′ 11.9% 3.6% 9.9% 4.8% mushroom 22 2-12 116 8124 3 2′ 30′′ 6.9% 0.7% 0.8% 0.2% br-cancer 9 10 90 699 5 8′ 30′′ 4.6% 3.5% 5.5% 3.7% votes-84 16 3 48 435 5 4′ 30′′ 25.9% 3.8% 3.7% 4.4% TAB . 1 – Tests de classification. Nous pensons que notre technique d’acquisition de contraintes est intéressante, vue les résultats de tests, même dans son application immédiate à la classification, sans parler de la possibilité d’obtenir un solveur pour la contrainte apprise par la transformation des classificateurs. Nous allons voir dans la partie suivante la méthode de transformation et les propriétés du solveur obtenu. 4 Contraintes ouvertes : obtenir les opérateurs La méthode que nous avons proposé pour l’acquisition de contraintes, telle qu’elle a été exposée, est une méthode de classification de n-uplets en deux classes. Même si les classificateurs nX=a sont inspirés par les fonctions de réduction élémentaires, ils ne peuvent pas être directement utilisés pour la réduction de domaines au cours de la résolution. Les classificateurs nX=a représentent la contrainte au sens qu’ils distinguent les solutions de non-solutions à partir des variables instanciées. Soit X ∈ W une vaQ riable et a ∈ DX une valeur. Le classificateur nX=a : ( W −{X} DX ) → B prend en paramètres les variables de W − {X} instanciées pour renvoyer la décision. Comment à partir de ce classificateur définir une fonction de réduction élémentaire fX=a qui prendrait en paramètre des domaines, c’est-à-dire des variables non complètement instanciées ? Supposons que la contrainte est apprise sous la forme d’un ensemble de classificateurs nX=a , pour tout X ∈ W et tout a ∈ DX . Soit s ∈ SW un état de calcul. La valeur a peut être supprimée du domaine DX si et seulement si ∀t ∈ s|W −{X} on a nX=a (t) = false. Dit autrement, la valeur a est supprimée du sX si et seulement si pour tout n-uplet t de l’état de calcul courant s tel que t|X = a le classificateur nX=a trouve la valeur X = a impossible (on pourrait dire illégitime ou encore inconsistante). 1 Voici la définition de la fonction de réduction élémentaire fX=a à partir du classificateur nX=a , qui est une FRE possible construite à partir du nX=a : Définition 5 (FRE via classificateur (I)) 194 Apprentissage de solveurs Q Un classificateur nX=a : W −{X} DX → B est transformé en fonction de réduction 1 :SW −{X} → B par : élémentaire fX=a 1 ∀s ∈ SW −{X} , fX=a (s) = _ nX=a (t). t∈Πs Cette façon de définir les FREs n’a rien d’un hasard : l’opérateur modélisé par ces FREs est l’opérateur de consistance pour la contrainte définie par les classificateurs votant avec veto. Proposition 6 (Consistance via classificateurs (I)) Soit une contrainte ouverte (W, T +P , T − ). On suppose que la contrainte a été fermée par l’acquisition sous la forme de X∈W |DX | classificateurs. On suppose que les classificateurs votent avec le droit de veto pour définir l’ensemble de solutions (seuls les n-uplets acceptés unanimement sont considérés comme solutions). On note c = (W, T ) la contrainte obtenue. Alors l’opérateur représenté par les FREs de la définition 5 est un opérateur de consistance pour la contrainte c = (W, T ). Preuve On rappelle l’utilisation des FREs pour représenter un opérateur de réduction : étant donné un état de calcul s ∈ SW , toutes les FREs concernées (c’est-à-dire les 1 1 fX=a telles que a ∈ sX ) sont exécutées, et dans les cas où fX=a (s|W −{X} ) = false la valeur a est supprimée du domaine courant sX . Les nouveaux domaines ainsi formés donnent le nouvel état de calcul s′ . On appelle op1 :SW → SW l’opérateur ainsi défini. On suppose que la contrainte ouverte (W, T + , T − ) a été fermée (généralisée) pour donner la contrainte c = (W, T ) par l’apprentissage des classificateurs nX=a , pour tout X ∈ W et tout a ∈ DX . On suppose que les classificateurs votent avec le droit de veto pour définir l’ensemble de solutions T . Montrons d’abord que op1 est une consistance pour la contrainte c = (W, T ). • Croissance : D’après la définition 5, les fonctions FREs sont croissantes. L’opérateur op1 est donc lui aussi croissant. • Contractance : L’opérateur op1 est contractant car les FREs ne font que supprimer les valeurs (sans jamais en rajouter). • Correction : Soit s ∈ SW . On suppose que Πs∩T 6= ∅. Soit t ∈ Πs∩T . On a donc t ∈ T . Cela veut dire que tous les classificateurs sont d’accord sur ce n-uplet (tous retournent true). Alors par la définition 5 toutes les FREs retournent true sur ⌈t⌉ : l’état singletonique est stable par toutes les FREs. Comme de plus l’opérateur op1 est croissant, pour tout s ∈ SW tel que ⌈t⌉ ⊆ s on a ⌈t⌉ ⊆ op1 (s). Par conséquent, ∀s ∈ SW , Πs ∩ T ⊆ Πop1 (s) ∩ T : les solutions ne sont jamais rejetées par op1 . • Association à la contrainte : Soit s ∈ F ix(op) ∩ SingW un état de calcul singletonique (une seule valeur dans chaque domaine) stable par l’opérateur op1 (op1 (s) = s). D’après la définition de l’opérateur op1 , l’état s est stable parce que toutes les FREs l’acceptent. Mais d’après la définition 5 un état singletonique sera stable seulement si tous les classificateurs acceptent le n-uplet Πs. Or, c’est la définition d’un n-uplet solution. Donc Πs ∈ T . Soit t ∈ T un n-uplet. Par correction, l’état ⌈t⌉ est stable par op1 , et donc ⌈t⌉ ⊆ F ix(op1 ) ∩ SingW . Il en résulte que ⌈t⌉ ⊆ F ix(op1 )= ⌈T ⌉ : l’opérateur op1 représente exactement la contrainte c. 195 CAp 2005 L’opérateur op1 est donc une consistance pour la contrainte c. A cause du fait que l’opérateur de l’arc-consistance ac est une consistance pour c, et qu’en plus il est le plus contractant, on a F ix(ac) ⊆ F ix(op1 ) : ac ⊆ op1 .  La définition 5 de la fonction de réduction élémentaire propose une méthode de calcul de cette fonction, à partir du classificateur correspondant. Malheureusement, cette méthode n’est pas utilisable en pratique car elle demande la génération et le parcours de tous les n-uplets de Πs, pour un s ∈ SW −{X} donné. Par exemple, 10 domaines de 10 valeurs chacun représentent 1010 n-uplets. Quand on sait que l’opérateur est exécuté plusieurs fois (même plusieurs milliers de fois) pendant la résolution, on comprend que cette façon de calculer est inacceptable en pratique. Nous proposons d’utiliser les techniques issues de l’Analyse des Intervalles (Moore, 1966) pour résoudre ce problème. Et plus précisément, nous allons utiliser l’Arithmétique des Intervalles pour construire les extensions naturelles aux intervalles des classificateurs. Rappelons brièvement le principe de l’arithmétique des intervalles de réels. Au lieu de travailler avec les variables réelles, on fait du calcul avec les variables intervalles. Les objets manipulés sont les intervalles fermés de réels. On note IR = {[a, b]|a, b ∈ R, a ≤ b} l’ensemble des intervalles fermés de réels. Quelques opérations élémentaires sur les intervalles [a, b], [c, d] ∈ IR dont définies dans la table 2. Ce sont les extensions canoniques aux intervalles des opérations sur les nombres réels. Soit une fonction f :R → R dont l’expression syntaxique est un arbre composé exclusivement des opérations +, −, ∗ etc. Alors l’extension naturelle aux intervalles de f est la fonction F :IR → IR qui est obtenue à partir de l’expression de la fonction f en remplaçant chaque variable réelle par une variable intervalle et chaque opérateur par son extension aux intervalles (exemple 7). [a, b] + [c, d] [a, b] − [c, d] [a, b] ∗ [c, d] = = = exp([a, b]) = [a + c, b + d] [a − c, b − d] [min(P )), max(P )] avec P = {ac, ad, bc, bd} [exp(a), exp(b)] TAB . 2 – Opérations sur les intervalles. Exemple 7 Soit f : R → R, f (x) = x ∗ (exp(x) + 1) a pour extension naturelle aux intervalles la fonction : F : IR → IR , définie par F (X) = X ∗ (exp(X) + [1, 1]) où X est une variable intervalle. L’extension naturelle aux intervalles est une fonction croissante (A ⊆ B ⇒ F (A) ⊆ F (B)). D’après le ”Théorème Fondamental de l’Analyse des Intervalles” (Moore, 1966) on a la propriété suivante : Proposition 8 (Correction de l’extension naturelle) Soit une fonction f : R → R et F : IR → IR son extension naturelle aux intervalles. 196 Apprentissage de solveurs Alors on a ∀I ∈ IR , ∀x ∈ I , f (x) ∈ F (I). Cette propriété traduit la correction au sens des contraintes : si x était dans l’intervalle I, alors l’image de x par f se retrouve dans l’image de l’intervalle I par F . Le même principe d’extension et la proposition sont valables pour les fonctions du type Rn → R. Soit un classificateur nX=a . Comme nous l’avons présenté, c’est un perceptron à 3 couches avec une unité de décision à seuil à la sortie. Ce perceptron est une fonction de type R|W |−1 → R dont l’expression est formée à partir des opérations de base +, ∗, −, / et exp. Pour tout X ∈ W et tout a ∈ DX on définit la fonction NX=a : R|W |−1 → R comme étant l’extension naturelle aux intervalles du perceptron nX=a . La fonction NX=a prend en paramètres les domaines des variables de W − {X} sous la forme d’intervalles, et elle retourne l’intervalle image des domaines par le classificateur nX=a . Comme l’unité de décision à la sortie du perceptron nX=a a un seuil de 0.5, nous utilisons le même seuil pour l’extension NX=a : si la borne de l’intervalle de sortie est supérieure ou égal à 0.5, la valeur est gardé dans le domaine, sinon elle est supprimée. La fonction NX=a munie de l’unité de décision à la sortie (avec le seuil 0.5) est une FRE : Définition 9 (FRE via classificateur (II)) Q Un classificateur perceptron nX=a : W −{X} DX → B est transformé en fonction de 2 :SW −{X} → B en composant l’extension NX=a avec une réduction élémentaire fX=a unité de décision :  true, max(NX=a ([s])) ≥ 0.5 2 ∀s ∈ SW −{X} , fX=a (s) = false, sinon. avec ∀s ∈ SW , [s] = ([sX ])X∈W . 2 L’opérateur représenté par les FREs du type fX=a est un opérateur de consistance pour la contrainte apprise : Proposition 10 (Consistance via classificateurs (II)) Soit une contrainte ouverte (W, T +P , T − ). On suppose que la contrainte a été fermée par l’acquisition sous la forme de X∈W |DX | classificateurs. On suppose que les classificateurs votent avec le droit de veto pour définir l’ensemble de solutions (seuls les n-uplets acceptés unanimement sont considérés comme solutions). On note c = (W, T ) la contrainte obtenue. Alors l’opérateur représenté par les FREs de la définition 9 est un opérateur de consistance pour la contrainte c = (W, T ). On appelle op2 cet opérateur. Preuve La même preuve que pour la proposition 6. La monotonie et la correction des 2 fX=a résulte des propriétés de l’extension naturelle aux intervalles.  Le calcul de cet opérateur est par contre très rapide, car l’exécution de chaque fonc2 tion de réduction élémentaire fX=a est du même ordre que l’évaluation d’un perceptron simple nX=a . C’est un grand avantage pour la résolution des CSP par rapport au calcul 1 2 lourd des fonctions fX=a . Mais cette facilité de calcul est payante : la fonction fX=a 197 CAp 2005 1 1 2 réduit moins que la fonction fX=a :∀s ∈ SW −{X} , fX=a (s) ≤ fX=a (s). La fonction obtenue par l’extension naturelle aux intervalles du classificateur nX=a répond par false moins souvent que la fonction définie directement. Cet inconvénient provient des propriétés de l’extension naturelle aux intervalles, qui ne donne pas toujours l’image exacte de l’intervalle argument, mais plutôt un intervalle plus grand incluant la vraie image. L’Analyse des Intervalles et le Théorème des simples occurrences (Moore, 1966) nous apprend que si dans l’expression de la fonction à étendre toutes les variables n’ont qu’une seule occurrence, alors l’extension calcule l’intervalle image exact. Néanmoins, malgré une puissance de réduction moindre que l’arc-consistance (la consistance la plus forte pour une contrainte prise toute seule), nos tests montrent que l’opérateur de consistance obtenu est assez efficace. L’utilisation d’une consistance plus faible que l’arc-consistance est pleinement justifiée dans le cas des grandes contraintes du monde réel (comme les cas traités ici), car dans (Bessière et al., 2004b) on montre que le calcul exact du support (c’est-à-dire le calcul d’une FRE la plus forte) est NPcomplet. Nous avons effectué une série de tests pour estimer la puissance de réduction de l’opérateur op2 . Pour cela nous considérons les bases de données ”salades”, ”mushroom”, ”breast-cancer-wisconsin” et ”house-votes-84” comme des contraintes ouvertes. Une des classes est considérée comme la classe solution. Le système Solar construit l’ensemble des classificateurs représentant la contrainte donnée, ensuite les transforme automatiquement en fonctions de réduction élémentaires en prenant l’extension aux intervalles. L’opérateur obtenu est ajouté dans notre propre solveur de contraintes. Le CSP à résoudre est simple : c’est la contrainte toute seule. On demande au solveur de générer toutes les solutions de la contrainte donnée. Le tableau 3 regroupe les résultats des tests. On y trouve : le nombre de solutions trouvées (c’est exactement le nombre de solution de la contrainte apprise car le solveur trouve toutes les solutions) ; le nombre d’échecs pendant la recherche de toutes les solutions (faire un échec, c’est d’arriver à un état où au moins un des domaines est vide) ; le nombre moyen d’échecs par solutions ; le temps de génération de toutes les solutions. Notons que l’arc-consistance ne ferait aucun échec pour une contrainte isolée (mais elle est indisponible pour une contrainte ouverte !). Database #Solutions #Echecs Echecs/Solution Temps salades 7.4E5 1.34E5 1.8 5′ 15′′ mushroom ≥ 4.1E6 ≥ 3.1E6 0.75 ≥ 2h br-cancer 1.27E5 1.28E5 0.99 3′ 00′′ votes-84 1.27E5 3.47E5 2.86 7′ 30′′ TAB . 3 – Tests des solveurs obtenus. Les tests démontrent la différence essentielle entre un classificateur de n-uplets simple et un opérateur de consistance. Pour générer les solutions avec un classificateur, le seul moyen est de parcourir l’espace des n-uplets et de les tester un par un avec le classificateur. Mais, par exemple, pour la contrainte ”mushroom” nous avons pu récupérer avec l’opérateur de consistance op2 plus de 4.1E6 solutions en 2h, alors que en parcou- 198 Apprentissage de solveurs rant l’espace des n-uplets et en faisant le test de classification nous n’avons que 7.7E4 solutions en 3h. Dans le cas de résolution d’un vaste CSP, le gain apporté par l’utilisation de l’opérateur de consistance permet de conserver les performances de résolution, tout en élargissant les possibilités de modélisation de problèmes grâce aux contraintes ouvertes. 5 Discussion et conclusion Les contraintes ouvertes ont été introduites dans (Faltings & Macho-Gonzalez, 2002) dans le contexte du raisonnement distribué, où le but est la minimisation du nombre de requêtes nécessaires pour compléter la définition de la contrainte. Les contraintes ouvertes sont utilisées également dans le cadre de Interactive Constraint Solving (Alberti et al., to appear) travail qui ne concerne pas l’apprentissage. L’apprentissage des préférences molles apparaı̂t dans (Rossi & Sperduti, 2004), mais la construction du solveur n’est pas non plus proposée. Dans l’article (Bessière et al., 2004a) les auteurs présentent un algorithme pour l’apprentissage de contraintes basé sur l’espace de versions. Cet algorithme construit un CSP (trouve un sous-ensemble de contraintes prédéfinies) pour représenter la contrainte cible. L’opérateur correspondant à la contrainte cible est la composition par itération chaotique des opérateurs associés aux contraintes du CSP obtenu. Dans cette approche les auteurs supposent que la bibliothèque des contraintes de base utilisée pour la modélisation est bien adaptée, ce qu’il est difficile d’assurer pour les contraintes ouvertes du monde réel, souvent mal connues. D’autre part la technique proposée est très sensible au bruit, fréquent dans les jeux de données rencontrés en pratique. L’apprentissage de solveurs pour les contraintes classiques (fermées) a été introduit par (Apt & Monfroy, 1999). Leur algorithme construit un solveur à base de règles, mais le traitement de grandes contraintes est impossible pour les raisons de complexité. Ce travail a été étendu par (Abdennadher & Rigotti, 2004) et (Lallouet et al., 2003) toujours dans le contexte des contraintes fermées. Aucune de ces approches ne combine la possibilité de généralisation avec les performances du solveur obtenu. A notre connaissance il n’y a pas d’autres techniques alternatives de construction de solveurs pour une contrainte ouverte provenant du monde réel. Les contraintes ouvertes permettent d’élargir considérablement les possibilités de modélisation par contraintes de problèmes réels. Plusieurs problèmes de décision ou/et d’optimisation font intervenir les contraintes connues en partie, comme ensemble d’exemples et de contre-exemples. Dans ce travail, nous proposons une nouvelle technique d’apprentissage de solveur pour une contrainte ouverte. Cette technique basée sur l’apprentissage d’un ensemble de classificateurs particuliers est directement inspirée par le formalisme des contraintes et la nature des opérateurs de propagation. La technique permet non seulement la construction d’un classificateur à deux classes aux performances intéressantes, mais aussi la construction d’un solveur puissant pour la contrainte apprise. La technique est applicable aux contraintes de grande arité et les domaines finis de taille assez importante, ce qui la rend particulièrement intéressante. Les développements envisagés de ce travail sont : – l’utilisation d’autres méthodes de classification que les réseaux de neurones avec ensuite l’extension aux intervalles ou aux ensembles 199 CAp 2005 – l’application du principe général aux contraintes continues et mixtes. Ces travaux sont en ce moment en cours. Remerciement. Merci à Anna, notre expert culinaire, pour la préparation de la base ”salades”. Références A BDENNADHER S. & R IGOTTI C. (2004). Automatic generation of rule-based constraint solvers over finite domains. ACM TOCL, 5(2). A LBERTI M., G AVANELLI M., L AMMA E., M ELLO P. & M ILANO M. (to appear). A chr-based implementation of known arc-consistency. Theory and Practice of Logic Programming. A PT K. (1999). The essence of constraint propagation. Theoretical Computer Science, 221(12), 179–210. A PT K. & M ONFROY E. (1999). Automatic generation of constraint propagation algorithms for small finite domains. In J. JAFFAR, Ed., International Conference on Principles and Practice of Constraint Programming, volume 1713 of LNCS, p. 58–72, Alexandria, Virginia, USA : Springer. B ESSI ÈRE C., C OLETTA R., F REUDER E. C. & O’S ULLIVAN B. (2004a). Leveraging the learning power of examples in automated constraint acquisition. In M. WALLACE , Ed., Principles and Practice of Constraint Programming, volume 3258 of LNCS, p. 123–137, Toronto, Canada : Springer. B ESSI ÈRE C., H EBRARD E., H NICH B. & WALSH T. (2004b). The complexity of global constraints. In D. L. M C G UINNESS & G. F ERGUSON, Eds., National Conference on Artificial Intelligence, p. 112–117, San Jose, CA, USA : AAAI Press / MIT Press. FALTINGS B. & M ACHO -G ONZALEZ S. (2002). Open constraint satisfaction. In P. VAN H ENTENRYCK, Ed., International Conference on Principles and Practice of Constraint Programming, volume 2470 of LNCS, p. 356–370, Ithaca, NY, USA : Springer. F REUND Y. & S HAPIRE R. (1999). A short introduction to boosting. Journal of Japanese Society for Artificial Intelligence, 14(5), 771–780. L ALLOUET A., DAO T.-B.-H., L EGTCHENKO A. & E D -D BALI A. (2003). Finite domain constraint solver learning. In G. G OTTLOB, Ed., International Joint Conference on Artificial Intelligence, p. 1379–1380, Acapulco, Mexico : AAAI Press. Poster. L ALLOUET A., L EGTCHENKO A., M ONFROY E. & E D -D BALI A. (2004). Solver learning for predicting changes in dynamic constraint satisfaction problems. In K. B. C HRIS B ECK & G. V ERFAILLIE , Eds., Changes’04, International Workshop on Constraint Solving under Change and Uncertainty, Toronto, CA. M ITCHELL T. M. (1997). Machine Learning. McGraw-Hill. M OORE R. E. (1966). Interval Analysis. Prentice Hall. Q UINLAN J. (1993). C4.5 : Programs for Machine Learning. Morgan Kaufmann. ROSSI F. & S PERDUTI A. (2004). Acquiring both constraint and solution preferences in interactive constraint system. Constraints, 9(4). RULE Q UEST R ESEARCH (2004). See5 : An informal tutorial. http ://www.rulequest.com/see5win.html. T SANG E. (1993). Foundations of Constraint Satisfaction. Academic Press. 200 Policy gradient in continuous time Rémi Munos Centre de Mathématiques Appliquées, Ecole Polytechnique, 91128 Palaiseau, France. remi.munos@polytechnique.fr www.cmap.polytechnique.fr/∼munos Abstract : We consider the approach of solving approximately a deterministic optimal control problem by searching a good controller in a given class of parameterized policies. When the dynamics of the system is known from the decision maker, an explicit representation of the sensitivity of the performance measure with respect to the control parameters is easily derived using pathwise derivation, which enables to use gradient methods for solving the parametric optimization problem. This paper is concerned with the case of an unknown state dynamics (such as in reinforcement learning). It introduces a method for computing the policy gradient only from the observable. The underlying idea consists in approximating the continuous deterministic process by a stochastic discrete one and using stochastic policies to estimate the unknown coefficients by quantities that depend solely on the state and the policy. Almost sure convergence to the policy gradient is proved. The method is illustrated on a (6 dimensional) target problem. Résumé : Nous considérons la résolution approchée d’un problème de contrôle optimal par un problème d’optimisation dans un espace de politiques paramétrées. Lorsque la dynamique d’état du système est connue de l’agent décisionnel, une représentation explicite de la sensibilité (le gradient) de la mesure de performance par rapport aux paramètres de contrôle se déduit facilement par dérivation trajectorielle, ce qui permet d’utiliser une méthode de gradient pour résoudre le problème d’optimisation paramétrique. Dans cet article, nous considérons le cas d’une dynamique d’état inconnue (cadre de l’apprentissage par renforcement). Nous décrivons une méthode pour calculer le gradient uniquement à partir des observables. L’idée sous-jacente consiste à approcher le processus déterministe continu par un processus stochastique discret et d’utiliser une politique stochastique pour remplacer les coefficients inconnus par des grandeurs qui ne dépendent que de l’état et de la politique. La convergence presque-sure vers le gradient est montrée. L’approche est illustrée sur un problème de cible (en dimension 6). 201 CAp 2005 1 Introduction and statement of the problem We consider an optimal control problem with continuous state (xt ∈ IRd )t≥0 whose dynamics is defined by the differential equation: dxt = f (xt , ut ), dt (1) where the control (ut )t≥0 is a Lebesgue measurable function with values in a control space U , assumed to be finite (extension to a continuous control space is straightforward). The functional J to be maximized has finite-time horizon T . For simplicity, in the following, we illustrate the case of a terminal reward only: J(x; (ut )t≥0 ) = r(xT ), (2) where r : IRd → IR is the reward function. Extension to the general case of a functional of the form Z T J(x; (ut )t≥0 ) = r(t, xt )dt + R(xT ), (3) 0 with r and R being current and terminal reward functions, easily follows from linearity, as indicated in remark 1. The optimal control problem of finding a control (ut )t≥0 that maximizes the functional is replaced by a parametric optimization problem in which we search for a good feed-back control law in a given class of parameterized policies {πα }α , where α ∈ IRm represents the parameter. The control (or action) may be written ut = πα (t, xt ), and the dynamics of the resulting feed-back system is dxt = fα (xt ), dt (4) where fα (xt ) = f (x, πα (t, x)). We assume that fα is C 2 with bounded derivatives. Let us write the performance measure V (α) = J(x; πα (t, xt )t≥0 ) to emphasize the dependency with respect to (w.r.t.) the parameter α. One may also consider an average performance measure defined by some distribution µ for the initial state: V (α) = E[J(x; πα (t, xt )t≥0 )|x ∼ µ]. In order to find a local maximum of V (α), one may perform a gradient ascent method: α ← α + η∇α V (α), (5) with η being an adequate step (see for example (Polyak, 1987; Kushner & Yin, 1997)). Of course, many much powerful variants of gradient-based methods exists (Bonnans et al., 2003). The computation of the gradient ∇α V (α) is the object of this paper. 202 Pathwise estimation of the gradient. Define the gradient of the state with respect to the parameter: zt = ∇α xt , which solves dzt = ∇α fα (xt ) + ∇x fα (xt )zt , dt (6) with initial condition z0 = 0. Here, zt is an d × m-matrix whose (i, j)-component is the derivative of the ith component of xt w.r.t. αj . Similarly ∇α fα and ∇x fα are, respectively, the derivatives of f w.r.t. the parameter (matrix of size d × m) and the state (matrix of size d × d). When the reward function r is smooth, one may apply a pathwise differentiation to derive a gradient formula: Proposition 1 (Yang & Kushner, 1991). If r is continuously differentiable then ∇α V (α) = ∇x r(xT )zT . (7) Remark 1 In the more general setting of a functional (3), the gradient is: Z T ∇α V (α) = ∇x r(t, xt )zt dt + ∇x R(xT )zT . 0 What is known from the agent? The decision maker (call it the agent) that intends to design a good controller for the dynamical system may or may not know a model of the state dynamics f . In case the dynamics is known, the state gradient zt = ∇α xt may be computed from (6) along the trajectory and the gradient of the performance measure w.r.t. the parameter α may be deduced at time T from (7), which allows to perform the gradient ascent step (5). In this paper we investigate the case of an a priori unknown dynamics: the agent only observes the response of the system to its control. This specific framework is often referred to as model-free reinforcement learning (Sutton & Barto, 1998). The available information to the agent at time t are its own control policy πα and the trajectory (xs )0≤s≤t up to time t. At time T , it observes the reward r(xT ) and, in this paper, we also assume that the gradient ∇r(xT ) is known. From this point of view, it seems impossible to derive the state gradient zt from (6), since ∇α f and ∇x f are unknown. The term ∇x f (xt ) may be approximated by least squares methods from the observation of past states (xs )s≤t , as this will be explained later on in subsection 3.2. However the term ∇α f (xt ) cannot be computed analogously. In this paper, we introduce the idea of using stochastic policies to approximate the state xt and the state gradient zt by discrete-time stochastic processes Xt∆ and Zt∆ (with ∆ being some time-discretization step). We show how Zt∆ may be computed without the knowledge of ∇α f , but instead with likelihood ratios (such as ∇α log πα and ∇x log πα ) of the policy. We prove the convergence (with probability one) of the gradient estimate ∇x r(XT∆ )ZT∆ derived from the stochastic processes to ∇α V (α) when ∆ → 0. 203 CAp 2005 Remark 2 It is worth mentioning that this strong convergence result contrasts with usual likelihood ratio methods in discrete time (Williams, 1992; Baxter & Bartlett, 2001; Sutton et al., 2000; Marbach & Tsitsiklis, 2003) for which the policy gradient estimate would be subject to variance explosion when the number of discretization steps (thus the number of decisions before getting the reward) goes to infinity (i.e. ∆ → 0). The paper is organized as follows. In Section 2, we state a general result for discretization of continuous deterministic dynamics by stochastic discrete processes and apply it to prove the convergence of the approximate state and state gradient. In Section 3, we state the convergence of the policy gradient estimate and describe the model-free reinforcement learning algorithm. In the last Section, we illustrate the method on a (6 dimensional) target problem. Appendices A and B provide all proofs. 2 Discretized stochastic processes We first state a general result for approximating a deterministic continuous process by a stochastic discrete one. Then, we apply this result to the convergence analysis of processes (the state Xt∆ and the state gradient Zt∆ ) related to the introduction of stochastic policies. 2.1 A general convergence result Let (xt )0≤t≤T be a deterministic continuous process defined by some dynamics dxt = f (xt ) dt with initial condition x0 = x. We assume that f is of class C 2 with bounded derivatives. Let ∆ = T /N be a time-discretization step (with N being the number of time-steps) and denote {tn = n∆}0≤n≤N the discrete times. Let (Xt∆n )0≤n<N be a discrete stochastic process, such that X0∆ = x, and which satisfies the consistency property: ∆ E[Xt+∆ − Xt∆ |Xt∆ = x] = f (x)∆ + o(∆) (8) and the following bound on the jumps: ∆ Xt+∆ − Xt∆ = O(∆). (9) The following theorem establishes the convergence of (Xt∆ ) to (xt ) when ∆ → 0. Theorem 1 We have lim XT∆ = xT , with probability 1. ∆→0 204 Appendix A gives a proof of this result. Note that a weaker convergence result (i.e. convergence in probability) may be obtained from general results in approximation of diffusion processes by Markov chains (Kloeden & Platen, 1995). Here, almost sure convergence is obtained using the concentration of measure phenomenon (Talagrand, 1996; Ledoux, 2001), detailed in Appendix A. Remark 3 If we assume a slightly better consistency error of O(∆2 ) instead of o(∆) in (8), then we may prove (straightforwardly from the Appendix) that E[XT∆ ] = xT + O(∆) and E[||XT∆ − xT ||2 ] = O(∆). 2.2 Discretization of the state Let us go back to our initial control problem (1). We define a stochastic policy πα as a random choice of an action (or control) according to some probabilities: πα (u|t, x) denotes the probability of choosing action u ∈ U at time t in state x. We write: ut ∼ πα (·|t, xt ) a choice of an action ut at time t and state xt , according to such a stochastic policy. Now, we define the stochastic discrete process (Xt∆n )0≤n≤N (using the same notations for the time-steps (tn ) as in the previous subsection) according to: • Initialize X0∆ = x. ∆ • At time t ∈ {(tn )0≤n<N }, we choose an action ut ∼ πα (·|t, Xt∆ ). Then, Xt+∆ is the state of the system at time t + ∆ resulting from keeping the action ut constant for a period of time ∆. We write:  ut ∼ πα (·|t, Xt∆ ) (10) ∆ Xt+∆ = y(t, Xt∆ ; ut , ∆) where y(t, x; u, s) represents the state resulting from the state dynamics (1) with initial condition xt = x and using a constant control u for a period of time s. When ∆ is small, this process is close to a deterministic process (xt )0≤t≤T defined by the dynamics (4) with X πα (u|t, x)f (x, u). fα (x) := u∈U and initial condition x0 = x. Indeed, the discrete stochastic process (Xt∆ ) converges to (xt ) when ∆ → 0 as an immediate consequence of Theorem 1. To see that, we use Taylor formula, ∆ Xt+∆ = Xt∆ + f (Xt∆ , ut )∆ + O(∆2 ), to derive the property on the average jumps: X ∆ πα (u|t, x)f (x, u)∆ + O(∆2 ) = fα (x)∆ + O(∆2 ), E[Xt+∆ − Xt∆ |Xt∆ = x] = u∈U and the consistency conditions (8) holds, as well as the bound on the jumps (9). 205 CAp 2005 2.3 Discretization of the state gradient Now, we discretize the state gradient zt = ∇α xt . We build the discrete stochastic process (Zt∆n )0≤n≤N according to: • Initialize Z0∆ = 0. • At time t ∈ {(tn )0≤n<N }, let (ut ) and (Xt∆ ) be defined according to (10). Then ∆ Zt+∆ =   Zt∆ + f (Xt∆, ut ) lα (t, Xt∆ , ut )′ + lx (t, Xt∆ , ut )′ Zt∆ ∆ +∇x f (Xt∆ , ut )Zt∆ ∆, (11) where lα (t, x, u) := ∇α πα (u|t, x) ∇x πα (u|t, x) and lx (t, x, u) := πα (u|t, x) πα (u|t, x) are the likelihood ratios of πα w.r.t. α and x (defined as vectors of size m and d respectively), and ′ denotes the transpose operator. Here again, as a consequence of Theorem 1, the process (Zt∆ ) converges almost surely to (zt ) when ∆ → 0. Indeed, from the property ∆ E[Zt+∆ − Zt∆ |Xt∆ = x, Zt∆ = z] = X πα (u|t, x) f (x, u)[lα (t, x, u)′ + lx (t, x, u)′ z] u∈U  +∇x f (x, u)z ∆   = ∇α fα (x) + ∇x fα (x)z ∆, we deduce that the coupled process (Xt∆ , Zt∆ ) is consistent with (xt , zt ) in the sense of (8):   ∆   ∆   ∆     Xt x fα (x) Xt+∆ Xt = = ∆ + o(∆) (12) E − ∆ ∆ Zt∆ z ∇α fα (x) + ∇x fα (x)z Zt+∆ Zt ∆ ∆ and Xt+∆ − Xt∆ = O(∆) and Zt+∆ − Zt∆ = O(∆). 3 Model-free reinforcement learning algorithm We show how to use the approximation results of the previous section to design a modelfree reinforcement learning algorithm for estimating the policy gradient ∇α V (α) using one trajectory. First, we state the convergence of the policy gradient estimate computed from the discrete process, then show how to approximate the unknown coefficient ∇x f using least-squares regression from the observed trajectory, and finally describe the reinforcement learning algorithm. 206 3.1 Convergence of the policy gradient estimate One may use formula (7) to define a gradient estimate of the performance measure w.r.t. the parameter α based on the discrete process (Xt∆ , Zt∆ ): g(∆) := ∇x r(XT∆ )ZT∆ . (13) Proposition 2 Assume that r is continuously differentiable. Then lim g(∆) = ∇α V (α) with probability 1. ∆→0 Proof. This is a direct consequence of the almost sure convergence of (XT∆ , ZT∆ ) to (xT , zT ) and the continuity of ∇x r.  Now, let us illustrate how Zt∆ may be approximated with quantities available to the agent. The definition (11) of Zt∆ requires the term ∇x f (Xt∆ , u). We now explain how ∆ d to built a consistent approximation ∇ x f (Xt , u) of this term based on the past of the ∆ trajectory (Xs )0≤s≤t . 3.2 Least-squares approximation of ∇x f (Xt∆ , u) For clarity, we omit references to ∆, for example writing Xs instead of Xs∆ . Let us write ∆Xt = Xt+∆ − Xt the jumps of the state. Define S(t) := {s ≤ t, us = ut , Xs − Xt = O(∆)} the set of past times s ≤ t when action ut have been chosen, and such that the distance between the states Xs and Xt is bounded by a constant times ∆. From Taylor formula, we have for all s ∈ S(t), ∆Xs = Xs+∆ − Xs = f (Xs , ut )∆ + ∇x f (Xs , ut )f (Xs , ut ) ∆2 + O(∆3 ). 2 (14) Now, since f (Xs , ut ) = f (Xt , ut ) + ∇x f (Xt , ut )(Xs − Xt ) + O(∆2 ), we deduce (using the fact that ∇x f (Xs , ut ) = ∇x f (Xt , ut ) + O(∆)) that ∆Xs   ∆2 = ∆Xt + ∇x f (Xs , ut )f (Xs , ut ) − ∇x f (Xt , ut )f (Xt , ut ) 2 +∇x f (Xt , ut )(Xs − Xt )∆ + O(∆3 ) 1 = ∆Xt + ∇x f (Xt , ut )[Xs − Xt + (∆Xs − ∆Xt )]∆ + O(∆3 ) (15) 2 1 3 = b + A(Xs + ∆Xs )∆ + O(∆ ) 2 with b := ∆Xt − ∇x f (Xt , ut )(Xt + 12 ∆Xt )∆ and A := ∇x f (Xt , ut ). Based on the observation of several jumps {∆Xs }s∈S(t) , one may derive an approximation of 207 CAp 2005 ∇x f (Xt , ut ) by solving the least-squares problem: min A,b 1 X nt s∈S(t)  1 ∆Xs − b − A Xs + ∆Xs ∆ 2 2 , (16) where nt is the cardinality of S(t). Write Xs+ := Xs + 12 ∆Xs = 21 (Xs + Xs+∆ ) and use the simplified notations: X, X X ′ , ∆X, and ∆X X ′ , to denote the average values, when s ∈ S(t), of Xs+ , Xs+ (Xs+ )′ , ∆Xs , and ∆Xs (Xs+ )′ , respectively. For example, X := 1 X Xs+ . nt s∈S(t) ′ The optimality condition of (16) holds when the matrix Qt := X X ′ −X X is invertd ible, and in that case, the least squares solution provides the approximation ∇ x f (Xt , ut ) of ∇x f (Xt , ut ): 1 ′ ′ −1 d . ∆X X ′ − ∆X X X X ′ − X X ∇ x f (Xt , ut ) = ∆ (17) This optimality condition does not hold when the set of points (Xs+ )s∈S(t) lies in a vector space of dimension < d (then Qt is degenerate). In order to circumvent this problem, we assume that the eigenvalues of the matrix Qt are bounded away from 0, in the sense given in the following proposition (whose proof in given in Appendix B). Proposition 3 ′ The matrix Qt = X X ′ − X X is symmetric non-negative. Let ν(∆) ≥ 0 be the smallest eigenvalue of Qt , for all 0 ≤ t ≤ T . Then, if ν(∆) > 0 and ν(∆) satisfies 1 = o(∆4 ), ν(∆) (18) d then, for all 0 ≤ t ≤ T , the least squares estimate ∇ x f (Xt , ut ) defined by (17) is consistent with the gradient ∇x f (Xt , ut ), that is: d lim ∇ x f (Xt , ut ) = ∇x f (Xt , ut ). ∆→0 The condition (18) is not easy to check, since it depends on the state dynamics and the policy. However, it seems (at least in our experiments) that its holds in general, specially since we used stochastic policies. Future work should focus on its well-foundedness. 3.3 The reinforcement learning algorithm Here, we derive an policy gradient estimate from (13) in which all information required to build the state gradient Zt is the past trajectory (Xs )0≤s≤t . Choose a time step ∆. For a given stochastic policy πα , the algorithm proceeds as follows: 208 • At time t = 0, initialise X0 = x and Z0 = 0. • At time t ∈ {(tn )0≤n<N }, choose a random action ut according to the stochastic policy πα and keep this action for a period of time ∆, which moves the system from Xt to Xt+∆ (summarized by the dynamics (10)). Update Zt according to Zt+∆   = Zt + ∆Xt lα (t, Xt , ut )′ + lx (t, Xt , ut )′ Zt ∆ d +∇ x f (t, Xt , ut )Zt ∆ (19) d where ∇ x f (t, Xt , ut ) is processed from (17). • At time T , return the policy gradient estimate ∇x r(XT )ZT . This algorithm returns a consistent approximation of the policy gradient ∇α V (α), as stated in the next Proposition. Proposition 4 Assume that the property (18) of Proposition 3 holds, and that r is continuously differentiable. Then the estimate ∇x r(XT )ZT returned by the algorithm converges to ∇α V (α) with probability 1, when ∆ → 0. d Proof. From Proposition 3, ∇ x f is a consistent approximation of ∇x f , thus the process (Zt ) built from (19) also satisfies the consistency condition (12), and the proof follows like in Proposition 2.  Notice that a simple on-line way for approximating ∇x f is to use an exponentially decreasing trace with coefficient λ ∈ (0, 1). For that purpose, we may define a table with values Y (u) (where Y means X, XX ′ , ∆X, and ∆X X ′ ) for all u ∈ U . The values are initialized (at the first time t each action u is chosen) by Yt , where Yt means Xt+ , Xt+ (Xt+ )′ , ∆Xt , and ∆Xt (Xt+ )′ , respectively. Then, the values are updated at time t, according to Y (u) ← λY (u) + (1 − λ)Yt Y (u) stays unchanged for for u = ut , u 6= ut . d Thus, the quantities X, X X ′ , ∆X, and ∆X X ′ are easily updated and the term ∇ xf may be advantageously computed from (17) by an iterative matrix inversion, such as with Sherman-Morrison formula (see for example (Golub & Loan, 1996)). Remark 4 ′ Notice that for the initial discrete times t, the matrix X X ′ −X X may not be invertible, simply because there are not enough points (Xs )s<t to define a subspace of dimension d d. Then, we may simply set ∇ x f to 0, which has no impact on the general convergence result. 209 CAp 2005 Target Hand Mass (a) The physical system (b) A trajectory (the mass and the hand) starting from the origin Figure 1: (a) the physical system. (b) A trajectory obtained after 1000 gradient steps. 4 Numerical experiment We illustrate the algorithm described in the previous section on a 6 dimensional system (x0 , y0 , x, y, vx , vy ) that represents a hand ((x0 , y0 ) position) holding a spring to which is attached a mass (defined by its position (x, y) and velocity (vx , vy )) subject to gravitation. The control is the movement of the hand, in any 4 possible directions (up, down, left, right). The goal is to reach a target (xG , yG ) with the mass at a specific time T (see Figure 1a), while keeping the hand close to the origin. For that purpose, the terminal reward function is defined by r = −x20 − y02 − (x − xG )2 − (y − yG )2 . The dynamics of the system is: x˙0 = ux , y˙0 = uy , ẋ = vx , ẏ = vy , k v˙x = − m (x − x0 ), k v˙y = − m (y − y0 ) − g, with k being the spring constant, m the mass, g the gravitational constant, and (ux , uy ) = u ∈ U := {(1, 0), (0, 1), (−1, 0), (0, −1)} the control. We consider a stochastic policy of the form exp Qα (t, x, u) πα (u|t, x) = P ′ u′ ∈U exp Qα (t, x, u ) with a linear parameterization of the Qα values: Qα (t, x, u) = αu0 + αu1 t + αu2 x0 + αu3 y0 +αu4 x+αu5 y+αu6 vx +αu7 vy , for each 4 possible actions u ∈ U . Thus the parameter α ∈ IR32 . We initialized α with uniform random values in the range [−0.01, 0.01]. In 210 Performance measure 0 −2 −4 −6 −8 −10 −12 Number of gradient iterations −14 0 100 200 300 400 500 600 700 800 900 1000 Figure 2: Performance of successive parameterized controllers (performance for the first iterations are below −14). our experiments we chose k = 1, m = 1, g = 1, xG = yG = 2, λ = 0.9, ∆ = 0.01, T = 10. At each iteration, we run one (stochastic) trajectory (Xt )0≤t≤T using the stochastic policy, and calculate the policy gradient estimate according to the algorithm described in Section 3.3. We then perform a gradient ascent step (5) (with a fixed η = 0.01). Figure 2 shows the performance of the parameterized controller as a function of the number of gradient iterations. For that problem, we chose initial states uniformly sampled from the domain [−0.1, 0.1]6. We found that the randomness introduced in the choice of the initial state helped in not getting stuck in local minima. Here, convergence of the gradient method to an optimal controller (for which r = 0) occurs. We illustrate in Figure 1b the trajectory (where only the hand and the mass positions are showed) obtained after 1000 gradient steps, starting from the initial state (x0 , y0 , x, y, vx , vy )t=0 = 0. 5 Conclusion We described a method for approximating the gradient of the performance measure of a continuous-time deterministic problem, with respect to the control parameters. This was obtained by discretizing the continuous dynamics by a consistent stochastic process built from using a stochastic policy. We showed how a consistent estimation of the gradient may be computed only from the observable. In future work, it would be useful to extend this idea to stochastic dynamics, and to 211 CAp 2005 non-smooth reward, or when its gradient is unknown (maybe using integration-by-part formula for the gradient estimate, such as in the likelihood ratio method of (Yang & Kushner, 1991) or the martingale approach of (Gobet & Munos, 2005)). A Appendix: proof of Theorem 1 For convenience, we write xn for xtn , Xn for Xt∆n , and un for utn , 0 ≤ n ≤ N . Let us define the average approximation errors m∆ n = E[||Xn − xn ||] and the squared errors vn∆ = E[||Xn − xn ||2 ]. A.1 Convergence of the squared error E[||XT∆ − xT ||2 ]: We use the decomposition: ∆ vn+1 = E[||Xn+1 − Xn ||2 ] + E[||Xn − xn ||2 ] + E[||xn − xn+1 ||2 ] +2E[(Xn − xn )′ (Xn+1 − Xn + xn − xn+1 )] (20) ′ +2E[(Xn+1 − Xn ) (xn − xn+1 )]. From the bounded jumps property (9), E[||Xn+1 − Xn ||2 ] = O(∆2 ). From Taylor formula, xn+1 − xn = f (xn )∆ + O(∆2 ), (21) thus E[||xn − xn+1 ||2 ] = O(∆2 ) (since f is Lipschitz, and xt and f (xt ) are uniformly bounded on [0, T ]) and from Cauchy-Schwarz inequality, |E[(Xn+1 −Xn )′ (xn −xn+1 )]| = O(∆2 ). From (8) and (21), E[Xn+1 − Xn + xn − xn+1 |Xn ] = [f (Xn ) − f (xn )]∆ + o(∆). (22) Now, from (9) we deduced that ||Xn − x|| = O(1) thus Xn is bounded (for all n and N ), as well as xn . Let B a constant such that ||Xn || ≤ B and ||xn || ≤ B for all n ≤ N , N ≥ 0. Since f is C 2 , from Taylor formula, there exists a constant k, such that, for all n ≤ N, ||f (Xn ) − f (xn ) − ∇x f (xn )(Xn − xn )|| ≤ k||Xn − xn ||2 . We deduce that |E[(Xn − xn )′ (Xn+1 − Xn + xn − xn+1 )]|   = E (Xn − xn )′ (f (Xn ) − f (xn )) ∆ + o(∆)   ≤ E (Xn − xn )′ ∇x f (xn )(Xn − xn ) ∆ + 2kBvn ∆ + o(∆) ≤ M vn ∆ + o(∆) with M = sup||x||≤B ||∇x f (x)|| + 2kB. Thus, (20) leads to the recurrent bound ∆ vn+1 ≤ (1 + M ∆)vn∆ + o(∆). 212 (23) This actually means that there exists a function e(∆) → 0 when ∆ → 0, such that ∆ vn+1 ≤ (1 + M ∆)vn∆ + e(∆)∆. Thus, ∆ vN ≤ 1 (1 + M ∆)N − 1 e(∆)∆ ≤ (eN M∆ − 1) e(∆) (1 + M ∆) − 1 M ∆→0 ∆ thus vN = o(1), that is E[||XT∆ − xT ||2 ] −→ 0. A.2 Convergence of the mean E[||XT∆ − xT ||]: From (22), we have E[Xn+1 − xn+1 |Xn ] = Xn − xn + [f (Xn ) − f (xn )]∆ + o(∆). Thus from (23), ∆ m∆ n+1 = E[||Xn+1 − xn+1 ||] ≤ (1 + ||∇x f (xn )||∆)E[||Xn − xn ||] + kvn ∆ + o(∆) ≤ (1 + M ′ ∆)m∆ n + o(∆), since vn∆ = o(1) (with M ′ = sup||x||≤B ||∇x f (x)||). Using the same deduction as ∆→0 ∆ above, we obtain that m∆ N = o(1), that is E[||XT − xT ||] −→ 0. A.3 Almost sure convergence Here, we use the concentration-of-measure phenomenon (Talagrand, 1996; Ledoux, 2001), which states that under mild conditions, a function (say Lipschitz or with bounded differences) of many independent random variables concentrates around its mean, in the sense that the tail probability decreases exponentially fast. One may write the state XN as a function h of some independent random variables (Un )0≤n<N : N −1 X Xn+1 − Xn . (24) XN = h(U0 , . . . , UN −1 ) := n=0 Observe that h − E[h] = dn PN −1 n=0 dn with = E[h(U0 , . . . , UN −1 )|U0 , . . . , Un ] − E[h(U0 , . . . , UN −1 )|U0 , . . . , Un−1 ] = Xn+1 − Xn − E[Xn+1 − Xn ] being a martingale difference sequence (that is E[dn |U0 , . . . , Un−1 ] = 0). Now, from (Ledoux, 2001, lemma 4.1), one has: 2 P(|g − E[g]| ≥ ε) ≤ 2e−ε /(2D2 ) (25) PN −1 for any D2 ≥ n=0 ||dn ||2∞ . Thus, from (9), and since Xn is bounded, as well as f (Xn ) (for all n < N and all N > 0), there exists a constant C that does not depend on N such that dn ≤ C/N . Thus we may take D2 = C 2 /N . 213 CAp 2005 Now, from the previous paragraph, |E[XN ] − xN | ≤ e(N ), with e(N ) → 0 when N → ∞. This means that |h − E[h]| + e(N ) ≥ |XN − xN |, thus P(|h − E[h]| ≥ ε + e(N )) ≥ P(|XN − xN | ≥ ε), and we deduce from (25) that P(|XN − xN | ≥ ε) ≤ 2e−N (ε+e(N )) 2 /(2C 2 ) . P Thus, for all ε > 0, the series N ≥0 P(|XN − xN | ≥ ε) converges. Now, from Borel-Cantelli lemma, we deduce that for all ε > 0, there exists Nε such that for all N ≥ Nε , |XN − xN | < ε, which proves the convergence XN → xN as N → ∞, with probability 1. B Proof of proposition 3 ′ First, note that Qt = X X ′ − X X is a symmetric, non-negative matrix, since it may be rewritten as 1 X (Xs+ − X)(Xs+ − X)′ . nt s∈S(t) In solving the least squares problem (16), we deduce b = ∆X + AX∆, thus min A,b 1 1 X ||∆Xs − b −A(Xs+ ∆Xs )∆||2 nt 2 s∈S(t) = min A 1 X ||∆Xs − ∆X − A(Xs+ − X)∆||2 nt s∈S(t) 1 X ≤ ||∆Xs− ∆X− ∇x f (X, ut )(Xs+− X)∆||2 . nt (26) s∈S(t) Now, since Xs = X + O(∆) one may obtain like in (14) and (15) (by replacing Xt by X) that: ∆Xs − ∆X − ∇x f (X, ut )(Xs+ − X)∆ = O(∆3 ). (27) We deduce from (26) and (27) that 1 X nt s∈S(t)   + d ∇ x f (Xt , ut ) − ∇x f (X, ut ) (Xs − X)∆ 2 = O(∆6 ). By developping each component, d X  i=1   ′ 4 d d ∇ x f (Xt , ut )−∇x f (X, ut ) row i Qt ∇x f (Xt , ut )−∇x f (X, ut ) row i = O(∆ ). 214 Now, from the definition of ν(∆), for all vector u ∈ IRd , u′ Qt u ≥ ν(∆)||u||2 , thus ν(∆) d X i=1 2 4 d ||∇ x f (Xt , ut ) − ∇x f (X, ut )|| = O(∆ ). d Condition (18) yields ∇ x f (Xt , ut ) = ∇x f (X, ut ) + o(1), and since ∇x f (Xt , ut ) = ∇x f (X, ut ) + O(∆), we deduce d lim ∇ x f (Xt , ut ) = ∇x f (Xt , ut ). ∆→0 References BAXTER J. & BARTLETT P. (2001). Infinite-horizon gradient-based policy search. Journal of Artificial Intelligence Research, 15, 319–350. B ONNANS F., G ILBERT J., L EMARÉCHAL C. & S AGASTIZABAL C. (2003). Numerical Optimization. Theoretical and Practical Aspects. Springer-Verlag. G OBET E. & M UNOS R. (2005). Sensitivity analysis using itô-malliavin calculus and martingales. application to stochastic optimal control. To appear in SIAM journal on Control and Optimization. G OLUB G. H. & L OAN C. F. V. (1996). Matrix Computations, 3rd ed. Baltimore, MD: Johns Hopkins. K LOEDEN P. E. & P LATEN E. (1995). Numerical Solutions of Stochastic Differential Equations. Springer-Verlag. K USHNER H. J. & Y IN G. (1997). Stochastic Approximation Algorithms and Applications. Springer-Verlag, Berlin and New York. L EDOUX M. (2001). The concentration of measure phenomenon. American Mathematical Society, Providence, RI. M ARBACH P. & T SITSIKLIS J. N. (2003). Approximate gradient methods in policy-space optimization of markov reward processes. Journal of Discrete Event Dynamical Systems, 13, 111–148. P OLYAK B. (1987). Introduction to Optimization. Optimization Software Inc., New York. S UTTON R., M C A LLESTER D., S INGH S. & M ANSOUR Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Neural Information Processing Systems. MIT Press, p. 1057–1063. S UTTON R. S. & BARTO A. G. (1998). Reinforcement learning: An introduction. Bradford Book. TALAGRAND M. (1996). A new look at independence. Annals of Probability, 24, 1–34. W ILLIAMS R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8, 229–256. YANG J. & K USHNER H. (1991). A Monte Carlo method for sensitivity analysis and parametric optimization of nonlinear stochastic systems. SIAM J. Control Optim., 29(5), 1216–1249. 215 216 A Multi-Objective Multi-Modal Optimization Approach for Mining Stable Spatio-Temporal Patterns. Nicolas Tarrisson1 , Michèle Sebag1 , Olivier Teytaud1, Julien Lefevre2 & Sylvain Baillet2 1 TAO, CNRS − INRIA − Université Paris-Sud, F-91405 - Orsay, {nom}@lri.fr 2 LENA, CNRS, La Pitié Salpétrière, F-75651 - Paris Résumé : Cet article, motivé par des applications en imagerie fonctionnelle cérébrale, traite de la découverte de motifs spatio-temporels stables. Ce problème est formalisé comme une optimisation multi-modale multi-objectif : d’une part, les motifs cibles doivent montrer une bonne stabilité dans une grande région spatio-temporelle (objectifs antagonistes) ; d’autre part, les experts souhaitent trouver tous les motifs de ce type, même des optima locaux. L’algorithme proposé, appelé 4D-Miner, est empiriquement validé sur des jeux de données réels et artificiels ; il montre de bonnes performances et une bonne capacité à passer à l’échelle, détectant des motifs spatio-temporels en quelques minutes dans fichiers de plus de 400 Mo. 1 Introduction Spatio-temporal data mining is concerned with finding specific patterns in databases describing temporally situated spatial objects. Many approaches have been developed in signal processing and computer science to address such a goal, ranging from Fourier Transforms to Independent Component Analysis iciteICA, mixtures of models icitePadraic or string kernel machines iciteJST-strings, to name a few. These approaches aim at particular pattern properties (e.g. independence, generativity) and/or focus on particular data characteristics (e.g. periodicity). However, in some application domains, the above properties are not relevant to extract the patterns of interest. The approach presented in this paper is motivated by such an application domain, functional brain imaging. Non invasive techniques, specifically magnetoencephalography (MEG) iciteHamalainen, provide measures of the human brain activity with an unprecedented temporal resolution (time step 1 millisecond). This resolution enables researchers to investigate the timing of basic neural processes at the level of cell assemblies iciteBaillet. A key task is to find out which brain areas are active and when, i.e. to detect spatio-temporal regions with highly correlated activities. It is emphasized that such regions, referred to as stable spatio-temporal patterns (STPs), are neither periodic nor necessarily independent. Currently, STPs are manually detected, which (besides being a tedious task) severely hampers the reproducibility of the results. 217 CAp 2005 This paper addresses the automatic detection of stable spatio-temporal patterns, i.e. maximal spatio-temporal regions with maximal correlation. This detection problem cannot be formalized as a multi-objective optimization (MOO) problem iciteDeb :book, because experts are interested in several active brain areas : an STP might be relevant though it corresponds to a smaller spatio-temporal region, with a lesser correlated activity than another STP. The proposed approach thus extends MOO along the lines of multi-modal optimization iciteMulti-modal, defining a multi-objective multi-modal optimization framework (MoMOO). MoMOO is tackled by an evolutionary algorithm termed 4D-Miner, using a diversity criterion to relax the multi-objective search (as opposed to diversity enforcing heuristics in MOO, e.g. iciteCorne,Laumans ; more on this in section 2.3). To the best of our best knowledge, both the extension of evolutionary algorithms to MoMOO, and the use of multi-objective optimization within spatio-temporal data mining are new, although MOO attracts increasing attention in the domain of machine learning and knowledge discovery (see, e.g., iciteGhosh,FRAN). Experimental validation on artificial and real-world datasets demonstrates the good scalability and performances of 4D-Miner ; sought STPs are found within minutes from medium sized datasets (450 Mo), on PC-Pentium 2.4 GHz. The paper is organized as follows. Section 2 formalizes the detection of stable spatiotemporal patterns as a multi-modal multi-objective optimization problem, and motivates the use of evolutionary algorithms iciteBaeck-book,Goldberg :02 for their detection. Section 3 gives an overview of 4D-Miner. Section 4 describes the experiment goals and setting. Section 5 reports on the extensive validation of 4D-Miner on artificial and real-world data. Section 6 discusses the approach with respect to relevant work, and the paper ends with perspectives for further research. 2 Position of the problem This section introduces the notations and criteria for stable spatio-temporal pattern detection. 2.1 Notations and definitions Let N be the number of measure points. To the i-th measure point is attached a spatial position1 Mi = (xi , yi , zi ) and a temporal activity Ci (t), t ∈ [1, T ]. Let I = [t1 , t2 ] ⊂ [1, T ] be a time interval, and let C̄iI denote the average activity of the i-th measure point during I. The I-alignment σI (i, j) of measure points i and j over I is defined as :   |C̄iI −C̄jI | σI (i, j) = < i, j >I × 1 − |C̄ I | , where < i, j >I = qP Pt2 t2 t=t1 i Ci (t).Cj (t) Pt2 2 Ci (t)2 × t=t1 Cj (t) t=t1 1 MEG measure points actually belong to a 2D shape (the surface of the skull). However, the approach equally handles 2D or 3D spatio-temporal data. 218 Multi-objective multi-modal optimization approach 200 100 0 -100 -200 100 500 300 700 F IG . 1 – Magneto-Encephalography Data (N = 151, T = 875) As the sought patterns do not need to be spheric, ellipsoidal distances are considered. Only axis-parallel ellipsoids will be considered throughout the paper. For each weight vector w = (a, b, c) (w ∈ IR+3 ), distance dw is defined on the measure points as : q dw (i, j) = a(xi − xj )2 + b(yi − yj )2 + c(zi − zj )2 2.2 Multi-objective formalization A pattern X = {i, I, w, r} is characterized by a center point i, i ∈ [1, N ], a time interval I, an ellipsoidal distance dw , and a radius r > 0. The spatial neighborhood B(i, w, r) is defined as the set of measure points j such that dw (i, j) is less than r. The spatial amplitude of X, noted a(X), is the number of measure points in B(i, w, r). The temporal amplitude of X, noted ℓ(X), is the number of time steps in interval I. The spatio-temporal alignment of X, noted σ(X) is defined as the average, over all measure points in B(i, w, r), of their I-alignment with respect to the center i : σ(X) = 1 a(X) X σI (i, j) j∈B(i,w,r) Interesting spatio-temporal patterns, according to the expert’s first specifications, show maximal spatial and temporal amplitudes together with a maximal spatiotemporal alignment. Specifically, a solution pattern is such that i) increasing its spatial or temporal amplitude would cause the spatio-temporal alignment to decrease ; ii) the only way of increasing its spatio-temporal alignment is by decreasing its spatial or temporal amplitude. It thus comes naturally to formalize the STP detection in terms of multi-objective optimization problem (see iciteDeb :book and references therein ; iciteIGLE,BHAT for related other forms of data-mining). The three a, ℓ and σ criteria induce a partial order on the set of patterns, referred to as Pareto domination.. 219 CAp 2005 Definition 1. (Pareto domination) Let c1 , ...cK be K real-valued criteria defined on domain Ω, and let X and Y belong to Ω. X Pareto-dominates Y , noted X ≻ Y , iff ck (X) is greater or equal ck (Y ) for all k = 1..K, and the inequality is strict for at least one k0 .  ∀k = 1..K, (ck (X) ≥ ck (Y )) and (X ≻ Y ) ⇐⇒ ∃k0 s.t. (ck0 (X) > ck0 (Y )) The set of non-dominated solutions after a set of criteria is classically referred to as Pareto front iciteDeb :book. 2.3 Multi-modal multi-objective formalization However, the above criteria only partially account for the expert’s expectations : a STP might have a lesser spatio-temporal alignment and amplitude than another one, and still be worthy, provided that it corresponds to another active brain area. Therefore, not all sought STPs belong to the Pareto front. Multi-modal optimization occurs when we are interested in solutions that are nondominated locally. What we need here is both multi-objective and multi-modal. A new optimization framework is thus defined, extending multi-objective optimization in the spirit of multi-modal optimization iciteMulti-modal : multi-modal multi-objective optimization (MoMOO). Formally, let us first define a relaxed inclusion relationship, noted p-inclusion. Definition 2. (p-inclusion) Let A and B be two subsets of set Ω, and let T p be a positive real number (p ∈ [0, 1]). A is p-included in B, noted A ⊂p B, iff |A B| > p × |A|. Defining adequately the support of a candidate solution X (see below) multi-modal Pareto domination can be defined as follows : Definition 3. (multi-modal Pareto domination) With same notations as in Def. 1, X mo-Pareto dominates Y , noted X ≻mo Y , iff the support of Y is p-included in that of X, and X Pareto-dominates Y . X ≻mo Y ⇐⇒ [(Supp(Y ) ⊂p Supp(X)) and (X ≻ Y )] In the case of STPs, the support of X = (i, I, w, r) is naturally defined as Supp(X) = B(i, dw , r) × I, with Supp(X) ⊂ [1, N ] × [1, T ]. In contrast with iciteCorne,Laumans who use diversity-based heuristics for a better sampling of the Pareto front, diversity is thus used in MoMOO to redefine and extend the set of solutions. 2.4 Discussion Functional brain imaging sets two specific requirements on spatio-temporal data mining. First, the expert’s requirements are subject to change. Much background knowledge is involved in the manual extraction of stable spatio-temporal patterns, e.g. about 220 Multi-objective multi-modal optimization approach the expected localization of the active brain areas. A flexible approach, accommodating further criteria and allowing the user to customize the search (in particular, tuning the thresholds on the minimal spatial or temporal amplitudes, or spatio-temporal alignment) is thus highly desirable. Second, the approach must be scalable with respect to the data size (number of measure points and temporal resolution). Although the real data size is currently limited, the computational cost must be controllable in order to efficiently adjust the user-supplied parameters ; in other words, the mining algorithm must be an any-time algorithm iciteZilberstein. The approach proposed is therefore based on evolutionary algorithms (EAs) ; these are widely known as stochastic, population-based optimization algorithms iciteBaeckbook,Goldberg :02 that are highly flexible. In particular, EAs address multi-modal optimization iciteMulti-modal and they can be harnessed to sample the whole Pareto front associated to a set of optimization criteria, with a moderate overhead cost compared to the standard approach (i.e., optimizing a weighted sum of the criteria gives a single point of the Pareto front) iciteDeb :book. Last, the computational resources needed by EAs can be controlled in a straightforward way through limiting the number of generations and/or the population size. 3 Overview of 4D-Miner This section describes the 4D-Miner algorithm designed for the detection of stable spatio-temporal patterns. 3.1 Initialization Following iciteDaida :GECCO99, special care is devoted to the initialization of this evolutionary algorithm. The extremities of the Pareto front, where STPs display a high correlation (respectively, a low correlation) on a small spatio-temporal region (resp. a wide region), do not fulfill the expert’s expectations. Accordingly, some user-supplied thresholds are set on the minimal spatio-temporal amplitude and alignment. In order to focus the search on relevant STPs, the initial population is generated using the initialization operator, sampling patterns X = (i, w, I, r) as follows : – Center i is uniformly drawn in [1, N ] ; – Weight vector w is set to (1, 1, 1) (initial neighborhoods are based on Euclidean distance) ; – Interval I = [t1 , t2 ] is such that t1 is drawn with uniform distribution in [1, T ] ; the length t2 − t1 of Ij is drawn according to a Gaussian distribution N (minℓ , minℓ /10), where minℓ is a time length threshold2. – Radius r is deterministically computed from a user-supplied threshold minσ , corresponding to the minimal I-alignment desired. I r = mink {dw (i, k) s.t. σi,k > minσ )} 2 In case t2 is greater than T , another interval I is sampled. 221 CAp 2005 All patterns X whose spatial amplitude a(X) is less than a user-supplied threshold mina are non-admissible ; they will not be selected to generate new offspring. The user-supplied thresholds thus govern the proportion of usable individuals in the initial population. The computational complexity is in O(P × N × minℓ ), where P is the population size, N is the number of measure points and minℓ is the average length of the intervals. 3.2 Variation operators From parent X = (i, w, I, r), mutation generates an offspring by one among the following operators : – replacing center i with another measure point in B(i, w, r) ; – mutating w and r using self-adaptive Gaussian mutation iciteBaeck-book ; – incrementing or decrementing the bounds of interval I ; – generating a brand new individual (using the initialization operator). The crossover operator, starting from parent X, first selects the mate pattern Y = (i′ , w′ , I ′ , r′ ) by tournament selection, Y minimizing the sum of the euclidean distance between i and i′ , and the distance between the center of I and I ′ among K patterns uniformly selected in the population, where K is set to P/10 in all the experiments. The offspring is generated by : – replacing i with the center i′ of the mate pattern Y ; – replacing w (resp. r) using an arithmetic crossover of w and w′ (respectively r and r′ ) ; – replacing I by the smallest interval containing I and I ′ . An offspring is said admissible iff it satisfies the user-supplied thresholds mentioned in the initialization step. 3.3 Selection scheme A Pareto archive is constructed with size L (set to 10 ×P in the experiments). A steady-state scheme is used ; at each step, an admissible parent X is selected among K uniformly drawn individuals in the population, by retaining the one which is dominated by the fewest individuals in the archive (Pareto tournament iciteDeb :book). A single offspring Y is generated from X by applying a variation operator among the ones mentioned above. Offspring Y is evaluated by computing criteria a(Y ), ℓ(Y ), σ(Y ). Y is rejected if it is mo-Pareto dominated in the population ; otherwise, it replaces a non-admissible individual in the population if any ; if none it replaces an individual selected after antiPareto tournament (the individual out of K randomly selected ones in the population, that is dominated by the most individuals in the archive). The archive is updated every P generations, replacing the mo-Pareto dominated individuals in the archive with individuals selected from the population after Pareto tournament. 222 Multi-objective multi-modal optimization approach 4 Experimental setting and goal This section presents the goal of the experiments, describes the artificial and realworld datasets used, and finally gives the parameters of the algorithm and the performance measures used to evaluate the algorithm. 4.1 Goals of experiments and datasets The initial goal is to provide the expert with a usable STP detection algorithm. The real datasets have been collected from people observing a moving ball. Each dataset involves 151 measure points and the number of time steps is 875. As can be noted from Fig. 1, which shows a representative dataset, the amplitude of the activities widely vary along the time dimension. The other goal is to assess the scalability and the performances of 4D-Miner, which is done using artificial datasets. The artificial datasets are generated as follows. N measure points are located in uniformly selected locations in the 3D domain [0, 1]3 . Activities are initialized from random cumulative uniform noise, with Ci (t + 1) = Ci (t) + ǫ, and ǫ is drawn according to U (0, τ ). Every target STP S = (i, w, I, r, δ) is defined from a center i, a weight vector w, a time interval I, a radius r, and a fading factor δ, used to bias the activities as detailed below. The activity CS of the STP S is the average activity in the spatio-temporal region B(i, w, r) × I. Thereafter, activities are biased according to the target STPs : for each measure point j, for each STP S such that j is influenced by S (dw (i, j) < r), the activity Cj (t) is smoothed as where Cj (t) = (1 − e−αi (j,t) )Cj (t) + e−αi (j,t) CS αi (j, t) = dw (i, j) + δ × d(t, I) and d(t, I) is the distance of t to interval I (0 if t belongs to I, otherwise the minimum distance of t to the bounds of I). The scalability of 4D-Miner is assessed from its empirical complexity depending on the number N of measure points and the number T of time steps. The performances of 4D-Miner are measured using the standard criteria in information retrieval, recall and precision. The recall is the fraction of target STPs that are identified by 4D-Miner, i.e. p-included in an individual in the archive ; the precision is the fraction of relevant individuals in the archive (p-included in a target STP). For each experimental setting (see below), the recall and precision are averaged over 21 independent runs. The number of target STPs is set to 10 in all experiments. Each STP influences a number of measure points varying in [10,20], during intervals uniformly selected in [1, T ] with length varying in [15, 25], and δ uniformly selected in [0, .05]. Each problem instance thus includes STPs with various levels of difficulty ; the detection is hindered as the spatio-temporal support (r and I) is comparatively low and the δ parameter increases (the regularity is not visible outside interval I, as in Fig 2). 223 CAp 2005 Artificial STP 1.5 Activity 1 0.5 0 0 500 1000 1500 2000 Time F IG . 2 – An artificial STP (T = 2000, N = 2000) 4.2 Experimental setting The experiments reported in the next section considers a population size P = 200, evolved along 8000 generations (8,000 fitness evaluations per run). A few preliminary runs were used to adjust the operator rates ; the mutation and crossover rates are respectively set to .7 and .3. The number N of measure points ranges in {500, 1000, 2000, 4000}. The number T of time steps ranges in {1000, 2000, 4000, 8000}. The thresholds used in the initialization are : mina = 5 (minimum number of curves supporting a pattern) ; minℓ = 5 (minimum temporal amplitude of a pattern) ; minσ = .1 (minimum spatio-temporal alignment of two curves in a pattern). For computational efficiency, the p-inclusion is computed as : X is p-included in Y if the center i of X belongs to the spatial support of Y , and there is an overlap between their time intervals. The maximal size of the datasets (T = 8000, N = 4000) is 456 Mo. Computational runtimes are given on PC-Pentium IV, 2.4 GHz. 4D-Miner is written in C++ . 5 Experimental validation This section reports on the experiments done using 4D-Miner. 5.1 Experiments on real datasets Typical STPs found in the real datasets are shown in Figs. 3 and 4, showing all curves belonging to the STP plus the time-window of the pattern. The runtime is less than 1 minute (PC Pentium 1.4 GHz). As discussed in section 2.3, many relevant STPs are Pareto-dominated : typically the STP shown in Fig 3 is dominated by the one in Fig 4. 224 Multi-objective multi-modal optimization approach Stable spatio-temporal pattern Activity 100 0 -100 100 500 300 700 Time F IG . 3 – A stable spatio-temporal pattern, involving 8 measure points within interval [289,297], alignment .2930 These patterns are considered satisfactory by the expert. All experiments confirm the importance of the user-defined thresholds, controlling the quality of the initial population. Due to the variability of the data, these threshold parameters are adjusted for each new experiment. The coarse tuning of the parameters can be achieved based on the desired proportion of admissible individuals in the initial population. However, the fine-tuning of the parameters could not be automatized up to now, and it still requires running 4D-Miner a few times. For this reason, the control of the computational cost through the population size and number of generations is one of the key features of the algorithm. Stable spatio-temporal pattern 100 Activity 50 0 -50 100 500 300 700 Time F IG . 4 – Another stable spatio-temporal pattern involving 9 measure points within interval [644,664], alignment .3963 225 CAp 2005 5.2 Multi-objective multi-modal optimization The good scalability of 4D-Miner is illustrated in Fig. 5. The empirical complexity of the approach is insensitive to the number of time steps T and linear in the number N of measure points. This computational robustness confirms the analysis (section 3.1), the evaluation of each pattern has linear complexity in N . On-going work is concerned with exploiting additional data structures inspired from iciteYu in order to decrease the complexity in N . Computational Cost T T T T runtime (sec.) 200 = = = = 1000 2000 4000 8000 100 0 2000 1000 0 3000 4000 N F IG . 5 – Computational cost vs N , for T = 1000, 2000, 4000, 8000. (in seconds, on PC 2.4 GHz) Table 1 reports the recall achieved by 4D-Miner over the range of experiments, averaged over 21 independent runs, together with the standard deviation. N 500 1000 2000 4000 T 1,000 98 ± 5 96 ± 6 96 ± 5 89 ± 10 2,000 93 ± 9 96 ± 6 87 ± 12 81 ± 13 4,000 92 ± 7 82 ± 14 72 ± 14 56 ± 14 8,000 79 ± 16 67 ± 12 49 ± 15 32 ± 16 TAB . 1 – Recall achieved by 4D-Miner vs N and T (average percentage and standard deviation over 21 runs) On-line performances are illustrated on Fig 6. These results confirm the robustness of the proposed approach : a graceful degradation of the recall is observed as T and N increase. It must be noted that STPs occupy a negligible fraction of the spatio-temporal domain (circa 10−4 for T = 8000, N = 4000). The average precision is low, ranging from 12 to 20% (results omitted due to space limitations). However, post-pruning can be used to sort the wheat from the chaff in the final archive, and increase the precision up to 50% without decreasing the recall ; the 226 Multi-objective multi-modal optimization approach Recall 1 4D-Miner Recall, T = 4000 0.5 0 4 1. 10 4 4 5. 10 3. 10 Fitness evaluations 4 7. 10 F IG . 6 – Recall achieved by 4D-Miner vs the number of fitness evaluations. (T = 4000, N = 500, 1000, 2000, 4000, average over 21 runs). post-pruning straightforwardly removes the STPs with small spatial or temporal amplitudes. Quite different effects are obtained when the archive is pruned along the search (e.g. by increasing the thresholds on the minimal spatial and temporal amplitudes), which decreases the overall performances by an order of magnitude ; interestingly, similar effects are observed in constrained evolutionary optimization when the fraction of admissible solutions is very low. A final remark is that the performances heavily depend upon the user-supplied thresholds (section 3.1), controlling the diversity and effective size of the population. Indeed, a parametric model of the dataset would enable automatic adjustment of these parameters. It might also be viewed as a advantage of 4D-Miner that it does not require any prior model of the data, and that inexpensive preliminary runs can be used to adjust the needed parameters. 6 Relevant work This brief review does not claim exhaustiveness ; the interested reader is referred to iciteSpatial,TEMPORAL for comprehensive surveys. Spatio-temporal data mining applications (e.g., remote sensing, environmental studies, medical imaging) are known to be computationally heavy ; as most standard statistical methods do not scale up properly, new techniques have been developed, including randomized variants of statistical algorithms. Many developments are targeted at efficient access primitives and/or complex data structures (see, e.g., iciteYu) ; another line of research is based on visual and interactive data mining (see, e.g., iciteKeim), exploiting the unrivaled capacities of human eyes for 227 CAp 2005 spotting regularities in 2D-data. Spatio-temporal data-mining mostly focuses on clustering, outlier detection, denoising, and trend analysis. For instance, icitePadraic used EM algorithms for nonparametric characterization of functional data (e.g. cyclone trajectories), with special care regarding the invariance of the models with respect to temporal translations. The main limitation of such non-parametric models, including Markov Random Fields, is their computational complexity, sidestepped by using randomized search for model estimates. 7 Discussion and Perspectives This paper has proposed a stochastic approach for mining stable spatio-temporal patterns. Indeed, a very simple alternative would be to discretize the spatio-temporal domain and compute the correlation of the signals in each cell of the discretization grid. However, it is believed that the proposed approach presents several advantages compared to the brute force, discretization-based, alternative. First of all, 4D-Miner is a fast and frugal algorithm ; its good performances and scalability have been successfully demonstrated on medium sized artificial datasets. Second, data mining applications specifically involve two key steps, exemplified in this paper : i) understanding the expert’s goals and requirements ; ii) tuning the parameters involved in the specifications. With regard to both steps, the ability of working under bounded resources is a very significant advantage ; any-time algorithms allow the user to check whether the process can deliver useful results, at a low cost. Further research is concerned with extending 4D-Miner in a supervised learning perspective (finding the STPs that are complete − active in several persons undergoing the same experiment − and correct − not active in the control experiment). The challenge is to directly handle the additional constraints of completeness and correction in the multi-objective multi-modal optimization framework presented here. Références T. Bäck. Evolutionary Algorithms in theory and practice. New-York :Oxford University Press, 1995. S. Bhattacharyya, Evolutionary algorithms in data mining : multi-objective performance modeling for direct marketing. Proceedings of KDD, pp 465-473, 2000. D. Chudova, S. Gaffney, E. Mjolsness, and P. Smyth. Translation-invariant mixture models for curve clustering. In KDD’03, pages 79–88. ACM Press, 2003. D. Corne, J. D. Knowles, and M. J. Oates. The Pareto envelope-based selection algorithm for multi-objective optimisation. In PPSN VI, pages 839–848. Springer Verlag, 2000. J.M. Daida. Challenges with verification, repeatability, and meaningful comparison in Genetic Programming. In GECCO’99, pages 1069–1076. Morgan Kaufmann, 1999. K. Deb. Multi-Objective Optimization Using Evolutionary Algorithms. John Wiley, 2001. 228 Multi-objective multi-modal optimization approach D. Francisci, M. Collard, Multi-Criteria Evaluation of Interesting Dependencies according to a Data Mining Approach, Proceedings of the 2003 Congress on Evolutionary Computation (CEC’2003), Vol. 3, pp. 1568-1574, IEEE Press, Canberra, Australia, 2003. A. Ghosh and B. Nath. Multi-objective rule mining using genetic algorithms. Inf. Sci., 163(13) :123–133, 2004. D. Goldberg. The Design of Innovation : Lessons from and for Genetic and Evolutionary Algorithms. MIT Press, 2002. A. Hyvarinen, J. Karhunen, and E. Oja. Independent Component Analysis. Wiley New York, 2001. M. Hämäläinen, R. Hari, R. Ilmoniemi, J. Knuutila, and O. V. Lounasmaa. Magnetoencephalography : theory, instrumentation, and applications to noninvasive studies of the working human brain. Rev. Mod. Phys, 65 :413–497, 1993. B. de la Iglesia, M.S. Philpott, A.J. Bagnall, V.J. Rayward-Smith, Data Mining Using MultiObjective Evolutionary Algorithms, Proceedings of the 2003 Congress on Evolutionary Computation (CEC’2003), Vol. 3, pp. 1552-1559, IEEE Press, Canberra, Australia, 2003. D. A. Keim, J. Schneidewind, and M. Sips. Circleview : a new approach for visualizing timerelated multidimensional data sets. In Proc. of Advanced Visual Interfaces, pages 179–182. ACM Press, 2004. M. Laumanns, L. Thiele, K. Deb, and E. Zitsler. Combining convergence and diversity in evolutionary multi-objective optimization. Evolutionary Computation, 10(3) :263–282, 2002. J.-P. Li, M. E. Balazs, G. T. Parks, and P. J. Clarkson. A species conserving genetic algorithm for multimodal function optimization. Evolutionary Computation, 10(3) :207–234, 2002. D. Pantazis, T. E. Nichols, S. Baillet, and R.M. Leahy. A comparison of random field theory and permutation methods for the statistical analysis of meg data. Neuroimage, 2005. J.F. Roddick and M. Spiliopoulou. A survey of temporal knowledge discovery paradigms and methods. IEEE Trans. on Knowledge and Data Engineering, 14(4) :750–767, 2002. C. Saunders, D. R. Hardoon, J. Shawe-Taylor, and G. Widmer. Using string kernels to identify famous performers from their playing style. In ECML04, pages 384–395. Springer Verlag, 2004. S. Shekhar, P. Zhang, Y. Huang, and R. R. Vatsavai. Spatial data mining. In H. Kargupta and A. Joshi, eds, Data Mining : Next Generation Challenges and Future Directions. AAAI/MIT Press, 2003. K.L. Wu, S.K. Chen, and P.S. Yu. Interval query indexing for efficient stream processing. In 13th ACM Conf. on Information and Knowledge Management, pages 88–97, 2004. S. Zilberstein. Resource-bounded reasoning in intelligent systems. Computing Surveys, 28(4), 1996. 229 230 Clustering gene expression series with prior knowledge Laurent Bréhélin 1 Unité de Biochimie & Physiologie Moléculaire des Plantes, 2, Place Viala, 34060 Montpellier Cedex 1, France 2 Laboratoire d’Informatique, Robotique et Microélectronique de Montpellier, 161, rue Ada, 34392 Montpellier Cedex 5, France brehelin@lirmm.fr Résumé : Les biopuces permettent de mesurer le niveau d’expression de milliers de gènes au cours du temps. Ces séries d’expression de gènes constituent un matériel unique pour la compréhension des mécanismes de régulation cellulaire. Récemment, des algorithmes de classification de gènes prenant en compte les dépendances entre les temps ont été proposées. Dans cet article, nous étudions comment étendre ce genre d’approche en intégrant des connaissances a priori approximatives de certains profils temporels afin d’améliorer la détection des classes de gènes les plus intéressantes. Nous proposons une approche bayésienne de ce problème. Un modèle de mélange est utilisé pour décrire et classer les données. Les paramètres de ce modèle sont contraints par une distribution a priori définie grâce à un nouveau type de modèles —proche des modèles de Markov cachés— qui exprime les connaissances a priori des profils les plus intéressants. Lorsque ces connaissances ne sont pas disponibles, la méthode permet simplement de traiter les dépendances temporelles d’une manière très naturelle. Un algorithme EM estime les paramètres du modèle de mélange en maximisant sa probabilité a posteriori. On observe expérimentalement que cette approche est d’utilisation aisée, et que l’incorporation de connaissances a priori permet de mettre en évidence les principales classes intéressantes, même lorsque celles-ci sont très réduites au regard de tous les autres gènes. Informations supplémentaires : http://www.lirmm.fr/˜brehelin/CAp05.pdf 1 Introduction Technological advances such as microarrays allow us to simultaneously measure the level of expression of thousands of genes in a given tissue at a given moment. These measurements can be repeated on different tissues, different biological organisms, or at different times during the life of the same organism to constitute a collection of gene 231 CAp 2005 expression measurements. These collections are a unique material for understanding various cellular regulation mechanisms. These collections are either ordered or nonordered. A non-ordered collection may, for example, be a set of measurements on different patients with a given form of cancer (Alon et al., 1999), or on plants growing on different substrates. Ordered collections generally consist of series of gene expressions measured over a time course —for example along the cell cycle (Spellman et al., 1998). The order is generally defined by time, but it may also be induced by other numerical features. In (Hertzberg et al., 2001) for example, the expression levels are measured at different depths of the stem of poplar trees. In other studies, measurements are obtained on cells exposed to increasing concentrations of a given factor (light, chemical product, etc). In the following, such a series of gene expression measurements is called an expression series, and we speak about the different time points of the series, even if the order is not temporal. One common problem of gene expression data analysis is the identification of coregulated genes. This problem naturally turns into a gene clustering problem. Until recently, expression series have been analyzed with methods that do not take the time dependences into account. Such methods include hierarchical clustering with Euclidean distance (Eisen et al., 1998), k-means approaches (Lloyd, 1982; Herwig et al., 1999) and the Self Organizing Maps (Kohonen, 1997; Tamayo et al., 1999). Since these methods are unable to explicitly deal with the data order, permuting two or more time points in all series does not change the clustering result. A few methods specially adapted to expression series have recently been proposed. These methods involve probabilistic modeling of the data. For example, (Ramoni et al., 2002) use autoregressive models of order p. (Bar-Joseph et al., 2003) use cubic splines with a probabilistic component to model the classes, while (Schliep et al., 2003) model each class of gene with Hidden Markov Models (HMMs) (Rabiner, 1989). Our aim here is to investigate how to explicitly use rough prior knowledge about the general shape of interesting classes. By general shape, we mean elementary and potentially incomplete information about the evolution of the mean expression level of the classes over time. This can, for example, be knowledge like: “Classes with increasing expression level”, “Classes with bell curve shapes”, “Classes with high expression level in the beginning of the series”, etc. Of course we do not know the profile of all the gene classes, but sometimes we are more concerned with one or more classes. For example, in the study of (Spellman et al., 1998) on the Yeast cell cycle, the authors are interested in finding the cycle-regulated genes, and thus look for sinusoidal shape classes. In a similar way, we sometimes search for genes which tend to be quickly over(or under-) expressed at the beginning of the series —in response to a given treatment, for example. Our idea is that incorporating such (even rough) knowledge can improve the clustering result, especially when the classes of interest are very sparse with regard to all the other genes. The approach we propose here tackles this problem. When information about one or several class shapes are available, these are directly integrated into the model, thus favoring classes with the desired profiles, and putting the other genes in separate classes. On the other hand, when no a priori information is available, the method allows a classical clustering of the series. This is done by explicitly dealing with the temporal nature 232 Clustering gene expression series with prior knowledge of the data, in a very intuitive way and without any assumption about a predetermined analytical form which can be difficult to estimate when the number of time points is low. We use a Bayesian approach for this purpose. The approach involves two types of models. The first one is a probabilistic mixture model used to describe and classify the expression series. Parameters of this model are unknown and have to be estimated for the clustering. A second model, close to the HMMs and called HPM —for Hidden Phase Model—, is used to express our a priori knowledge (or simply the temporal feature of the data). We define two types of HPMs which can be used according to the situation: probabilistic and non-probabilistic HPMs. These models are completely specified by the user, and their parameters do not have to be estimated. They are used to define a prior probability distribution over the parameters of the mixture model. These parameters are estimated by maximizing the posterior probability of the model through an EM algorithm (Dempster et al., 1977). The next section presents our method, the mixture model, the two types of HPMs and the learning algorithm. In Section 3 we evaluate and experiment our method on two datasets. We conclude and propose future work directions in Section 4. 2 Method 2.1 Principle Let X be a set of N expression series of length T . We assume that the data arise from a mixture model (McLachlan & Krishnan, 2000) with P C components. We denote πc as the prior probability of component c, and we have C c=1 πc = 1. We assume that conditionally to component c, expression values at each time t ∈ [1, T ] are independent and 2 . The shape of component follow a Gaussian distribution of mean µct and variance σct c is defined by the sequence of means µc1 . . . µcT . We then have a probabilistic model 2 2 of parameters Θ = (π1 , . . . , πC , θ1 , . . . , θC ) with θc = (µc1 , . . . , µcT , σc1 , . . . , σcT ). The probability of an expression series X = x1 . . . xT in this model is P (X|Θ) = C X c=1 2 P (xt |µct , σct ) πc T Y 2 P (xt |µct , σct ), t=1 2 N (xt ; µct , σct ). with = Under the assumption that series of X are independent, the likelihood of Θ is given by Y P (X|Θ). (1) L(Θ|X ) = P (X |Θ) = X∈X In a clustering task, the standard approach to classify a set of expression series X involves estimating parameters Θ that maximize Formula (1) (Maximum Likelihood Principle), and then assigning the most probable component cMAP (MAP stands for maximum a posteriori) to each series X ∈ X : cMAP = argmax P (c|X, Θ) = argmax πc P (X|c, Θ) c=1...C c=1...C 233 (2) CAp 2005 Note that finding parameters Θ that maximize (1) is a difficult task. However, approximate solutions can be inferred with EM algorithms (Dempster et al., 1977). The above mixture model does not explicitly take into account the potential dependences between times, nor any prior knowledge about the profile of the most interesting classes. Our aim is to constraint one or some components to follow a given profile, while leaving the other components free of constraints so that they can “collect” the expression series that do not have the desired profile. For example, if we are looking for classes with bell curves, we would build a 10 component model, with 5 bell-constrained and 5 unconstrained components. We thus propose to use a Bayesian approach, which introduces knowledge by way of a prior distribution of Θ —see for example (Duda et al., 2001) for a general introduction to Bayesian theory. Simply speaking, our idea is to define a prior distribution P (Θ) which is merely the product of the prior probability of the sequences of means µc1 . . . µcT associated with each component. Moreover, we want the prior probability of a given mean sequence for component c as follows: (i) the more the sequence agrees with the constraints associated with c, the higher its prior probability; (ii) sequences that disagree with the constraints have probability zero. With a prior, we can write the posterior probability of Θ as P (Θ|X ) = P (X |Θ)P (Θ) ∝ P (X |Θ)P (Θ). P (X) (3) In this Bayesian framework, parameters Θ are estimated by maximizing the posterior probability —Equation (3)— instead of the likelihood —Expression (1). However, maximizing the posterior probability is generally more difficult than maximizing the likelihood. For example, the classical re-estimation formulae of the EM algorithm do not directly apply and, depending on the form of the chosen prior distribution, it may be hard to perform the task in reasonable time. In our case, we first discretize the space of the means µct in order to be able to introduce various bits of knowledge and constraints about the profiles, as well as to efficiently estimate the parameters of the model. Since we know the maximal and minimal expression values taken by the series in X (say xmax and xmin ), we already know an upper and lower bound of the space of the means. Now we discretize this space in M equidistant steps, so that the lower and higher steps are equal to xmin and xmax , respectively. Of course M is chosen to be sufficiently large (e.g. M = 30) to allow accurate representation of the data. Steps are named by their number, so M is the highest step. In this discretized mean space, our probabilistic model is re2 2 , . . . , σcT ), with defined as Θ = (π1 , . . . , πC , θ1 , . . . , θC ) with θc = (lc1 , . . . , lcT , σc1 lct ∈ {1, . . . , M }. We denote m : {1, . . . , M } → [xmin , xmax ] as the map function that associates step l with its expression level. The probability of an expression series X ∈ X is rewritten as P (X|Θ) = C X πc c=1 2 P (xt |lct , σct ) 2 N (xt ; m(lct ), σct ) T Y 2 P (xt |lct , σct ), t=1 with = that follows a Gaussian distribution of mean 2 equal to the level of expression associated with step lct , and variance σct . In the following, the step sequence lc1 . . . lcT associated with class c —and which defines its 234 Clustering gene expression series with prior knowledge shape— is denoted as Lc . Note finally that the discretization only involves the means of the model, and not the space of the expression levels of the data. These, as well as 2 the model variances σct , remain in a continuous space. In the next section, we show how to define the prior distribution of parameters Θ. Section 2.3 details the EM algorithm used to estimate these parameters in maximizing Expression (3). 2.2 Defining the prior distribution Fist we define a new type of model called Hidden Phase Models (or HPMs), close to models like HMMs and finite automata. These HPMs are used to express the desired profiles of the components, and each component c is then associated with a given HPM Hc . We define two types of HPMs: probabilistic and non-probabilistic HPMs. We next show how to derive the prior distribution of Θ from the HPMs. 2.2.1 Hidden Phase Models The general assumption behind HPMs is that the genes of a given component pass through phases or biological states over the time. This means that, for a given component, we assume that some ranges of consecutive times actually correspond to the same biological state. These phases are hidden, but they affect the mean expression level evolution of the component. For example, some phases induce an increase in the mean level expression level while others tend to decrease or stabilize the level. In the same manner, the increase (or decrease) can be high for some phases and low for others, etc. A (non-probabilistic) HPM is defined by a quadruplet (S, δ, ǫ, τ ), where • S is a set of states representing the different phases; S contains two special states, start and end, which are used to initiate and conclude a sequence, respectively. • δ : S × S 7→ {0, 1} is a function describing the authorized transitions between states. We denote Out(s) as the set of states that can be reached from s. Note that if s ∈ Out(s) then there is a loop on state s. • ǫ is a function that associates each state s ∈ S with an interval of integers defining the minimal and maximal differences of steps that can be observed between times t and t − 1 when genes are in state s at time t. For example, if ǫ(s) = [1, 3], this means that if the genes of the component are in phase s at time t then the step difference (lt − lt−1 ) is between 1 and 3 (so phase s increases the expression level). • τ is a function that associates each state s ∈ S with the interval of time the state can be reached. For example, if τ (s) = [3, 5] then the genes can be in state s between times 3 and 5 included. An HPM example is depicted in Figure 1. Now we can see how to express our prior knowledge with an HPM. Actually an HPM defines a set of compatible step sequences. We say that a step sequence L = l1 . . . lT is 235 CAp 2005 start [+1, +M ] [1, 7] [0, 0] [4, 7] [−M, −1] [4, 9] A S D end Figure 1: An HPM for clustering 9-time expression series. In each state, upper and lower intervals represent the step-difference and time intervals associated with the state, respectively. This HPM induces bell curve shapes. compatible with an HPM H if there is a state sequence s0 . . . sT +1 —with s0 = start and sT +1 = end— in H, which is compatible with L. And we say that a state sequence s0 . . . sT +1 is compatible with L iff for each time 1 ≤ t ≤ T we have: 1. t included in the time interval τ (st ); 2. ∀t ≥ 2, (lt − lt−1 ) included in ǫ(st ); for t = 1, as we do not know l0 , the genes can be in any phase so s1 can be any state. Considering the step sequence on the top of Figure 2, a compatible phase sequence in the HPM of Figure 1 is, for example, start − A − A − A − A − S − D − D − D − D − end. For the step sequence on the right, there is no compatible phase sequence in this HPM. In brief, building an HPM involves designing an HPM such that the compatible sequences have the desired profile. For example, the HPM of Figure 1 is well suited for the discovery of bell curve classes. 2.2.2 Probabilistic HPMs Non probabilistic HPMs can be used to express strong constraints. They are generally sufficient to express knowledge about simple or well defined profiles. For more complex knowledge, or when we do not have any information about profiles and just want to express the fact that we are dealing with series data, these models can be unsuitable. Then probabilistic HPMs can be more suitable. A probabilistic HPM is defined by a quintuplet (S, δ, ǫ, τ, w), where S, δ, ǫ, and τ are the same as for non-probabilistic HPMs, and w : S × S 7→ R+ is a function associating a weight with each authorized transition. These weights are used to compute the transition probabilities from state to state. Due to the time constraints associated with the states by way of the τ function, transition probabilities are time dependent, so we cannot simply label transitions with a probability as is done for classical HMMs. In contrast, the probability, denoted as P (s|s′ , t), to reach state s from state s′ at time t is computed as follows: ( 0 if t ∈ /τ (s);  ′ P P (s|s , t) = (4) ′′ w(s)/ s′′ ∈Out(s′ ) | t∈τ (s′′ ) w(s ) else. One example of probabilistic HPM is depicted in Figure 2. Probabilistic HPMs also define compatible step sequences. Moreover, all compatible sequences do not have the same probability. Let H be a probabilistic HPM and S = 236 Clustering gene expression series with prior knowledge M 10 [−M, −1] D [1, T ] 1 1 10 1 start 1 1 [+1, +M ] [1, T ] I 1 1 1 end 1 1 1 M T 11 T 1 [0, 0] [1, T ] 1 S 10 Figure 2: Left, a probabilistic HPM for clustering expression series without prior knowledge about the form of the profiles. Right, two examples of step sequences. s0 , s1 . . . sT , sT +1 a state sequence in this HPM. The probability of this sequence given H is defined by P (S|H) = TY +1 P (st |st−1 , t). (5) t=1 This model enables us to introduce more knowledge about the desired classes. For example, when we do not have any information about interesting profiles, the only thing we know is that we have to classify expression series. This means that we are seeking relatively “regular” profiles, in contrast to chaotic spiky profiles as that depicted on the bottom of Figure 2. This knowledge can be easily expressed with the probabilistic three-states HPM of Figure 2: one state (I) induces increasing steps, one (D) induces a decrease, and the last (S) induces stability. Moreover, it is assumed that, at each time, the probability of staying in the same state is higher than the probability of departure from it (weights on loops are higher than on other transitions). This HPM is compatible with any step sequence of length 9. However all sequences do not have the same probability, and spiky sequences involving many state changes are not favored. Note that given a step sequence L, there are potentially many state sequences compatible with L. In reference to the HMM literature, the sequence of phases compatible with L which has the highest probability is called the Viterbi sequence of L (Rabiner, 1989), and is denoted as V L = v0L . . . vTL+1 . For example, the Viterbi sequences of the two step sequences of Figure 2 in the HPM of Figure 2, are start − I − I − I − I − S − D − D − D − D − end and start − I − I − D − I − D − S − I − D − I − end, respectively. 2.2.3 Defining prior with HPMs 2 First we assume that prior probabilities of parameters πc , Lc and σct are independent, as 2 2 well as the C sets of parameters Lc and (σc1 , . . . , σcT ), i.e., the probability distribution 237 CAp 2005 can be written as: P (Θ) = P (π1 , . . . , πC ) C Y P (Lc ) c=1 C Y 2 2 P (σc1 , . . . , σcT ). c=1 2 2 Next we assume that distributions P (π1 , . . . , πC ) and P (σc1 , . . . , σcT ) are uninformative and that probabilities P (Lc ) are the only ones that express our knowledge. Let c be a component and Hc a non probabilistic HPM associated with this class. A prior distribution of parameters Lc can be defined with Hc by assuming that the step sequences incompatible with Hc have probability zero while compatible sequences have all the same probability, i.e.,  0 if L is incompatible with Hc ; P (L|Hc ) = (6) Kc else, P with Kc such that L∈LT P (L) = 1, with LT being the set of length T sequences. For probabilistic HPM, we want the prior probability of a step sequence L to be proportional to the Viterbi sequence of L in Hc . Then, we set  0 if L is incompatible with Hc ; (7) P (L|Hc ) = Kc′ · P (V L |Hc ) else, P with Kc′ such that L∈LT P (L) = 1. For example, for the HPM of Figure 2, the prior probabilities of the two step sequences are proportional to 1/3 · .7 · .7 · .7 · .1 · .1 · .7 · .7 · .7 · .1 ∼ 3.9 · 10−5 and 1/3 · .7 · .1 · .1 · .1 · .1 · .1 · .1 · .1 · .1 ∼ 2.3 · 10−10 , respectively. The spiky sequence is then less likely than the other one, which agrees with our prior intuition. A prior distribution of the step sequences of length T can then be defined with a probabilistic or a non-probabilistic HPM. In practice, one or more components can be associated with a given HPM (e.g. that of Figure 1), and the other ones with a less informative HPM like that of Figure 2. We then have P (Θ) ∝ C Y P (Lc |Hc ). (8) c=1 2.3 Learning Here we briefly describe the learning algorithm used to estimate parameters Θ of the mixture model. A more detailed version can be found in the supplementary information material1 . It is an EM algorithm that searches for parameters that maximize Expression (3). We only give the algorithm used for probabilistic HPMs, since that for non-probabilistic ones can be easily adapted. Let us first define the complete-data likelihood. Likelihood of Expression (1) is actually the incomplete-data likelihood, since the real components of series X ∈ X are unknown. Under the assumption that this set of components C = {cX ∈ {1, . . . , C}, ∀X ∈ 1 http://www.lirmm.fr/˜brehelin/CAp05.pdf 238 Clustering gene expression series with prior knowledge X } is known, the complete-data likelihood can be written as L(Θ|X , C) = P (X , C|Θ) = Y πcX X∈X T Y P (xt ; lcX t , σc2X t ). t=1 The EM algorithm is an iterative algorithm that starts from an initial set of parameters Θ(0) , and iteratively reestimates the parameters at each step of the process. Let Q(Θ, Θ(i) ) denote the expectation, on the space of the hidden variables C, of the logarithm of the complete-data likelihood, given the observed data X and parameters Θ(i) at step i: X log P (X , C|Θ)P (C|X , Θ(i) ), Q(Θ, Θ(i) ) = C∈C with C being the space of values C can take. From (Dempster et al., 1977), one can maximize Expression (3) by searching at each step of the algorithm for parameters πc∗ , 2∗ that maximize the quantity L∗c and σct Q(Θ, Θ(i) ) + log P (Θ). (9) Since P (Θ) is not related to the parameters πc , after some calculus, an expression can be derived for πc∗ that maximizes Expression (9): πc∗ = 1 X P (c|X, Θ(i) ). |X | (10) X∈X 2 Now, due to our independence assumptions, one can estimate the Lc and σct that maxi2 are mize Expression (9) for each component c independently. As for parameters πc , σct 2 not involved in the expression of P (Θ). Moreover, since the σct associated with time t 2∗ is independent of all the other times, the expression of σct that maximizes (9) depends ∗ ∗ solely on the step lct in Lc : 2∗ σct = P ∗ 2 )) P (c|X, Θ(i) ) − m(lct . (i) X∈X P (c|X, Θ ) X∈X (xt P (11) For Lc the situation is quite different since it is involved in the expression of P (Θ). The Lc that maximizes Expression (9) depends both on the data and on its Viterbi ∗ path in Hc and hence the different steps lct of L∗c cannot be estimated independently. However, the step space is of finite size, so the space of the step sequences of length T is also finite. One way to compute the new Lc would be to enumerate all possible step sequences and then select the one that maximizes Expression (9). However, as the total number of length T sequences is equal to M T , enumerating them all is clearly not suitable. Instead, we use a dynamic programming approach that iteratively computes the best sequence without enumerating all the solutions. Briefly, for each step l and each time t, we compute iteratively, from t = 1 to T , the best sequence —with regard to Expression(9)— that ends on step l at time t. At each iteration and for each step l, 239 CAp 2005 this best sequence is computed using the results of the previous iteration, and at the end of the process the best sequence L∗c has thus been computed in polynomial time. The learning algorithm is depicted in Algorithm 1. When no better solution is available, the initial parameter values can be set randomly. Thanks to the EM properties, the posterior probability P (Θ|X ) —and hence P (X |Θ)P (Θ)— increases at each loop of the algorithm, until a local optimum is reach. Then it continues to increase but to a much lesser extent. A practical way to detect the convergence is to check the increase at each loop and to stop the algorithm when this value goes under a given boundary. Algorithm 1: Learning algorithm Set parameters to initial values repeat for c = 1 to C do compute πc∗ with Formula (10) ∗ ∗ Find the optimal step sequence L∗c = lc1 . . . lcT with the dynamic programming algorithm foreach time t do ∗ 2∗ from lct with Formula (11) compute σct Compute P (X |Θ)P (Θ) until convergence The total time complexity of the learning algorithm is O(BCT M 2 R2 N ) —see supplementary information for details—, with B, C, T , M , R and N the maximal number of loops of the EM algorithm, the number of components of the mixture model, the number of time points of the data, the size of the step space, the maximal number of states of the HPMs, and the number of expression series to classify, respectively. In practice, N is potentially high (some thousands), T and R are relatively low (ten or less), M is around thirty, and less than one hundred loops are generally sufficient to ensure convergence. For the experiments in the next section for example, computing times on a 2 GHz Pentium 4, range from 20 seconds to 3 minutes according to the dataset, the type of HPMs and the number of components. 3 Evaluation and experiments When applied to a given dataset, our method provides a mixture model, i.e. a set of 2 profiles (the step sequences) with the variances σct associated with each time and the prior probabilities πc . Moreover, it provides the probability membership of each gene for each class, and groups the genes according to their most probable components into clusters. Features of the mixture model are useful to access the pertinence of the clusters. Indeed, sometimes one constrained component c may fail to collect “good” genes. This occurs when no gene agrees with Hc , or when the desired genes are collected by another component with similar constraints. Then, two different situations can arise. 240 Clustering gene expression series with prior knowledge First, the component does not collect any gene and its probability πc = 0. Second, the component collects some series, but these do not have the desired profile: the measures xt are far from m(lct ) at one or several time points (there is a gap between the series and Lc ) and the variance is high at these points. This situation can be merely detected by 2 visual inspection, or by checking if the value of σct is not higher than a given threshold. 3.1 Recovering a known class of genes In order to quantify the advantages of using prior knowledge to recover a particular class of genes, we first conducted some experiments on a dataset made up of the original Fibroblast dataset (see Section 3.3 for more details), along with some additional synthetic series that form a new artificial class. Briefly, we use a probabilistic model involving two Gaussian distributions to generate the expression levels of the artificial expression series: one Gaussian distribution is used to independently generate the gene expression levels of the first three times, while the other is used for the last nine times of the series. The mean of the first one is higher than the second, so the shape of the artificial class looks like a descending step. Figure 3 shows an example of synthetic series generated with this model. We conducted several experiments to recover the synthetic class among all other series, with the proportion of synthetic data ranging from 2% to 16% of the total data. We use two quantities to measure the ability to recover the artificial class in the final clustering: Recall is the highest proportion of this class that can be found in a single cluster —so a recall of 100% is achieved when all the artificial series are in the same cluster—, and precision represents the proportion of artificial series in this cluster —so a precision of 100% indicates that all the series in the cluster containing most artificial series are actually artificial. For each proportion of synthetic data, we run a clustering of 11 components with two different methods. The first one does not use any prior knowledge about the class of interest, i.e., its components are completely unconstrained —this method can be viewed as a kind of k-means clustering. The second method makes use of the HPM of Figure 3 to constrain the first class, leaving the 10 others unconstrained. The experiments were repeated 100 times for each proportion of synthetic data and the results are reported in Figure 4. Both methods achieve quite good recall, even when the proportion of the class of interest is low. Using prior knowledge gives only slightly better results. Concerning the precision, however, there is a clear difference between the two methods, and we can see that the lower the proportion of interesting class, the higher the benefit of our method. When the proportion is 2%, for example, the precision achieved with no prior knowledge is only about 21% —vs. 65% when using prior knowledge—, so the interesting series are lost among many other series, leading to a class that does not show the desired profile. 3.2 Number of components Next we investigated the sensitivity of the method to the number of components. Determining the number of clusters is a difficult task for all clustering methods. However, 241 CAp 2005 [−0, +0] [5, 12] end 12 10 8 6 4 2 [−M, −10] [4, 4] [−0, +0] [1, 3] start Figure 3: Left, examples of synthetic expression series added to the fibroblast dataset. Right, the HPM designed to find the synthetic class among the ”real” biological classes in the fibroblast dataset. 100 90 100 100 90 80 80 80 70 60 70 60 50 1 constrained + 8 unconstrained 1 constrained + 10 unconstrained 1 constrained + 12 unconstrained 1 constrained + 15 unconstrained 2 constrained + 10 unconstrained 40 40 60 30 20 20 10 0 0 2 4 6 8 10 12 14 16 50 2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16 Figure 4: Recall (left) and precision (middle) achieved with (solid lines) and without (dashed lines) prior knowledge about the class of interest. The x-axes denote the proportion (in percent) of this class among all the expression series. Right, precision achieved using different number of components. when the aim is to recover a particular class of genes rather than to infer a global clustering of the data, the problem is less acute. To illustrate this, we computed, in 100 runs, the precision and recall achieved with various numbers of constrained and unconstrained components, with the proportion of synthetic data ranging from 2% to 16% of the total data. We tried 1 constrained with 8, 10, 12 and 15 unconstrained components, and 2 constrained with 10 unconstrained components. All trials gave recall of up to 80% for all proportions of synthetic data (data not shown), and quite good precision —see right of Figure 4. Actually the best results are achieved with the highest numbers of components, so giving a sufficiently high number of components seems to be a good strategy to efficiently recover the clusters of interest. 3.3 Fibroblast dataset Next, some experiments to find ”real” classes in the Fibroblast dataset have been carried out. This is the dataset of (Iyer et al., 1999). Authors study the response of human fibroblasts to serum. The expression level of 8613 genes have been measured at 12 times, ranging from 15 min to 24 hours after serum stimulation. The authors selected a subset of 517 genes whose expression changed substantially in response to serum. The same subset, centered and reduced on genes is used here. First we clusterized the 242 Clustering gene expression series with prior knowledge [+10, +M ] [2, 4] [−0, +0] [1, 2] start I3 [+5, +M ] [2, 3] S [−M, +M ] [3, 12] [+5, +M ] [3, 4] end B I2 I1 Figure 5: An HPM to uncover quick over-expression classes. 25 24 ’./plot/#temp_err2_5.plot’ ’./plot/#temp_err2_2.plot’ 24 23 22 23 21 22 20 21 19 20 18 17 19 16 18 15 17 14 16 13 15 12 14 11 10 13 9 12 8 11 7 10 6 2 4 6 8 10 12 2 4 6 8 10 12 Figure 6: Fibroblast dataset. Two profiles obtained with the help of the HPM of Figure 5. original data in 10 classes, using only knowledge about their temporal feature, i.e., by constraining all the components with an HPM like that of Figure 2. This clustering leads to 10 profiles relatively similar to those that (Iyer et al., 1999) defined by hand after a hierarchical clustering. While most of these classes are well-defined, within them it is hard to identify genes that show a quick response to the serum. Only one jumbled class seems to present this feature. We designed an HPM specially adapted to such class (see Figure 5). The state S of this HPM models a potential and short —until time 2, at maximum— delay phase before over-expression. Next, 3 states are used to model the increasing phase: this can be quite moderate (at least 5 steps) during 2 times at least (states I1 and I2), or heavy (at least 10 steps) during 1 time (state I3). In both cases, the aim is to observe marked over-expression before time 5. The last state models the remainder of the class and is not constrained —all increases and decreases are allowed. We use a 10 components mixture model, with 3 components constrained with this special HPM, and 7 components constrained with an HPM like that of Figure 2. Classes with the desired profile have been uncovered by this method. Figure 6 shows the mean profile of two classes. The third class has a very high variance at time 2, and a visual inspection shows that the collected series actually diverge from the profile at this point, so the class is not interesting. The two classes of Figure 6 differ by the time when genes reach their maximal over-expression —times 3-4 and times 4-5. Note that these classes show a second increase step which is not specified in the HPM we used. This illustrates the ability of the method to uncover the desired classes even when their profiles are not completely specified. 243 CAp 2005 [+1, +M ] [1, 9] [+1, +M ] [10, 18] [−0, +0] [1, 9] [−M, −1] [1, 9] [+1, +M ] [10, 18] [−0, +0] [10, 18] [−M, −1] [10, 18] [−0, +0] [1, 9] [−0, +0] [10, 18] start end [+1, +M ] [1, 9] [−M, −1] [1, 9] [−0, +0] [1, 9] [+1, +M ] [10, 18] [−0, +0] [1, 9] [−M, −1] [10, 18] [−0, +0] [10, 18] [−0, +0] [10, 18] [−M, −1] [10, 18] Figure 7: An HPM to find out sinusoidal profiles. 3.4 Yeast dataset This is the dataset published in (Spellman et al., 1998). Authors measure the expression level of 6178 genes 18 times during slightly more than two full cell cycles. We use the same normalization method as in (Spellman et al., 1998): the logarithms of the data are centered and reduced on the genes, and genes that do not show any time points higher than 2 or lower than -2 are removed. This leads to a dataset of 1044 expression series. The main aim of the study was to find out cycle-regulated genes. So we look for classes showing a two-time repeat of the same pattern (since series span two cell cycles), i.e., classes with sinusoidal shape. The HPM of Figure 7 is designed for this purpose. It detects profiles that show whether (upper part of the HPM) 2 concave patterns —a concave pattern being an increase followed by a decreasing phase— eventually with a third increasing phase, or (lower part of the HPM) 2 convex patterns eventually followed by a third decreasing phase. Each increase or decrease can be followed by a short (one time) stability phase, and the time constraints of the τ functions require the convex or concave patterns to be equally distributed between first nine and last nine times. A 20 component mixture model has been used for the clustering. The 10 first components have been constrained with HPM of Figure 7, while the 10 other components were not constrained to sinusoidal profiles but by the probabilistic HPM of Figure 2. Many classes that seem to be regulated by the cell cycle have been uncovered in this way. Figure 8 shows four of theses classes. These four differ by the times genes are over- or under-expressed. When superimposing the mean profiles of these classes on the same graph (see Figure 9), shifts between the different minima and maxima achieved can be seen. 4 Conclusions We proposed a Bayesian approach for the clustering of gene expression series. This approach allows the user to easily integrate prior knowledge about the general profile of the classes of interest. This knowledge can be expressed by way of a probabilistic or non-probabilistic new type of model close to HMMs that we call a Hidden Phase 244 Clustering gene expression series with prior knowledge 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 2 4 6 8 10 12 14 16 18 22 23 21 22 21 20 20 19 19 18 18 17 17 16 16 15 15 14 14 13 13 12 12 11 11 10 10 9 9 8 8 7 6 7 5 6 4 2 4 6 10 8 4 2 18 16 14 12 6 8 12 10 14 16 18 2 4 6 8 10 12 14 16 18 Figure 8: Yeast dataset. Four classes uncovered with the help of the HPM of Figure 7. 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 2 4 6 8 10 12 14 16 18 Figure 9: Yeast dataset. Superimposition of the four mean profiles of the classes of Figure 8. Model. An HPM describes the profile of a particular class of genes. A mixture model is used to model the series, and each component of the mixture is associated with a given HPM. This defines the prior probability distribution of the parameters of the class. Then an EM algorithm is used to estimate the parameters of the mixture in maximizing its posterior probability. When no prior knowledge is available, our approach can naturally deal with the temporal nature of the series by using a specific and simple HPM. Applied to two different datasets —(Spellman et al., 1998) et (Iyer et al., 1999)—, our method shows good performance and ability to efficiently uncover classes of genes with the desired profiles. In practice, appropriate HPMs can be designed easily and naturally. We experimentally observed on a mixture of natural and synthetic data that the benefit of the method increases when the number of expression series composing the classes of interest decreases with regard to the total number of series, and that it can be really interesting when this number is very low. Many improvements seem possible on this basis. Indeed, other knowledge can be integrated in the HPMs. For example, knowledge about the desired mean expression level —and not about the evolution of the expression has it is done— could be easily added. Another improvement would be to introduce long-range dependences, i.e., to constrain differences of expression not only between consecutive times but also between separate times. For example, this would allow us to stipulate that the profiles should achieve their maximum at a specific time t. Acknowledgements I thank Olivier Martin, Gilles Caraux and Olivier Gascuel for their help and comments on this work. 245 CAp 2005 References A LON U., BARKAI N., N OTTERMAN D. A., G ISH K., Y BARRA S., M ACK D. & L EVINE A. J. (1999). Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proc Natl Acad Sci USA, 96(12), 6745– 6750. BAR -J OSEPH Z., G ERBER G. K., G IFFORD D. K., JAAKKOLA T. S. & S IMON I. (2003). Continuous representations of time-series gene expression data. J Comput Biol, 10(3-4), 341– 356. D EMPSTER A. P., L AIRD N. M. & RUBIN D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. J. Royal Stat. Soc. B, 39, 1–38. D UDA R., H ART P. & S TORK D. (2001). Pattern Classification. John Wiley. E ISEN M. B., S PELLMAN P. T., B ROWN P. O. & B OTSTEIN D. (1998). Cluster analysis and display of genome-wide expression patterns. Proc Natl Acad Sci U S A, 95(25), 14863–14868. H ERTZBERG M., A SPEBORG H., S CHRADER J., A NDERSSON A., E RLANDSSON R., B LOMQVIST K., B HALERAO R., U HLEN M., T EERI T., L UNDEBERG J., S UNDBERG B., N ILSSON P. & S ANDBERG G. (2001). A transcriptional roadmap to wood formation. Proc Natl Acad Sci USA, 98(25), 14732–14737. H ERWIG R., P OUSTKA A. J., M ULLER C., B ULL C., L EHRACH H. & O’B RIEN J. (1999). Large-scale clustering of cDNA-fingerprinting data. Genome Res, 9(11), 1093–105. I YER V. R., E ISEN M. B., ROSS D. T., S CHULER G., M OORE T., L EE J. C., T RENT J. M., S TAUDT L. M., H UDSON J. J., B OGUSKI M. S., L ASHKARI D., S HALON D., B OTSTEIN D. & B ROWN P. O. (1999). The transcriptional program in the response of human fibroblasts to serum. Science, 283(5398), 83–87. KOHONEN T. (1997). Self-Organizing Maps. Springer. L LOYD S. (1982). Least squares quantization in PCM. IEEE Trans. Info. Theory, IT-2, 129– 137. M C L ACHLAN G. & K RISHNAN T. (2000). Finite mixture models. John Wiley. R ABINER L. R. (1989). A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2), 257–285. R AMONI M. F., S EBASTIANI P. & KOHANE I. S. (2002). Cluster analysis of gene expression dynamics. Proc Natl Acad Sci USA, 99(14), 9121–9126. S CHLIEP A., S CHONHUTH A. & S TEINHOFF C. (2003). Using hidden markov models to analyze gene expression time course data. Bioinformatics, 19 Suppl 1(14), 255–263. S PELLMAN P. T., S HERLOCK G., Z HANG M. Q., I YER V. R., A NDERS K., E ISEN M. B., B ROWN P. O., B OTSTEIN D. & F UTCHER B. (1998). Comprehensive identification of cell cycle-regulated genes of the yeast saccharomyces cerevisiae by microarray hybridization. Mol Biol Cell, 9(12), 3273–3297. TAMAYO P., S LONIM D., M ESIROV J., Z HU Q., K ITAREEWAN S., D MITROVSKY E., L AN DER E. S. & G OLUB T. R. (1999). Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. Proc Natl Acad Sci U S A, 96(6), 2907–2912. 246 Exploiter l’information mutuelle inter-gènes pour réduire la dimension des données biopuces : une approche basée sur la construction automatique d’attributs Blaise Hanczar, Jean-Daniel Zucker EPML-CNRS IAPuces Lim&Bio - Université Paris13 74, rue Marcel Cachin 93017 Bobigny Cedex hanczar_blaise@yahoo.fr Résumé : Cet article décrit et analyse expérimentalement une méthode originale de réduction de dimension pour les données biopuces. Les biopuces qui permettent de mesurer simultanément le niveau d’expression de milliers de gènes dans une condition donnée (tissu, cellule ou temps) produisent des données qui posent des problèmes spécifiques d’apprentissage automatique. La disproportion entre le nombre d’attributs (de l’ordre de la dizaine de milliers) et celui des exemples (de l’ordre de la centaine) requiert une réduction de dimension. Si l’information mutuelle gène/classe est souvent utilisée pour filtrer les gènes nous proposons une approche qui prend en compte celle de couple de gènes/classe. Plusieurs heuristiques de sélection de gènes basées sur ce principe sont proposées ainsi qu’une procédure de construction automatique d’attributs forçant les algorithmes d’apprentissage à tirer partie de ces couples de gènes. Les premiers résultats de réduction de dimension, puis de construction d’attributs et d’apprentissage sur plusieurs bases de données biopuces publiques montrent expérimentalement l’intérêt des approches. 1 Introduction La transcriptomique est la description et l’analyse des données liées à l’étude des profils et de l’expression des gènes. Ce domaine a fait de gros progrès ces dernières années grâce en particulier aux puces à ADN (ou biopuces). Si un nombre croissant de projets bioscientifiques incluent désormais des études basées sur cette technologie c’est quelle permet de mesurer simultanément l’expression de plusieurs dizaines de milliers de gènes. Parmi les applications prometteuses de ces puces, il y a d’une part l’amélioration des diagnostics de certaines maladies comme le cancer mais aussi une meilleure compréhension de leur étiologie(Clement, 2000). Dans ces applications, le rôle de la classification est souvent crucial. Différents classeurs ont été utilisés pour 247 CAp 2005 le diagnostic de cancers à partir de telles données : des réseaux Bayésiens, des arbres neuronaux, réseaux de neurones à base de fonctions radiales(Hwang et al., 2002) ou des machines à vecteurs de support. La tâche des bioinformaticiens du transcriptome est donc souvent de construire des classeurs à partir de matrice d’expressions où chaque condition ou patient est décrit par des valeurs réelles correspondant aux niveaux d’expression des gènes représentés sur la puce. Ces modèles doivent prédire aussi précisément que possible un paramètre clinique (comme le type de tumeur) représentant la classe. L’un des problèmes clefs lié à l’utilisation de biopuces est leur coût d’une part et la très grande variabilité inhérente à cette technologie d’autre part. Les jeux de données les plus larges disponibles dans la littérature comportent peu de patients (de 50 à quelques centaines) et un nombre important de gènes (de quelques centaines à quarante mille). Comme dans les applications de fouille de textes où les textes sont représentés par des sac-de-mots, ce déséquilibre entre le nombre d’exemples et le nombre d’attributs nuit gravement à la précision des algorithmes de prédictions. De fait, il a été démontré qu’un nombre trop important de dimensions favorisait le sur-apprentissage. Les modèles obtenus généralisent souvent mal le concept que l’on essaie d’apprendre, ce problème connu sous le nom de "la malédiction de la dimension"(Bellman, 1961) . Pour pallier ce problème on utilise classiquement en apprentissage des méthodes de réduction de dimensions. Le but de cette étape est d’identifier un sous-ensemble réduit d’attributs qui maximise les performances de prédiction. Ces méthodes sont largement utilisées dans le problème spécifique de l’analyse de données issues de puces à ADN. La majorité des méthodes de réduction de données biopuces s’intéressent peu ou pas du tout aux interactions entre les gènes. La détection de ces interactions étant implicitement laissée à la charge des algorithmes d’apprentissage en aval de ces méthodes de sélection. Dans cet article nous postulons l’intérêt a priori de la prise en compte des interactions entre gènes dans la phase même de la réduction de dimension. Le tableau 1 ci-dessous qui représente le rang des 10 couples de gènes possédant la meilleure information mutuelle avec la classe illustre l’intérêt d’une telle prise en compte. Les couples de gènes en gras sont ceux qu’une procédure de sélection retenant les 100 meilleurs gènes, basés sur leur information mutuelle propre avec la classe, permettrait de reformer. Les autres couples sont ceux qui ne pourraient être reformés. Ainsi le premier couple de gènes ne pourrait être reformé après une telle réduction car le gène Hsa.22167 ne possède qu’une information mutuelle le reléguant en 592ième position et il ne serait pas conservé parmi les cent gènes les plus informatifs. Ce couple est un exemple d’interaction positive entre deux gènes. Or, et c’est là un point clef de notre approche, certains des couples à très forte interaction sont constitués de gènes qu’une sélection classique n’aurait pas retenue car trop peu informatif pris individuellement. Dans l’exemple donné, seul 4 des 10 meilleurs couples auraient été reformés si seul les 100 meilleurs gènes avaient été sélectionnés. Nous proposons dans cet article des heuristiques afin d’évaluer et d’identifier ces interactions pour réduire le nombre de dimensions des données biopuces tout en garantissant que des groupes de gènes ayant une très forte information mutuelle soient préservés par la procédure de réduction de dimension. Nous présentons ensuite un algorithme permettant par construction d’attributs de forcer les algorithmes d’apprentissage à prendre en compte ces gènes peu informatifs 248 Exploiter l’information mutuelle inter-gènes mais à fortes interactions. TAB . 1 – Ce tableau présente les couple de gènes présentant la meilleur information mutuelle avec la classe. Les couples en gras sont ceux qu’une procédure de sélection retenant les 100 meilleurs gènes basés sur l’information mutuelle permettrait de reformer, en non gras les couples qui ne pourraient être reformés. gene1 rang(Gene1) gene2 rang(gene2) Reformé pair 1 Hsa.37937 1 Hsa.22167 592 Non pair 2 Hsa.8147 2 Hsa.3933 355 Non pair 3 Hsa.934 146 Hsa.1131 4 Non pair 4 Hsa.25322 5 Hsa.36696 33 Oui pair 5 Hsa.22762 40 Hsa.7 9 Oui pair 6 Hsa.579 23 Hsa.5392 135 Non pair 7 Hsa.878 11 Hsa.442 95 Oui pair 8 Hsa.6376 750 Hsa.1832 3 Oui pair 9 Hsa.6814 63 Hsa.2939 61 Non pair 10 Hsa.1517 1583 Hsa.127 109 Non La partie deux présente un état de l’art des méthodes de réduction de dimensions dans le domaine des données biopuces. Dans la troisième partie, nous proposons plusieurs heuristiques de calcul de couples de gènes à forte information mutuelle afin de baser la réduction sur ce calcul. Puis, dans la partie quatre, nous proposons un moyen d’exploiter cette information dans les algorithmes d’apprentissage automatique. Nous présentons dans la partie cinq les résultats expérimentaux des différents algorithmes sur plusieurs jeux de données internationaux et montrons l’intérêt de notre approche par un gain significatif de précision. 2 Etat de l’art 2.1 Vue d’ensemble des méthodes de réduction La littérature sur les méthodes de sélection en apprentissage automatique est vaste (Liu & Motoda, 1998). La plupart de ces méthodes de réduction a été explorées sur des données biopuces et publiées dans la littérature scientifique. On peut les classer en trois familles : les méthodes de sélection de gènes, les méthodes de sélection de sous-ensemble gènes, les méthodes de reformulation. Les méthodes de sélection de gènes utilisent un score de pertinence pour chaque gène, et fournissent une liste ordonnée de gènes. Ben-Dor compare plusieurs de ces méthodes et décrit une procédure pour estimer leurs p-value associées (Ben-Dor et al., 2000). La méthode mise en oeuvre dans le logiciel SAM (Significant Analysis of Microarray) (Tusher et al., 2001), aujourd’hui très populaire parmi les biologistes, est un représentant de cette famille. Cette procédure identifie des gènes différentiellement exprimés. Un autre représentant de cette famille est l’approche basée sur l’algorithme RELIEF proposée par Mary et al. (Mary et al., 2003). La complexité algorithmique de ces méthodes 249 CAp 2005 est faible et permet des mises en oeuvre efficaces (SAM est distribué comme un plug-in excel). Un autre avantage de ces méthodes est aussi la facilité d’interprétation des résultats qu’elles fournissent aux biologistes. Seuls les gènes ayant un score supérieur à un seuil sont conservés. En revanche ces méthodes conduisent souvent à des représentations pour lesquelles les performances des algorithmes d’apprentissage sont inférieures à celle des deux autres familles. Les méthodes de sélection de sous-ensemble ne considèrent pas les gènes un à un par groupe de gènes. Une mesure de pertinence est définie pour un sous-ensemble de gènes. La sélection ou non d’un gène dépend donc des autres gènes et le problème d’optimisation qui consiste à trouver le meilleur sous-ensemble de gène est NP-complet. Il n’est donc par surprenant que cette famille compte de nombreuses techniques issues de l’apprentissage artificiel, comme les algorithmes génétiques (Li et al., 2001), les méthodes Wrapper (Inza et al., 2002), la méthode SVM-RFE (Reverse Feature Elimination) (Guyon et al., 2002), etc. Si ces dernières méthodes s’appliquent dans le cas général, d’autres méthodes, plus originales ont été développées dans le cadre spécifique de l’analyse des biopuces. La méthode proposée par Xing qui combine "unconditionnal mixture modeling", information mutuelle et "markov blanket filtering" donne des résultats remarquables(Xing et al., 2001). À l’opposé de la famille précédente, ces méthodes ont généralement de meilleures performances mais une complexité plus grande. L’interprétation biologique est là aussi naturelle car chaque méthode renvoie un sous ensemble de gènes. Les méthodes de réduction par reformulation projettent les données dans un nouvel espace plus petit. Ce nouvel espace est défini par des attributs qui sont une combinaison des gènes. L’analyse par composantes principales est la plus connue des méthodes entrant dans cette dernière famille. Il existe d’autres méthodes de changement de représentation développées spécifiquement pour les données biopuces. C’est le cas de la méthode proposée par Qi(Qi, 2002) basée sur l’amplitude et la forme statistique des gènes pour construire de nouveaux attributs. L’algorithme P RO G ENE(Hanczar et al., 2003) proposé par les auteurs est une autre méthode de cette famille qui crée des prototypes de gènes pour compresser l’information contenue dans des groupes de gènes dont l’expression est similaire. Cette famille donne généralement des représentations offrant de bonnes performances aux algorithmes d’apprentissage. En revanche, les algorithmes pour engendrer ces représentations sont de complexités importantes. A l’opposée des deux familles précédentes, l’interprétation biologique de ces représentations est difficile, car elles produisent un ensemble d’attributs qui sont des combinaisons de gènes qui n’ont pas de signification biologique immédiate. Dans notre problématique, l’objectif est de sélectionner le ou les sous-ensemble(s) de gènes dont l’information mutuelle, avec la classe à prédire, est maximale. Le problème d’optimisation de l’information mutuelle exact d’un ensemble de gènes par rapport à une classe nécessite de calculer la probabilité jointe de tous les gènes sélectionnés et n’est donc de ce fait pas soluble en pratique. Pour limiter la complexité des algorithmes, il est généralement fait l’hypothèse que les gènes sont indépendants les uns des autres, dans ce cas il suffit de calculer la somme des informations mutuelles entre chaque gène et la classe. Des algorithmes récemment développés prennent en compte indirectement l’interaction entre les gènes en recherchant un ensemble qui maximise l’information 250 Exploiter l’information mutuelle inter-gènes mutuelle entre chaque gène et la classe et qui minimise l’information mutuelle entre chaque gène sélectionné (Wu et al., 2003; Xing et al., 2001). L’approche que nous proposons consiste à utiliser les interactions entre les gènes en vue de réduire le nombre dimensions par un critère basé sur l’information mutuelle d’un groupe de gènes et la classe. 3 Réduire les dimensions en exploitant l’information mutuelle L’entropie et l’information mutuelle sont ci-dessous brièvement redéfinies et explicitées dans le contexte des données biopuces. 3.1 Définition de l’information mutuelle Considérons une variable aléatoire C pouvant prendre nC valeurs. Après plusieurs mesures de C, on peut estimer empiriquement les probabilités{p(c1 ), ..., p(cnC )} de chaque états {c1 , ..., cnC }de la variable C. L’entropie de Shannon (Shannon, 1948) de la variable est définie par : H(C) = − nC X p(ci )log2 (p(ci )) i=1 L’information mutuelle mesure la dépendance entre deux variables. Plus cette valeur est élevée plus les variables sont liées, quand elle est nulle les variables sont indépendantes. Dans le contexte des puces à ADN, on utilise cette mesure pour identifier les gènes qui sont liés au paramètre bioclinique que l’on cherche à prédire, que nous appelons la classe. Soit C ce paramètre, l’information mutuelle entre C et un gène G se calcule par la formule suivante : I(G, C) = H(G) + H(C) − H(G, C) L’information mutuelle qu’apporte deux gènes peut se décomposer en une somme d’information mutuelle de chaque gène et d’interaction entre les gènes (Jakulin & Bratko, 2003). I(G1 , G2 , C) = I(G1 , C) + I(G2 , C) + Inter(G1 , G2 , C) avec Inter(G1 , G2 ) = −H(G1 , G2 , C) +H(G1 , C) + H(G2 , C) + H(G1 , G2 ) −H(G1 ) − H(G2 ) − H(C) Notons que l’information d’une paire de gène n’est pas seulement la somme des informations de chaque gènes, mais qu’une interaction entre les gènes intervient également. Lorsque cette interaction est positive, on parle de synergie entre les gènes, lorsqu’elle 251 CAp 2005 est négative on dit qu’il y a redondance entre les gènes. On peut généraliser ce principe pour des ensembles de gènes plus important X = {G1 , ..., Gp }en exploitant les interactions d’ordre supérieur : I(X, C) = H(C) − H(C|X) I(X, C) = p X I(Gi , C) + Inter(∆, C) ∆⊂X i=1 Inter(X) = − nA X p X (−1)|X|−|∆|H(∆) ∆⊂X avec ∆ un sous ensemble de gènes de X. L’information mutuelle est strictement croissante avec le nombre de gènes, c’est à dire : ∀Y, I(G1 , .., Gn , C) ≤ I(G1 , ..., Gn , Y, C) Notre objectif peut se reformuler ainsi : trouver le plus petit ensemble de gènes possible qui maximise l’information mutuelle avec la classe. Or du fait de la monotonie de l’information mutuelle en fonction du nombre N de gènes, on en déduit que pour trouver le sous-groupe de K gènes qui maximise l’information mutuelle, il suffit de sélectionner tous les groupes de K gènes disponibles. Cette solution pose un problème combinatoire évident. Comme nous l’avons vu plus haut il est donc indispensable de diminuer le nombre de gènes pour pallier ce problème de "malédiction de la dimension". 3.2 Quantifier l’information mutuelle Du fait qu’il n’est pas possible en pratique de mesurer l’information mutuelle totale d’un ensemble important de gènes, on recourt à des approximations de cette valeur. La méthode la plus simple et la plus utilisée est de négliger les interactions entre les gènes. On ne calcule alors que la somme des informations mutuelles entre chaque gène et la classe. Soit X = {G1 , ..., Gp }un ensemble de gènes, I(X, C) ≈ p X I(Gi , C) i=1 Nous proposons ici d’utiliser une approximation plus fine, en prenant compte des interactions d’ordre supérieur, c’est-à-dire entre des ensembles de deux ou plus de gènes et la classe. En pratique nous nous limiterons dans cet article aux interactions entre des paires de gènes. Le calcul de l’information mutuelle dans ce cas est la somme des informations mutuelles entre chaque paire de gènes et la classe. Soit X = {P1 , ..., Pp }un ensemble de paires de gènes avec Pi = {Gi1 , Gi2 }, I(X, C) ≈ p X I(Gi1 , Gi2 , C) i=1 252 Exploiter l’information mutuelle inter-gènes I(X, C) ≈ 2p X i=1 I(Gi , C) + p X Inter(Gi1 , Gi2 , C) i=1 Etant donné le faible nombre d’exemples dont nous disposons, nous pouvons nous interroger sur la validité des calculs d’entropie. Il est bien connu que l’estimation de l’entropie à partir d’un ensemble fini d’exemples est biaisée. Roulston (Roulston, 1999) X −1 a montré que H vrai (X) = H observé (X) + M2N avec M le nombre d’états de X et N le nombre d’exemples disponibles. Cette correction de l’entropie insérée dans le calcul G −Mc +1 et de l’information mutuelle donne : I vrai (G, C) = I observé (G, C) − MGC −M 2N −M +1 M −M C G G C G G 1 2 I vrai (G1 , G2 , C) = I observé (G1 , G2 , C)− 1 2 . Notre objectif est 2N d’identifier les gènes et paires de gènes les plus informatives. Ce n’est donc pas la valeur de l’information mutuelle qui nous intéresse, mais le classement des gènes et paires de gènes que l’on peut en extraire. Or, si le nombre d’états possible M est le même pour tous les gènes alors le classement des gènes et paires de gènes reste inchangé. On peut donc négliger, dans le problème qui nous intéresse, le biais de l’entropie dù au faible nombre d’exemples disponibles. 3.3 Une procédure de réduction basée sur l’information mutuelle de paires de gènes avec la classe Notre objectif est de trouver un sous-ensemble de P gènes (avec P < N le nombre initial de gènes) tel que l’information mutuelle des couples de gènes par rapport à la classe soit maximale. Dans le cas où l’on néglige les interactions entre les gènes, le problème est simple, il suffit de calculer l’information mutuelle entre chaque gène et la classe, puis de sélectionner ceux dont les valeurs sont les plus élevées. Dans notre cas où l’on considère les interactions d’ordre trois (une paire de gènes et la classe), il faut explorer l’espace des paires de gènes de taille O(N 2 ). Pour éviter d’explorer tout cet espace, une heuristique naturelle d’exploration des paires consistent à calculer d’abord les informations mutuelles de chaque gène et ensuite de former les N-1 premières paires à partir du meilleur gène et d’un autre gène. Pour découvrir P gènes différents il faut dans le pire des cas explorer toutes les paires soit N(N-1)/2. Etant donné le nombre important de gènes disponibles, nous recourons à une heuristique plus puissante permettant de limiter les paires à celles qui forment une sous-partition de l’ensemble des N gènes. Au delà de diviser l’espace des paires par deux (Pour N=2k cet espace est de taille (1 + (N − 1)) ∗ (N/2)/2 = k 2 ) c’est surtout par son aptitude à générer des paires formées de gènes distincts qu’elle tire son efficacité. Le gène G1 ayant la plus grande information mutuelle I(G1 , C) avec la classe est d’abord sélectionné, puis on recherche le gène G2 maximisant l’information mutuelle I(G1 , G2 , C). La paire (G1, G2) est mise de côté et le processus est réitéré jusqu’à ce que P paires soient obtenues. Chaque gène ne peut donc faire partie que d’une seul paire, cela permet d’obtenir plus de variété dans les paires. Cette heuristique est décrite dans l’algorithme 1 qui correspond à l’extraction de paires sans remises. 253 CAp 2005 Algorithme 1 Recherche de paires de gènes 1. P aire ← ⊘ 2. Gene ← all.gene 3. pour i de 1 à nb.paire.max (a) G1 ← argmaxg (I(g, C)) (b) G2 ← argmaxg (I(G1, g, C)) (c) P aire ← P aire ∪ (G1, G2) (d) Gene ← Gene-{G1, G2} 4. retourne (Paire) 4 Construction d’attributs pour représenter les paires les plus informatives 4.1 Le problème de l’apprentissage Les algorithmes de classification usuels ne sont pas conçus pour traiter des paires de gènes. Et lorsqu’un algorithme de classification prend en entrée une liste de gènes ce qui a motivé leur sélection (synergie de certain des couples) est ignoré. Si les algorithmes utilisent en priorité les gènes les plus informatifs il y a peu de chances que les couples qui ont présidés à la réduction soient reformés. La phase de sélection de paires perd alors de son intérêt. Pour pallier ce problème, nous avons développé une approche par construction d’attribut. Un nouvel attribut est construit pour chaque paire, il synthétise l’information contenu dans chacun des deux gènes de la paire et dans leur synergie (interaction positive). 4.2 Construction d’attributs pour représenter les paires de gènes Nous présentons ci-dessous deux méthodes, PCAMINFO et FEATKNN que nous avons envisagé pour construire de nouveaux attributs à partir de chacune des paires que nous venons d’identifier. La méthode PCAMINFO que nous proposons s’inspire des travaux de Bollacker(K. & J., 1996). Nous utilisons la matrice d’information pour construire les nouveaux attributs, c’est une matrice carrée contenant autant de lignes et de colonnes qu’il y a de gènes, à chaque case (i,j) correspond l’information mutuelle de la paire de gène correspondante I(Gi , Gj , C). Le principe de cette méthode repose sur l’analyse en composantes principales (ACP). Dans une ACP on calcule la matrice de covariance pour construire de nouveaux attributs qui maximisent la variance. Nous remplaçons dans cette méthode la matrice de covariance par la matrice d’information. Nous obtenons ainsi de nouveaux attributs qui sont des combinaisons linéaires de gènes, et qui maximisent l’information mutuelle. La méthode FEATKNN, que nous avons développée, est limitée ici aux problèmes à 254 Exploiter l’information mutuelle inter-gènes deux classes. Son adaptation aux problèmes multiclasses sort du cadre de cet article. Construire un nouvel attribut A requière de définir ses valeurs à partir des deux gènes Gi,1 Gi,2 de la paire Pi . Notre idée est que les valeurs de Ai doivent être déterminées par la densité des exemples de classes positives et négatives projetées dans l’espace à deux dimension Gi,1 × Gi,2 . Soit un exemple de test t (dont la classe n’est pas connue), n la valeur de l’attribut Ai pour cet exemple t se calcul de la sorte : Ai (t) = −1+2 i,+ k où ni,+ est le nombre d’exemples de classe positive contenu dans les K plus proche voisin de t, en utilisant la distance euclidienne dans l’espace Gi,1 × Gi,2 . Le nouvel attribut a des valeurs comprises entre -1 et 1, lorsque un exemple t est proche d’exemples de classe positive (resp. negative) l’attribut tend vers +1 (resp. -1). Un nouvel attribut est construit de la sorte pour chaque paire de gènes sélectionnées. 5 Expérimentation Nous avons utilisé trois jeux de données biopuces pour évaluer expérimentalement la combinaison de la méthode de réduction et celles de reformulation que nous venons de décrire. Au delà de l’amélioration de performance, il s’agissait de tester notre hypothèse selon laquelle l’interaction entre le gènes permet d’améliorer l’apprentissage. 5.1 Données et prétraitement Le premier des jeux de données porte sur le cancer du colon, le second sur la leucémie et le dernier sur un ensemble de tumeurs dit ”small round blue-cell tumors” (SRBCT). Les deux premiers sont couramment utilisés dans la littérature pour tester les performances des algorithmes(Ben-Dor et al., 2000). Les données du cancer du colon comportent 62 sujets dont 22 sont atteints d’un cancer du colon et les 40 autres sont sains. On dispose de l’expression de 2000 gènes pour chaque sujet, le but est de prédire si un patient est atteint d’un cancer ou non. Les données leucémie regroupent l’expression de 7129 gènes de 72 patients atteints de leucémie, 47 ont une "acute lymphoblastic leukemia" (ALL) et 25 ont une "acute myeloid leukemia" (AML). Le but est de prédire le type de leucémie de chaque patient. Les données SRBCT contient les données d’expression de 2308 gènes de 63 patients ayant une tumeur, dont 23 sont des tumeurs de type "sarcome d’Ewing” ("ewing sarcomas"), 20 sont de type "rhabdomyosarcomas", 12 sont de type "neuroblastomas" et 8 de type "burkitt lymphomas". Le but de cette tâche d’apprentissage est de prédire le type de tumeur dont est atteint le patient. Pour des raisons d’efficacité, les données d’expression sont discrétisées. Nous utilisons une méthode par histogramme pour discrétiser l’expression de chaque gène. L’amplitude du gène est tout d’abord calculée, puis divisée en trois sous-intervalles de taille égale. Un gène peut donc prendre trois états : sur-exprimé, non modulé, sous-exprimé. 5.2 Analyse des paires les plus informatives Afin de mesurer l’importance des interactions entre gènes, nous examinons empiriquement l’information mutuelle des meilleurs gènes et paires des données du cancer du colon. Ces données comportant relativement peu de gènes (2000) pour des données 255 CAp 2005 TAB . 2 – Les 20 meilleurs paires de gènes des données biopuces du cancer du colon. Pour chaque paire de gènes (G1,G2), on a calculé l’information mutuelle (I) et le rang (rg) de chacun des deux gènes, ainsi que l’interaction (inter) et l’information mutuelle totale de la paire. g1 Hsa.37937 Hsa.8147 Hsa.934 Hsa.25322 Hsa.22762 Hsa.579 Hsa.878 Hsa.6376 Hsa.6814 Hsa.1517 Hsa.812 Hsa.3305 Hsa.42949 Hsa.821 Hsa.8068 Hsa.2386 Hsa.36694 Hsa.1682 Hsa.692 Hsa.41280 I(G1) 0.47 0.38 0.13 0.28 0.2 0.22 0.25 0.05 0.17 0.01 0.14 0.24 0.09 0.23 0.18 0.07 0.19 0.13 0.27 0.23 rg(G1) 1 2 146 5 40 23 11 750 63 1583 123 15 315 22 59 474 49 136 8 18 G2 Hsa.22167 Hsa.3933 Hsa.1131 Hsa.36696 Hsa.7 Hsa.5392 Hsa.442 Hsa.1832 Hsa.2939 Hsa.127 Hsa.2451 Hsa.466 Hsa.2928 Hsa.43431 Hsa.1317 Hsa.692 Hsa.1276 Hsa.21868 Hsa.31801 Hsa.18787 256 I(G2) 0.06 0.08 0.3 0.2 0.26 0.13 0.15 0.34 0.17 0.14 0.24 0.2 0.18 0.06 0.18 0.27 0.11 0.07 0.13 0.02 rg(2) 592 355 4 33 9 135 95 3 61 109 13 34 51 542 54 8 218 434 138 1248 inter 0.26 0.16 0.19 0.13 0.14 0.22 0.17 0.02 0.22 0.4 0.17 0.1 0.27 0.25 0.18 0.2 0.23 0.33 0.12 0.2 I(G1,G2) 0.79 0.62 0.62 0.61 0.6 0.57 0.57 0.41 0.56 0.55 0.55 0.54 0.54 0.54 0.54 0.54 0.53 0.53 0.52 0.45 20 15 0 5 10 Information of genes 25 30 35 Exploiter l’information mutuelle inter-gènes 0 20 40 60 80 100 rank of pair F IG . 1 – Information mutuelle par rapport à la classe des gènes formant les 1000000 meilleurs paires, chaque point représente un ensemble de 10000 paires. Les points noirs (resp. blanc) correspondent aux gènes ayant la plus grande (resp. petite) information mutuelle dans la paire. biopuces, l’information mutuelle et l’interaction de toutes les paires de gènes a donc pu être calculé, soit 1998000 paires. L’information mutuelle de chaque gène par rapport à la classe a également été calculée, ce qui a permis de définir un classement avec un rang pour chaque gène. Ces résultats sont regroupés dans un tableau dans lequel chaque paire est caractérisée par le nom, l’information mutuelle et le rang de chacun des deux gènes qui la constitue ainsi que l’interaction et l’information mutuelle totale de la paire. Le tableau 2 montre les 20 meilleures paires des données du cancer du colon. Dans cet exemple la meilleure paire est formée par le meilleur gène (Hsa.37937) et par le 592ème meilleur gène (Hsa.22167), les informations mutuelles par rapport à la classe de ces gènes sont respectivement de 0.47 et 0.06. L’interaction entre ces deux gènes est de 0.26, l’information mutuelle totale de cette paire est de 0.47+0.06+0.26=0.79. Le tableau 2 montre que les valeurs d’interaction sont aussi importantes que les informations mutuelles de chaque gène. Ceci abonde dans le sens de notre hypothèse selon laquelle les interactions entre les gènes ne sont pas négligeables. La figure 1 montre l’information mutuelle des gènes formant les 1000000 meilleurs paires, chaque point représente un ensemble de 10000 paires. Les points noirs (resp. blanc) correspondent aux gènes ayant la plus grande (resp. petite) information mutuelle dans la paire. Nous pouvons déduire deux choses de ce graphique, premièrement les gènes ayant une faible information mutuelle peuvent très bien faire partis des 257 CAp 2005 F IG . 2 – Comparaison de l’information mutuelle totale des gènes sélectionnées par les différentes méthodes. noir :sélection de gènes, rouge :sélection de paires, bleu :pca.info meilleures paires. Deuxièmement, on constate que toutes les meilleures paires de gènes sont constituées en moyenne d’un gène très informatif et d’un second moyennement ou peu informatif. Cette constatation montre l’intérêt du choix de notre heuristique de sélection de paires que l’on forme à partir de gènes ayant le meilleur rang. 5.3 Information mutuelle obtenue par les différentes heuristiques L’objectif que nous avons défini est la sélection de l’ensemble de gènes le plus petit possible maximisant l’information mutuelle, nous testons comment les heuristiques présentées FEATKNN ET PCAMINFO répondent à cet objectif. Chaque heuristique a été utilisée sur les trois jeux de données pour construire un ensemble de 10 attributs. Nous avons donc un ensemble comportant les 10 gènes de plus haut rang, un comportant les 5 meilleures paires de gènes et 2 ensembles comportant 10 attributs construits par FEATKNN et PCAMINFO . L’information mutuelle de ces ensembles a été mesurée et comparée. Nous nous sommes limités à des ensembles de 10 attributs maximum, au-delà le temps de calcul pour obtenir l’information mutuelle devient trop important. La figure 2 montre les résultats sur les données du cancer du colon en fonction de la taille du sous-ensemble de gènes. On constate que seul l’ensemble des gènes de plus haut rang ne parvient pas à atteindre l’information mutuelle maximum, sa courbe croit lentement, les gènes de cet ensemble ont probablement une interaction faible. Ces résultats expérimentaux indique que, sur les données étudiées, prendre en compte les interactions entre 258 Exploiter l’information mutuelle inter-gènes les gènes permet de maximiser l’information mutuelle en utilisant moins de gènes ou d’attributs. 5.4 Apprentissage automatique Il a été montré ci-dessus que les méthodes qui prennent en compte l’interaction entre les gènes, permettent d’obtenir des ensembles de gènes ou d’attributs plus informatifs et de plus petite taille que les méthodes qui les négligent. On peut donc supposer que ces méthodes vont améliorer les performances en classification. Nous évaluons dans cette partie l’impact de ces méthodes de réduction sur la classification. 5.4.1 Algorithmes de classification Des recherches récentes ont mis en évidence les bonnes performances de certains algorithmes de classification sur les données biopuces. Une étude présentée par Lee, compare notamment 21 algorithmes de classification sur 7 jeux de données biopuces, et conclut que les meilleures performances sont obtenues par les méthodes les plus sophistiquées, en particulier les machines à vecteurs de support(Lee et al., In press). À l’opposé, Dudoit met en évidence les remarquables performances de méthodes simples (Dudoit et al., 2002). Le choix de la méthode de classification à utiliser sur les données biopuces est donc une question qui reste ouverte et qui dépend des particularités des données utilisées. Pour évaluer les techniques de réduction, nous avons réalisés nos expérimentations avec les trois méthodes considérées comme les meilleures dans les deux papiers cités, c’est à dire : les machines à vecteur de support (SVM), les k plus proches voisins (KNN) et l’analyse discriminante diagonale linéaire (DLD). Elles sont toutes trois de fait très utilisées dans la communauté de l’analyse de données issues de puces à ADN. 5.4.2 Evaluation des performances Une fois les données discrétisées, la méthode de réduction de dimension puis de construction d’attributs sont appliquées. Les trois algorithmes de classification mentionnés plus haut sont ensuite utilisés et l’erreur en généralisation du modèle obtenu est évaluée. La validation croisée est couramment utilisée pour calculer l’erreur en généralisation. Toutefois Braga-Neto a montré que cet estimateur n’est pas le plus approprié avec des données comportant peu d’exemples, comme c’est le cas avec les puces à ADN. La validation croisée à une grande variance et les estimateurs par bootstrap sont préférés dans ce cas et en particulier l’estimateur .632(Braga-Neto & Dougherty, 2004). Pour éviter le biais du à la sélection de gènes mis en évidence par Ambroise et McLahan (Ambroise & McLachlan, 2002), l’évaluation de l’erreur en généralisation du modèle s’effectue dans une boucle externe au processus de sélection de gènes. C’est à dire qu’à chaque itération de l’estimateur .632, un échantillon bootstrap d’exemples est sélectionné, cet ensemble est utilisé pour la sélection de gènes puis pour la construction du model. Les exemples non sélectionnés dans l’échantillon bootstrap sont utilisés pour calculer l’erreur du modèle et n’interviennent à aucun moment dans le processus de sélection de gènes. 259 CAp 2005 SVM KNN DLD TAB . 3 – Résultats en classification Réduction Leucémie cancer du colon SRCBT tous les gènes 12.3 17.5 10.7 genes individuel 4.3 12.5 2.1 paires de gènes 4.8 11.8 1.9 pca.info 4.3 12.1 1.4 feat.knn 2.8 10.7 N/A tous les gènes 8.4 20 15.9 genes individuel 6.1 13.9 5 paires de gènes 6.2 14.4 3.7 pca.info 5.2 13.6 3 feat.knn 5.3 13.5 N/A tous les gènes 11.5 19.5 6.2 genes individuel 4.8 14.7 1.2 paires de gènes 4.8 15.4 1 pca.info 5.2 12.9 1.1 feat.knn 3.8 12.5 N/A 5.4.3 Résultats en classification Le tableau 3 récapitule les différents résultats en classification, rapelons que la méthode FEAT. KNN ne traite pas les problèmes multiclasses, c’est pourquoi elle a pas de résultats sur les données SRCBT. On constate sans surprise que les méthodes de réduction de dimension améliorent considérablement les performances en classification. Les méthodes de sélections des meilleurs gènes et des meilleures paires donnent des résultats similaires. Nous venons de voir plus haut que les paires de gènes apportaient plus d’information, comment expliquer que ces paires n’améliorent pas les performances en classification ? Il est vraisemblable que l’information contenue dans l’interaction entre les gènes d’une paire ne soit pas totalement exploitée par les algorithmes de classification. Une grande partie de l’information calculée durant la phase de sélection de paires est alors perdue. Les deux méthodes de construction d’attributs ont de meilleures performances, en particulier FEATKNN. Les nouveaux attributs construits par ces méthodes synthétisent l’information contenue dans les gènes et leurs interactions. Dans ce cas la classification exploite l’interaction entre les gènes par l’intermédiaire de ces attributs, ce qui explique de meilleurs résultats. Il n’en reste pas moins que l’interprétation biologique devient alors différente des approches classiques. Il n y a plus de gènes maximalement discriminant mais des listes de couples. Les couples de gènes peuvent éventuellement être utilisés dans l’étude des réseaux de régulation. 6 Conclusion Nous avons présenté dans cet article plusieurs procédures de réduction de dimensions de données biopuces afin d’améliorer les performances en classification. Ces méthodes 260 Exploiter l’information mutuelle inter-gènes sont basées sur l’hypothèse que l’information apportée par l’interaction entre les gènes n’est pas négligeable. Nous nous sommes limités dans cette étude aux interactions entre les paires de gènes. Si quantifier l’information des gènes et des interactions à partir du calcul d’information mutuelle est naturel, cette simple réduction n’améliore pas nécessairement les performances. Nous avons développé deux méthodes de construction d’attributs, PCAMINFO et FEATKNN qui permettent de forcer les algorithmes d’apprentissage à prendre en compte des paires présentant une forte information mutuelle. L’intérêt expérimental de ces interactions à été évaluée sur trois jeux de données où les performances sont améliorées. Nos travaux actuels s’orientent vers la prise en compte de synergies entre des groupes plus larges de gênes, ainsi qu’une analyse théorique des gains obtenus par ces approches de réduction de dimensions. 7 Remerciements Nous remercions les relecteurs pour leurs critiques constructives et interessantes. Nous remercions aussi tout le sevice de nutrition de l’hopital Hotel-Dieu pour l’aide sur l’interprétation des données d’expression. Références A MBROISE C. & M C L ACHLAN G. M. J. (2002). Selection bias in gene extraction on the basis of microarray gene expression data. Proc. Natl. Acad. Sci., 99(10), 6562–6566. B ELLMAN R. (1961). Adaptive Control Processes : A Guided Tour. Princeton University Press. B EN -D OR A., F RIEDMAN N. & YAKHINI Z. (2000). Scoring genes for relevance. Rapport interne AGL-2000-13, Agilent Technologies. B RAGA -N ETO U. & D OUGHERTY E. (2004). Is cross-validation valid for small-sample microarray classification ? Bioinformatics, 20(3), 374–380. C LEMENT (2000). Monogenic forms of obesity : From mice to human. Ann Endocrinol. D UDOIT S., F RIDLYAND J. & S PEED P. (2002). Comparison of discrimination methods for classification of tumors using gene expression data. Journal of American Statististial Association, 97, 77–87. G UYON I., W ESTON J., BARNHILL S. & VAPNIK V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning, 46, 389–422. H ANCZAR B., C OURTINE M., B ENIS A., H ENEGAR C., C LÉMENT K. & Z UCKER J. (2003). Improving classification of microarray data using prototype-based feature selection. SIGKDD Explorations, 5, 23–30. H WANG K., C HO D., PARK S., K IM S. & Z HANG B. (2002). Applying machine learning techniques to analysis of gene expression data : Cancer diagnosis. In Methods of Microarray Data Analysis (Proceedings of CAMDA’00), p. 167–182 : Kluwer Academic Publichers. I NZA I., S IERRA B., B LANCO R. & L ARRAÑAGA P. (2002). Gene selection by sequential wrapper approaches in microarray cancer class prediction. Journal of Intelligent and Fuzzy Systems, p. 25–34. 261 CAp 2005 JAKULIN A. & B RATKO I. (2003). Analyzing attribute dependencies. Proceedings A of the 7th European Conference on Principles and Practice of Knolegde Discovery in Databases (PKDD), p. 229–240. K. B. & J. G. (1996). Linear feature extractors based on mutual information. In Int. Conf. On Pattern Recognition (ICPR96). L EE J. W., L EE J. B., PARK M. & S ONG S. H. (In press). An extensive comparison of recent classification tools applied to microarray data. Computational Statistics and Data Analysis. L I L., DARDEN T., W EINBERG C., L EVINE A. & P EDERSEN L. (2001). Gene assessment and sample classification for gene expression data using a genetic algorithm/k-nearest neighbor method. Combinatorial Chemistry and High Throughput Screening, p. 727–739. L IU H. & M OTODA H. (1998). Feature Selection for Knowledge Discovery and Data Mining. Kluwer Adcademic Publishers. M ARY J., M ERCIER G., C OMET J., C ORNUÉJOLS A., F ROIDEVAUX C. & D UTREIX M. (2003). An attribute estimation technique for the analysis of microarray data. In Proc. of the Dieppe Spring school on Modelling and simulation of biological processes in the context of genomics. Q I H. (2002). Feature selection and knn fusion in molecular classification of multiple tumor types. International Conference on Mathematics and Engineering Techniques in Medicine and Biological Sciences (METMBS’02). ROULSTON M. (1999). Estimating the errors on measured entropy and mutual information. Physica D, 125, 285–294. S HANNON E. (1948). A mathemitical theory of communication. The Bell System Technical Journal, 27, 623–656. T USHER V., T IBSHIRANI R. & C HU G. (2001). Significance analysis of microarrays applied to the ionizing radiation response. PNAS, 98, 5116–5121. W U X., Y E Y. & Z HANG L. (2003). Graphical modeling based gene interaction analysis for microarray data. SIGKDD Exploration, 5, 91–100. X ING E., J ORDAN M. & K ARP R. (2001). Feature selection for high-dimensional genomic microarray data. In Proceedings of the Eighteenth International Conference in Machine Learning, ICML2001. 262 Classification of Domains with Boosted Blast⋆ Cécile Capponi1 , Gwennaele Fichant2 , and Yves Quentin2 1 LIF - CNRS, Université de Provence, 39, avenue Joliot Curie 13453 Marseille Cedex 13, France (e-mail: capponi@cmi.univ-mrs.fr) 2 LMGM - IBCG - CNRS, Université Paul Sabatier, 118, route de Narbonne, 31062 Toulouse Cedex, France (e-mail: fichant@bibcg.biotoul.fr, quentin@ibcg.biotoul.fr) 1 Introduction One way of predicting the function of a protein is to identify a known domain (subsequence of amino-acids within the whole sequence of the protein) in the protein, despite sequence modifications which may occur during evolution. In many cases, comparing a new sequence of protein p with few sequences of the family F under study is enough for predicting whether p ∈ F . Such a similarity search may be achieved for example by using an alignment program such as B LAST (Altschul et al., 1990). However, when the domain of a family is not well conserved, there is no satisfying method for retrieving this domain onto a new sequence. This is the case of Membrane Spanning Domains (MSDs), which plays the role of a pore through which a substrate goes in and/or out of the cell : its sequences are not conserved. The I RIS strategy (Quentin et al., 2002) gives good results on MSDs, but requires their previous subdivision into 18 subfamilies. We thus propose here to use the boosting technique in order to learn the whole family from B LAST alignements of protein sequences, without any pre-clustering. 2 Boosting B LAST Let S = {(x1 , y1 ), ..., (xn , yn )} a set of annotated protein sequences, where a protein xi ∈ X is labelled yi = +1 if xi carries a MSD, and −1 otherwise. For aligning two sequences, the heuristic wide-used algorithm B LAST assigns an e-value to the optimal alignment it computes : the smaller the e-value, the most significant the alignment. Let A(x, D, τ ) be a formatted result of B LAST : it is a set that contains all the proteins of the database D aligned with x with an e-value less than τ . In order to classify proteins according to the unconserved domain under study, we propose to use AdaBoost (Freund & Schapire, 1997), where B LAST instantiates the method that produces a weak decision ⋆ This work is granted by the national ACI IMPBIO program. 263 CAp 2005 rule, here represented by a stump (algorithm 1). We expect boosting to extend the local predictivity of B LAST to a global predictivity. Algorithm 1 BlastBoost(τ ,T ) where T is the number of boosting steps, and τ is the e-value threshold Given : (x1 , y1 ), · · · , (xn , yn ) where xi ∈ X and yi ∈ Y = {−1, +1} Initialize D1 (i) ← 1/n for all t = 1, · · · , T do Select xi,t according to Dt and Compute At = A(xi,t , X, τ ) with B LAST Get ht : X → {−1, +1} such that ∀x ∈ X : if x ∈ At then ht (x) = yi,t else ht (x) = argmaxk∈{−1,+1} Compute ǫt = P i=1..n,ht (xi )6=yi Dt (i) and αt = 1 2 ln  1−ǫt ǫt X Dt (j) j,yj =k,xj 6∈At  t yi ht (xi )) Update : Dt+1 (i) ← Dt (i) exp(−α Zt end for P  T Output the final classifier : H(x) = sign t=1 αt ht (x) We actually tuned and tested a variant of BlastBoost, where each decision tree involves three queries selected according to Dt , and where two e-value thresholds are considered, depending on the label of the query xt . We used eight genomes to learn the model, and eight other genomes to test it. Both learning and test sets are made up of all the examples of considered genomes (proteins that carry a MSD), and all the counterexamples (proteins aligned to one example with B LAST while not carrying a MSD). The obtained results are similar when swapping the learning and test genomes. The test error gets stable after around 400 rounds. The selectivity of BlastBoost is almost as good as this of the I RIS method, while its sensitivity is better (up to 0.999, while 0.946 with I RIS). Yet, I RIS previously subdivides the functional families into 18 subfamilies, so its learning and testing steps are independent from one subfamily to another, therefore more accurate. Hence the results of BlastBoost are good : with comparable results, it is efficient on the whole functional family even if the proteins sequences are not conserved. Références A LTSCHUL S., G ISH W., M ILLER W., M YERS E. & L IPMAN D. (1990). Basic local alignment search tool. Journal of Molecular Biology, 215, 403–410. F REUND Y. & S CHAPIRE R. (1997). A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 55(1), 119–139. Q UENTIN Y., C HABALIER J. & F ICHANT G. (2002). Strategies for the identification, the assembly and the classification of integrated biological systems in completely sequenced genomes. Computers and Chemistry, 26, 447–457. 264 Extraction de concepts sous contraintes dans des données d’expression de gènes⋆ Baptiste Jeudy1 , François Rioult2 1 Équipe Universitaire de Recherche en Informatique de St-Etienne (EURISE), Université de St-Etienne. baptiste.jeudy@univ-st-etienne.fr 2 GREYC - CNRS UMR 6072, Université de Caen Basse-Normandie francois.rioult@info.unicaen.fr Résumé : L’une des activités les plus importantes en biologie est l’analyse des données d’expression de gènes. Les biologistes espèrent ainsi mieux comprendre les fonctions des gènes et leurs interactions. Nous étudions dans cet article une technique permettant d’aider à l’analyse de ces données d’expression : l’extraction de concepts sous contraintes. Pour cela, nous proposons d’extraire des fermés sous contraintes dans les données “transposées” en utilisant des algorithmes classiques. Ceci nous amène a étudier la “transposition” des contraintes dans les données transposées de manière à pouvoir les utiliser dans ces algorithmes. Mots-clés : Extraction de connaissances, Data-mining, Concepts Formels, Itemsets Fermés, Contraintes. 1 Motivations Maintenant que le décodage du génome est terminé pour de nombreuses espèces animales et végétales, il reste encore un formidable défi pour la biologie moderne : comprendre la fonction de tous ces gènes et la manière dont ils interagissent entreeux. Pour cela, les biologistes mènent des expériences de mesure de l’expression de gènes. Celles-ci ont pour but de leur fournir des données leur permettant de faire des hypothèses sur ces fonctions et ces interactions. Les données d’expression de gènes se présentent typiquement sous la forme d’une matrice binaire. Chaque colonne représente un gène et chaque ligne donne les résultats d’une expérience de mesure du niveau d’expression des gènes. Chacune de ces expériences consiste à déterminer, pour une cellule donnée issue d’une situation biologique donnée (par exemple un organe spécifique, une culture cellulaire), quels sont les gènes qui sont sur-exprimés, c’est-à-dire ceux qui ont une ⋆ Ce travail a été partiellement financé par l’ACI Bingo 265 CAp 2005 activité biologique importante au moment de la mesure. Dans la matrice, les gènes qui sont sur-exprimés dans une situation biologique sont codés par un 1. Ceux qui ne le sont pas sont codés par un 0. La table 1 donne un exemple d’une telle matrice. cellule 1 cellule 2 cellule 3 Gène 1 1 1 0 Gène 2 1 1 1 Gène 3 1 1 1 Gène 4 0 0 1 Tab. 1 – Exemple de matrice d’expression de gènes Dans cet article, nous étudions une technique de fouille de données permettant d’aider le biologiste à faire des hypothèses sur les fonctions des gènes et la manière dont ils interagissent. Pour cela, les techniques d’extraction de motifs semblent particulièrement adaptées. Il existe cependant de nombreux types de motifs : les itemsets, les itemsets fermés ou libres, les règles d’association ou encore les concepts formels. Nous avons choisi ici d’étudier l’extraction des concepts. Dans ce cadre, un concept formel est une paire (G, E) où G est un ensemble de gènes (i.e., un ensemble de colonnes de la matrice) appelé intension du concept et E un ensemble d’expériences (i.e., un ensemble de lignes) appelé extension du concept. Ces ensembles sont tels que si g ∈ G et e ∈ E, alors le gène g est sur-exprimé dans l’expérience e (il y a un 1 dans la ligne e colonne g). De plus, les deux ensembles G et E sont maximaux, i.e., ils ne peuvent pas grossir sans perdre la propriété précédente (une définition plus formelle des concepts est donnée dans la section 2). Autrement dit, un concept est une sous-matrice maximale ne contenant que des 1. Dans notre matrice exemple, ({Gène 1, Gène 2, Gène 3}, {cel 1, cel 2 }) est un concept. Du point de vue du biologiste, les concepts sont très intéressants. En effet, un concept (G, E) regroupe des gènes qui sont sur-exprimés dans les mêmes expériences. Si la fonction de certains de ces gènes est connue, cela peut permettre de faire des hypothèses sur la fonction de ceux qui sont inconnus. De plus, si les expériences apparaissant dans l’extension E partagent des propriétés communes (par exemple, elles concernent toutes des cellules du foie ou des cellules cancéreuses), cela permet encore une fois de faire des hypothèses sur les gènes. Le fait que les concepts associent à la fois des gènes et des expériences est donc un avantage par rapport à d’autres motifs comme les itemsets ou les règles d’association qui ne portent que sur les gènes. De plus, un gène (ou une expérience) peut apparaı̂tre dans plusieurs concepts (par opposition à ce qui se passe dans le cas du clustering). Si le biologiste s’intéresse à un gène particulier, il peut donc étudier quels sont les gènes liés à celui-ci (i.e., apparaissant dans les mêmes concepts) suivant les situations biologiques. Cela est très important car il s’avère en effet qu’un gène peut intervenir dans plusieurs fonctions biologiques différentes. Enfin, les concepts sont beaucoup moins nombreux que les itemsets tout en représentant la même information : ils sont donc plus simples à exploiter. Pour simplifier encore l’exploitation de ces concepts par le biologiste, l’utilisa- 266 Extraction de concepts sous contraintes tion de contraintes semble pertinente : le biologiste peut indiquer une contrainte qui doit être satisfaite par tous les concepts extraits. Par exemple, il peut imposer qu’un gène particulier (ou ensemble de gène) apparaisse (ou pas) dans les concepts extraits. Il peut aussi se restreindre aux concepts impliquant des expériences sur des cellules cancéreuses ou contenant au moins 5 gènes. L’utilisation des contraintes permet finalement au biologiste de mieux cibler sa recherche. 1.1 Notre contribution Nous proposons dans cet article d’étudier l’extraction de concepts sous contraintes dans des données d’expression de gènes. Cette extraction pose deux problèmes principaux : 1. utilisation des contraintes : nous laissons la possibilité à l’utilisateur de spécifier une contrainte portant à la fois sur l’intension et l’extension du concept. Ces contraintes sont utiles pour l’utilisateur pour préciser sa recherche mais elles sont aussi parfois indispensables pour rendre l’extraction faisable. En effet, il est généralement impossible d’extraire tous les concepts. Il faut donc dans ce cas utiliser les contraintes pendant l’extraction (et non pas seulement dans une phase de filtrage des concepts après l’extraction) pour diminuer la complexité celle-ci. 2. taille des données : la complexité des algorithmes d’extraction est généralement linéaire par rapport au nombre de lignes et exponentielle par rapport au nombre de colonnes. Or dans le cas des données d’expression de gènes, le nombre de colonnes est souvent très important : l’utilisation de techniques comme les puces à ADN permet d’obtenir l’expression de milliers de gènes en une seule expérience. D’un autre coté, le nombre d’expériences est souvent réduit du fait du temps nécessaire à leur mise en place et de leur coût. Ceci amène à des matrices comportant beaucoup de colonnes (jusqu’à plusieurs milliers) et relativement peu de lignes (quelques dizaines ou centaines) ce qui est plutôt atypique dans le domaine du data-mining. Les algorithmes classiques ne sont donc pas bien adaptés à ce type de données. L’extraction de motifs sous contrainte est un thème de recherche qui a été très étudié ces dernières années (Srikant et al., 1997; Ng et al., 1998; Garofalakis et al., 1999; Boulicaut & Jeudy, 2000; Pei & Han, 2000; Zaki, 2000; Boulicaut & Jeudy, 2001; Bucila et al., 2003; Albert-Lorincz & Boulicaut, 2003; Bonchi et al., 2003; Bonchi & Lucchese, 2004)... De nombreux algorithmes ont été proposés et tentent d’utiliser efficacement les contraintes pour diminuer les temps d’extraction en élaguant le plus tôt possible l’espace de recherche. L’extraction de concept est fortement liée à l’extraction d’itemsets libres ou fermés dont l’étude a également donné lieu à de nombreux travaux (Pasquier et al., 1999; Boulicaut et al., 2000; Pei et al., 2000; Zaki & Hsiao, 2002; Boulicaut et al., 2003)... Cependant, ces travaux ne font pas d’extraction de concepts sous contrainte et ne sont pas adaptés à des données ayant plus de colonnes que de lignes. En ce qui concerne l’extraction de concepts sous contraintes, une proposition 267 CAp 2005 récente à été faite dans (Besson et al., 2004). Cependant, l’algorithme proposé, DMiner, ne permet que de traiter un type particulier de contraintes, les contraintes monotones. Nous verrons dans la section 4 comment l’étude que nous proposons ici va nous permettre de traiter aussi les contraintes anti-monotones avec cet algorithme. En ce qui concerne le second problème, plusieurs propositions ont été faites récemment pour le résoudre : L’algorithme CARPENTER (Pan et al., 2003) est conçu pour extraire les fermés fréquents dans une base de données avec plus de colonnes que de lignes. Dans (Rioult et al., 2003; Rioult & Crémilleux, 2004), les auteurs utilisent des algorithmes classiques mais au lieu de faire l’extraction dans les données originales, ils travaillent sur la matrice transposée. Dans ce cas, la matrice transposée comporte beaucoup de lignes et peu de colonnes, ce qui permet d’utiliser les techniques habituelles efficacement. Cependant, ces travaux ne traitent que du cas de la contrainte de fréquence ou de contraintes simples sur les itemsets. Le cas général où la contrainte est une formule booléenne construite à partir de contraintes simples, portant à la fois sur l’intension et l’extension, n’est pas abordé. Notre proposition est donc d’utiliser des algorithmes classiques (éventuellement légèrement modifiés) dans la matrice transposée, afin de travailler sur des données au format plus classique (peu de colonnes, beaucoup de lignes). Pour pouvoir traiter des contraintes complexes portant sur les concepts, nous allons présenter ici une étude théorique sur les contraintes et sur la manière de les “transposer” (en fait, il s’agira plutôt d’une projection) de façon à pouvoir les utiliser dans la matrice transposée. Cet article est organisé de la manière suivante : dans la section 2, nous rappelons quelques définitions à propos de l’extraction d’itemsets et de la correspondance de Galois. Nous présentons ensuite formellement le problème que nous cherchons à résoudre. Dans la section 3, nous présentons la projection des contraintes simples et composées. Ensuite, la section 4 montre comment utiliser la projection de contraintes et l’extraction dans la matrice transposée pour résoudre notre problème. Finalement, nous concluons dans la section 5. 2 Définitions Pour éviter les confusions entre les lignes (ou colonnes) de la base de données originale et les lignes (ou colonnes) de base de données “transposée”, nous définissons une base de données comme une relation entre deux ensembles : un ensemble d’attributs et un ensemble d’objets. L’ensemble des attributs (ou items) est noté A et correspond, dans notre application biologique, à l’ensemble des gènes. L’ensemble des objets est noté O et représente les situations biologiques. L’espace des attributs, 2A , est la collection des sous-ensembles de A, appelés itemsets et l’espace des objets, 2O , est la collection des sous-ensembles de O. Lorsqu’on considère l’ordre défini par l’inclusion ensembliste, chacun des espaces 2A et 2O est naturellement muni d’une structure de treillis. Une base de données est une relation binaire de A × O et peut être représentée 268 Extraction de concepts sous contraintes o1 o2 o3 a1 1 1 0 a2 1 1 1 a3 1 1 1 a4 0 0 1 a1 a2 a3 a4 o1 1 1 1 0 o2 1 1 1 0 o3 0 1 1 1 Tab. 2 – Représentation originale et transposée de la base de données présentée table 1. Les attributs sont A = {a1 , a2 , a3 , a4 } et les objets sont O = {o1 , o2 , o3 }. Nous utilisons une notation sous forme de chaı̂ne pour les ensembles, par exemple a1 a3 a4 désigne l’ensemble d’attributs {a1 , a3 , a4 } et o2 o3 désigne l’ensemble d’objets {o2 , o3 }. Cette base de données sera utilisée dans tous les exemples. par une matrice booléenne dont les colonnes sont les attributs et les lignes sont les objets. Cette matrice constitue la représentation originale de la base. Au cours de cet article, nous considérerons que la base de données a plus d’attributs que d’objets et nous utiliserons également la représentation transposée des données, où les attributs de la base sont portés sur les lignes et les objets sur les colonnes (cf. Table 2). 2.1 Correspondance de Galois L’idée principale qui fonde notre travail est d’utiliser la correspondance forte entre les treillis des 2A et 2O , appelée correspondance de Galois. Cette correspondance a été utilisée la première fois en fouille de données quand des algorithmes d’extraction des itemsets fermés fréquents ont été proposés (Pasquier et al., 1999) et elle est aussi utilisée dans de nombreux travaux en apprentissage conceptuel (Wille, 1992; Nguifo & Njiwoua, 2000). Étant donnée une base de données bd, les opérateurs f et g de Galois sont définis par : – f , appelé intension, est une fonction de 2O vers 2A définie par f (O) = {a ∈ A | ∀o ∈ O, (a, o) ∈ bd} , – g, appelé extension, est une fonction de 2A vers 2O définie par g(A) = {o ∈ O | ∀a ∈ A, (a, o) ∈ bd} . Pour un ensemble A, g(A) est aussi appelé l’ensemble support de A dans bd. C’est l’ensemble des objets qui sont en relation avec tous les attributs de A. La fréquence de A dans bd, notée Freq(A), est définie par Freq(A) = |g(A)|. Ces deux fonctions créent un lien entre l’espace des attributs et l’espace des objets. Pourtant, comme les deux espaces n’ont a priori pas le même cardinal, aucune bijection n’est possible entre eux. Cela signifie que plusieurs ensembles d’attributs ont la même image par g dans l’espace des objets et vice-versa. On peut donc définir deux relations d’équivalence ra et ro sur 2O et 2A : – si A et B sont deux ensembles d’attributs, A ra B si g(A) = g(B), 269 CAp 2005 a1a2a3a4 a2a3a4 a3a4 a2a4 a2a3 a4 o1o2o3 a1a3a4 a1a2a4 a1a2a3 o1o2 a1a4 a1a3 a1a2 a3 a2 o1 a1 O / f (a) g o1o3 o2 o2o3 o3 O / (b) Fig. 1 – Les classes d’équivalence pour ra dans le treillis des attributs (a) et pour ro dans celui des objets (b). Les ensembles fermés sont en gras. Les flèches représentent les opérateurs f et g entre les classes de a1 a2 a3 et o1 o2 . Les flèches en pointillés représentent les opérateurs de clôture h et h′ . – si O et P sont deux ensembles d’objets, O ro P si f (O) = f (P ). Dans chaque classe d’équivalence, il y a un élément particulier : le plus grand élément d’une classe, au sens de l’inclusion, est unique et appelé ensemble d’attributs fermé pour ra ou ensemble d’objets fermé pour ro . Les opérateurs f et g de Galois fournissent, par composition, deux opérateurs de fermeture notés h = f ◦ g et h′ = g ◦ f . Les ensembles fermés sont les points fixes des opérateurs de fermeture et la fermeture d’un ensemble est l’ensemble fermé de sa classe d’équivalence. Dans la suite, nous évoquerons indifféremment h ou h′ avec la notation cl. Une paire (A, O) constituée d’un ensemble d’attributs fermé A et de l’ensemble d’objets fermé correspondant O est appelée un concept formel. L’ensemble des concepts de la base de données bd est noté : Concepts(bd) = {(A, O) | f (O) = A ∧ g(A) = O} . Exemple 1 Dans la figure 1, les ensembles d’objets fermés sont ∅, o3 , o1 o2 , et o1 o2 o3 . Les ensembles d’attributs fermés sont a2 a3 , a2 a3 a4 , a1 a2 a3 et a1 a2 a3 a4 . Comme g(o1 o2 ) = a1 a2 a3 et f (a1 a2 a3 ) = o1 o2 , (a1 a2 a3 , o1 o2 ) est un concept. Les autres concepts sont (a2 a3 , o1 o2 o3 ), (a2 a3 a4 , o3 ), (a1 a2 a3 a4 , ∅). Propriété 1 A et B sont des ensembles d’attributs, O et P des ensembles d’objets et E un ensemble d’attributs ou d’objets. – f sont g sont décroissantes par rapport à l’inclusion : si A ⊆ B alors g(B) ⊆ g(A) et si O ⊆ P , f (P ) ⊆ f (O) ; – f ◦g◦f = f; – E est fermé si et seulement si cl(E) = E et sinon E ⊆ cl(E) ; 270 Extraction de concepts sous contraintes – (A, O) est un concept si et seulement si O est fermé et A = f (O) 2.2 Contraintes Afin de permettre au biologiste de focaliser son étude sur les concepts qui l’intéressent réellement, nous lui laissons la possibilité de définir une contrainte qui devra être satisfaite par tous les concepts extraits. Si on note B l’ensemble des bases de données booléennes (i.e., des matrices booléennes), on appelle contrainte sur les concepts une fonction booléenne C de 2A × 2O × B. Outre le fait qu’une contrainte permet de mieux cibler les ensembles extraits, leur utilisation, lorsqu’elles sont efficacement intégrées à l’algorithme d’extraction, permet également de réduire considérablement le temps de calcul. C’est ce qui explique l’intérêt croissant ces dernières années pour l’étude des algorithmes d’extraction sous contraintes. Cependant, les contraintes utilisées dans ces algorithmes ne portent généralement que sur les itemsets (et pas simultanément sur les itemsets et les ensembles d’objets). Mais, dans la section suivante, nous verrons comment projeter une contrainte sur les concepts pour obtenir une contrainte ne portant plus que sur les objets, et ainsi pouvoir utiliser des techniques classiques d’extraction sous contraintes (sauf que nous les utiliserons dans les données transposées). Parmi les contraintes portant sur les itemsets, la plus utilisée est sans doute la contrainte de fréquence minimale Cγ-freq . Cette contrainte est satisfaite par les itemsets dont la fréquence est supérieure à un seuil gamma fixé par l’utilisateur : Cγ-freq (X) = (Freq(X) > γ). On peut également être intéressé sa négation : c’està-dire chercher des itemsets suffisamment rares et donc utiliser une contrainte de fréquence maximale. Il existe également de nombreuses contraintes syntaxiques. Une contrainte est syntaxique lorsqu’elle ne dépend pas de la matrice des données bd. Par exemple, la contrainte C(A) = a1 ∈ A est syntaxique, alors que la contrainte de fréquence ne l’est pas (en effet, la fréquence d’un itemset dépend des données). Parmi les contraintes syntaxiques, les contraintes de “sur-ensemble”et de “sousensemble” permettent par combinaison (conjonction, disjonction, négation) de construire les autres contraintes syntaxiques (cf. table 3). Étant donné un ensemble constant E, la contrainte de sous-ensemble C⊆E est définie par : C⊆E (X) = (X ⊆ E). La contrainte de sur-ensemble C⊇E est définie par : C⊇E (X) = (X ⊇ E). Remarquons que comme nous allons ensuite utiliser des contraintes sur les itemsets et les ensembles d’objets, les ensembles X et E peuvent soit être tous les deux des itemsets soit tous les deux des ensembles d’objets. Lorsqu’une valeur numérique a.v est associée à chaque attribut a (par exemple un coût), on peut définir d’autres contraintes syntaxiques du type (Ng et al., 1998) MAX(X) θ α (où θ ∈ {<, >, ≤, ≥}) pour différents opérateurs d’agrégation tels que MAX, MIN, SOM (la somme), MOY (la moyenne). Parmi ces contraintes, celles qui utilisent les opérateurs MIN et MAX peuvent être récrites simplement en utilisant les contraintes C⊇E et C⊆E en utilisant l’ensemble 271 CAp 2005 supα = {a ∈ A | a.v > α} comme indiqué dans la table 3. X 6⊆ E ≡ ¬C⊆E (X) X∩E =∅≡X ⊆E X 6⊇ E ≡ ¬C⊇E (X) X ∩ E 6= ∅ ≡ ¬(X ⊆ E) MIN(X) > α ≡ X ⊆ supα MAX(X) > α ≡ X ∩ supα 6= ∅ MIN(X) ≤ α ≡ X 6⊆ supα MAX(X) ≤ α ≡ X ∩ supα = ∅ _ |X ∩ E| ≥ 2 ≡ ei ej ⊆ X 1≤i<j≤n Tab. 3 – Exemples de contraintes obtenues par combinaison des contraintes de sur-ensemble et de sous-ensemble. E = {e1 , e2 , ..., en } est un ensemble constant et X un ensemble variable. Le complémentaire de E dans A ou dans O est noté E. Le fait de récrire toutes ces contraintes syntaxiques en utilisant uniquement les contraintes C⊆E et C⊇E nous permettra de limiter le nombre de contraintes à étudier dans la section 3 sur la projection des contraintes. Finalement, toutes ces contraintes peuvent être combinées pour construire une contrainte sur les concepts, par exemple C(A, O) = (a1 a2 ⊆ A ∧ (O ∩ o4 o5 = ∅)). Pour pouvoir utiliser efficacement les contraintes dans les algorithmes d’extraction, il est nécessaire d’étudier leurs propriétés. Ainsi, deux types de contraintes importantes ont été mises en évidence : les contraintes monotones et les contraintes anti-monotones. Une contrainte C est anti-monotone si ∀A, B (A ⊆ B ∧ C(B)) =⇒ C(A). C est monotone si ∀A, B (A ⊆ B ∧ C(A)) =⇒ C(B). Dans les deux définitions, A et B peuvent être des ensembles d’attributs ou d’objets. La contrainte de fréquence est anti-monotone. L’anti-monotonicité est une propriété importante, parce que les algorithmes d’extraction par niveaux l’utilisent la plupart du temps pour élaguer l’espace de recherche. En effet, quand un ensemble ne satisfait pas la contrainte, ses spécialisations non plus et elles peuvent donc être élaguées (Agrawal et al., 1996). Les compositions élémentaires de telles contraintes ont les mêmes propriétés : la conjonction ou la disjonction de deux contraintes anti-monotones (resp. monotones) est anti-monotone (resp. monotone). La négation d’une contrainte anti-monotone est monotone, et vice-versa. 2.3 Définition du problème Nous définissons la tâche d’extraction de concepts sous contraintes de la manière suivante : étant donnés une base de données bd, une contrainte C sur les concepts, nous voulons extraire l’ensemble des concepts qui satisfont C, c’est-àdire la collection : {(A, O) ∈ Concepts(bd) | C(A, O, bd)} . 272 Extraction de concepts sous contraintes 3 Projections de contraintes Pour extraire les concepts sous contraintes, nous proposons d’utiliser des techniques classiques d’extraction de fermés sous contraintes dans la matrice transposée. Cependant, dans ces algorithmes, les contraintes possibles portent uniquement sur les itemsets. Donc, s’ils sont utilisés dans la matrice transposée, les contraintes porteront sur les ensembles d’objets. Pour permettre leur utilisation, nous allons donc étudier dans cette section un mécanisme de “projection” de contrainte : Étant donné une contrainte C portant sur les concepts (c’est-à-dire à la fois sur l’intension et l’extension), nous voulons calculer une contrainte p(C) portant uniquement sur les ensembles d’objets et telle que la collection des ensembles fermés d’objets satisfaisant cette contrainte soit exactement la collection des extensions des concepts satisfaisant C. De cette manière, La collection des concepts satisfaisant C est exactement la collection des (f (O), O) tels que O est fermé et satisfait la contrainte projetée p(C). {(A, O) ∈ Concepts(bd) | C(A, O, bd)} = {(f (O), O) ∈ A × O | p(C)(O, bd) ∧ O ∈ Fermés(bd)} . Ainsi, pour résoudre notre problème, il suffira d’extraire les ensembles fermés d’objets O satisfaisant p(C) et de générer tous les concepts de la forme (f (O), O). 3.1 Définitions et propriétés Cela signifie que nous voulons extraire des ensembles fermés d’objets O tels que le concept (f (O), O) satisfasse la contrainte C. Par conséquent, une définition naturelle de la projection de la contrainte C est : Définition 1 (Contrainte projetée) Étant donnée une contrainte C sur les concepts, nous définissons la contrainte projetée de C de la façon suivante : p(C)(O, bd) = C(f (O), O, bd), Le proposition suivante assure que l’on obtient bien le résultat voulu : Proposition 1 Soit C une contrainte sur les concepts, bd une base de donnée et p(C) la projection de la contrainte C. Alors : {(A, O) ∈ Concepts(bd) | C(A, O, bd)} = {(f (O), O) ∈ A × O | p(C)(O, bd) ∧ O ∈ Fermés(bd)} . Preuve : (A, O) ∈ Concepts(bd) ∧ C(A, O, bd) ⇔ O ∈ Fermés(bd) ∧ A = f (O) ∧ C(A, O, bd) ⇔ O ∈ Fermés(bd) ∧ C(f (O), O, bd) ⇔ O ∈ Fermés(bd) ∧ p(C)(O, bd).  273 CAp 2005 Par conséquent, pour extraire la collection des concepts qui satisfont C, nous pouvons utiliser des algorithmes classiques d’extraction de fermés dans la matrice transposée avec la contrainte p(C). Cependant, il faut vérifier que cette contrainte p(C) est effectivement utilisable dans ces algorithmes. Nous allons commencer par étudier les contraintes complexes, c’est-à-dire des contraintes construites à partir de contraintes plus simples en utilisant des opérateurs booléens comme la conjonction, la disjonction ou la négation. Proposition 2 Si C et C ′ sont deux contraintes sur les concepts, alors : p(C ∧ C ′ ) = p(C) ∧ p(C ′ ), p(C ∨ C ′ ) = p(C) ∨ p(C ′ ), p(¬C) = ¬p(C). Preuve : Pour la conjonction : p(C ∧ C ′ )(O) = (C ∧ C ′ )(f (O), O) = C(f (O), O) ∧ C ′ (f (O), O) = (p(C) ∧ p(C ′ ))(O). La preuve est similaire pour la disjonction et la négation.  Cette proposition permet de “pousser” la projection dans les contraintes complexe. L’étape suivante est donc d’étudier ce qui se passe au niveau des contraintes élémentaires. Ces contraintes élémentaires peuvent porter sur l’intension du concept (ex : C(A, O) = (a1 ∈ A)) ou sur son extension (ex : C(A, O) = (|O ∩ o1 o3 o5 | ≥ 2). Les contraintes élémentaires qui ne portent que sur l’extension des concepts ne sont pas modifiées par la projection, nous allons donc nous focaliser sur les contraintes portant sur les itemsets. Les contraintes les plus efficacement prises en compte par les algorithmes d’extraction sous contrainte sont les contraintes monotones et anti-monotones. Il est donc important d’étudier comment se comporte la projection de contraintes par rapport à ces propriétés : Proposition 3 Soit C une contrainte sur les itemsets : – si C est anti-monotone alors p(C) est monotone ; – si C est monotone alors p(C) est anti-monotone. Preuve : Si O est un ensemble d’objet, p(C)(O) = C(f (O)) par définition de la projection. Or f est décroissante par rapport à l’inclusion (cf. prop. 1) d’où les propriétés.  3.2 Projection de contraintes classiques Dans la section précédente, nous avons donné la définition de la projection de contrainte. Cette définition fait intervenir f (O). Cela signifie que pour tester la contrainte projetée, il est nécessaire, pour chaque ensemble d’objets O, de calculer son intension f (O). Certains algorithmes, tels que CHARM (Zaki & 274 Extraction de concepts sous contraintes Hsiao, 2002), utilisent une structure de données particulière –la représentation verticale des données– et par conséquent calculent pour chaque ensemble O l’ensemble f (O). Cependant, beaucoup d’autres algorithmes n’utilisent pas cette structure et ne peuvent donc directement utiliser les contraintes projetées. C’est pour cette raison que dans cette section nous étudions les contraintes projetées de contraintes classiques et nous calculons une expression de ces contraintes ne faisant plus intervenir f (O). Nous allons d’abord étudier la contrainte de fréquence minimale (qui est la contrainte la plus courante) : Cγ-freq (A) = (Freq(A) > γ). Par définition, sa contrainte projetée est : p(Cγ-freq )(O) = (Freq(f (O)) > γ). Par définition de la fréquence, Freq(f (O)) = |g(f (O))| = |cl(O)| et si O est un ensemble fermé d’objets, cl(O) = O et par conséquent p(Cγ-freq )(O) = (|O| > γ). Finalement, la projection de la contrainte de fréquence minimale est une contrainte de taille minimale. Si on avait considéré la contrainte de fréquence maximale, on aurait évidement trouvé comme projection une contrainte de taille maximale. De par la symétrie du problème, il découle que la projection de la contrainte de taille maximale (resp. minimale) est la contrainte de fréquence : si C(A) = (|A| θ α) alors p(C)(O) = (|f (O)| θ α). Or |f (O)| est exactement la fréquence de O si on se place dans la matrice transposée. Les deux propositions suivantes donnent l’expression de la projection des contraintes de sur-ensemble et de sous-ensemble : Proposition 4 Soit E un itemset, alors : p(C⊇E )(O) ≡ g(E) ⊇ cl(O). Preuve : p(C⊇E )(O) ⇔ (E ⊆ f (O)) ⇒ (g(E) ⊇ g ◦ f (O)) ⇔ (g(E) ⊇ cl(O)). Réciproquement, (g ◦ f (O) ⊆ g(E)) ⇒ (f ◦ g ◦ f (O) ⊇ f ◦ g(E)) ⇒ (f (O) ⊇ cl(E)) ⇒ f (O) ⊇ E.  Proposition 5 Soit E un itemset, alors, si E est fermé : p(C⊆E )(O) ≡ g(E) ⊆ cl(O), si E n’est pas fermé, on pose E = A \ E = {f1 , ..., fm } et : p(C⊆E )(O) ≡ (cl(O) 6⊆ g(f1 ) ∧ cl(O) 6⊆ g(f2 ) ∧ ... ∧ cl(O) 6⊆ g(fm ). Preuve : p(C⊆E )(O) ⇔ C⊆E (f (O)) ⇔ (f (O) ⊆ E) ⇒ (g ◦ f (O) ⊇ g(E)) ⇔ (cl(O) ⊇ g(E)). Réciproquement, (si E est fermé) : (g(E) ⊆ g◦f (O)) ⇒ (f ◦g(E) ⊇ f ◦ g ◦ f (O)) ⇒ (cl(E) ⊇ f (O)) ⇒ (E ⊇ f (O)). Si E n’est pas fermé, on récrit la contrainte : (A ⊆ E) = f1 6∈ A ∧ ... ∧ fm 6∈ A et on utilise les propositions 2 et 4.  La table 3.2 récapitule les contraintes projetées de contraintes classiques. Les contraintes de fréquence et de taille ont été traitées plus haut. Les deux propriétés 275 CAp 2005 Contrainte C(A) Freq(A) θ α |(| A) θ α A⊆E E⊆A A 6⊆ E E 6⊆ A A∩E =∅ A ∩ E 6= ∅ SOM(A) θ α MOY(A) θ α MIN(A) > α MIN(A) ≤ α MAX(A) > α MAX(A) ≤ α Contrainte projetée p(C)(O) |O| θ α Freq(O) θ α si E est fermé : g(E) ⊆ O sinon : O 6⊆ g(f1 ) ∧ ... ∧ O 6⊆ g(fm ) O ⊆ g(E) si E est fermé : g(E) 6⊆ O sinon : O ⊆ g(f1 ) ∨ ... ∨ O ⊆ g(fm ) O 6⊆ g(E) si E est fermé : g(E) ⊆ O sinon : O 6⊆ g(e1 ) ∧ ... ∧ O 6⊆ g(en ) si E est fermé : g(E) 6⊆ O sinon : O ⊆ g(e1 ) ∨ ... ∨ O ⊆ g(en ) Freqp (O) θ α Freqp (O)/Freq(O) θ α p(A ⊆ supα ) p(A 6⊆ supα ) p(A ∩ supα 6= ∅) p(A ∩ supα = ∅) θ ∈ {<, >, ≤, ≥} Tab. 4 – Contraintes projetées. A est un ensemble variable d’attributs, E = {e1 , e2 , ..., en } un ensemble fixé d’attributs, E = A \ E = {f1 , f2 , ..., fm } son complémentaire et O un ensemble d’objets fermé. 276 Extraction de concepts sous contraintes précédentes, avec l’aide de la table 3 et de la proposition 2 nous permettent de calculer la projection des contraintes syntaxiques, exceptées les contraintes utilisant les opérateurs d’agrégation MOY et SOM. Dans cette table, on suppose que l’ensemble d’objets O est fermé. Cela n’est pas une restriction importante dans la mesure où nous ne nous intéressons qu’à des algorithmes d’extraction de fermés (ces fermés serviront à générer les concepts). Examinons maintenant les contraintes utilisant les opérateurs d’agrégation MOY et SOM. Par définition, les contraintes projetées sont :MOY(f (O)) θ α et SOM(f (O)) θ α. Il faut donc trouver une expression de MOY(f (O)) et SOM(f (O)) ne faisant plus intervenir f . En fait, il suffit d’étudier l’opérateur SOM car MOY(f (O)) = SOM(f (O))/ |f (O)| = SOM(f (O))/Freq(O) donc si nous trouvons une expression de SOM(f (O)) dans la base projetée, nous obtiendrons aussi une expression pour MOY(f (O)). L’ensemble f (O) est un ensemble d’attribut, donc dans la matrice transposée, c’est un ensemble de lignes. Les valeurs a.v sur lesquelles la somme est calculée sont attachées aux attributs a et donc aux lignes de la matrice transposée. La valeur SOM(f (O)) est donc la somme de ces valeurs v sur toutes les lignes de f (O), c’est-à-dire les lignes contenant O. Autrement dit, SOM(f (O)) est une fréquence pondérée par les valeurs v (nous notons cette fréquence pondérée Freqp ). Celle-ci peut être facilement calculée par les algorithmes en plus de la fréquence “classique” Freq. Il suffit pour cela, lors de la passe sur les données, d’incrémenter cette fréquence pondérée de a.v pour chaque ligne a contenant O. Ces expressions de la contrainte projetée sont intéressantes car elles n’impliquent plus le calcul de f (O) pour chaque ensemble devant être testé. Les ensembles g(E) or g(ei ) qui apparaissent dans ces contraintes peuvent quant à eux être calculés une fois pour toute lors de la première passe sur les données (en effet, l’ensemble E est constant). Exemple 2 Dans cet exemple, nous montrons comment calculer la projection d’une contrainte complexe dans la base de données de la table 2. La contrainte est : C(A, O, bd) = (A ∩ a1 a4 6= ∅). Dans la table 2, l’itemset a1 a4 = a2 a3 est fermé. Par conséquent, la contrainte projetée est p(C)(O) = (g(a2 a3 ) 6⊆ O). Comme g(a2 a3 ) = o1 o2 o3 , p(C)(O) = (o1 o2 o3 6⊆ O). Les ensembles fermés d’objets qui satisfont cette contrainte sont T = {∅, o1 o2 , o3 }. Nous pouvons ensuite calculer les concepts correspondants qui sont : (a1 a2 a3 a4 , ∅), (a1 a2 a3 , o1 o2 ) et (a2 a3 a4 , o3 ). 4 Utilisation de la projection de contraintes Dans cette section, nous présentons deux stratégies pour extraire les concepts satisfaisant une contrainte C et ainsi résoudre le problème posé dans la section 2.3. La première stratégie utilise les algorithmes classiques d’extraction de fermés : 1. Calculer la contrainte projetée p(C) de C en utilisant la table 3.2 et la propriété 2 ; 277 CAp 2005 2. Utiliser un algorithme pour l’extraction de fermés sous contraintes dans la matrice transposée (comme par exemple, ceux proposés dans (Bonchi & Lucchese, 2004) ou (Boulicaut & Jeudy, 2001)) avec la contrainte p(C). Il est aussi possible d’utiliser des algorithmes d’extraction de fermés fréquent tels que CHARM (Zaki & Hsiao, 2002), CARPENTER (Pan et al., 2003) ou CLOSET (Pei et al., 2000) en leur rajoutant une étape d’élagage supplémentaire pour traiter la contrainte (à la manière de ce qui est fait dans (Pei & Han, 2000). 3. Ces algorithmes extraient des ensembles fermés. Cela signifie qu’ils vont retourner les ensembles d’objets fermés (car nous travaillons dans la matrice transposée) qui satisfont la contrainte p(C). Il faut alors pour chacun de ces fermés calculer son intension f (O), d’après la proposition 1, les paires (f (O), O) ainsi formées seront exactement les concepts qui satisfont la contrainte C. Le calcul de f (O) peut être fait lors d’une dernière passe sur les données ou alors intégré dans les algorithmes. En fait, ces algorithmes calculent ces intensions lors du calcul de la fréquence des ensembles (la fréquence de O est |f (O)|). Il suffit donc de les modifier pour qu’ils stockent ces intensions. La seconde stratégie est basée sur le nouvel algorithme D-Miner (Besson et al., 2004). Cet algorithme extrait des concepts sous une contrainte C qui est la conjonction d’une contrainte monotone sur les attributs et d’une contrainte monotone sur les objets. Il ne peut cependant pas traiter le cas où des contraintes anti-monotones sont utilisées. Notre stratégie consiste alors à projeter les contraintes anti-monotones définies dans l’espace des attributs sur l’espace des objets et à projeter les contraintes anti-monotones définies dans l’espace des objets sur l’espace des attributs. En effet, d’après la proposition 3, la projection transforme une contrainte antimonotone en une contrainte monotone. Cela permet donc d’utiliser D-Miner avec des contraintes monotones et anti-monotones. Nous n’avons présenté que la projection des contraintes de l’espace des attributs sur l’espace des objets. Cependant, la projection dans l’autre sens est similaire. En fait, il suffit de remplacer la fonction f par la fonction g. 5 Conclusion L’analyse des données d’expression de gènes pose un problème spécifique pour l’extraction de motifs : les données contiennent beaucoup plus de colonnes que de lignes ce qui rend les algorithmes d’extraction classiques inopérants. Dans ce cas, extraire les motifs dans la matrice transposée permet de s’affranchir de ce problème. La transposition a déjà été étudié dans le cas de la contrainte de fréquence, mais l’étude générale de ce qui se passe dans le cas d’une contrainte complexe restait à faire. Cette étude nous a permis de proposer des stratégies pour extraire des concepts sous contraintes. Ces stratégies, plutôt que de proposer un nouvel 278 Extraction de concepts sous contraintes algorithme, se fondent sur l’utilisation d’algorithmes classiques et éprouvés d’extraction de fermés ou de concepts. Afin de rendre leur utilisation possible, nous avons défini une opération de projection des contraintes et nous avons étudié ses propriétés ainsi que les projections de contraintes classiques. Références Agrawal R., Mannila H., Srikant R., Toivonen H. & Verkamo A. I. (1996). Fast discovery of association rules. In U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth & R. Uthurusamy, Eds., Advances in Knowledge Discovery and Data Mining, p. 307–328. Menlo Park : AAAI Press. Albert-Lorincz H. & Boulicaut J.-F. (2003). Mining frequent sequential patterns under regular expressions : a highly adaptative strategy for pushing constraints. In Third SIAM International Conference on Data Mining (SIAM DM’03), p. 316–320. Besson J., Robardet C. & Boulicaut J.-F. (2004). Constraint-based mining of formal concepts in transactional data. In H. Dai, R. Srikant & C. Zhang, Eds., Proceedings of the 8th Pacif-Asia Conference on Knowledge Discovery and Data Mining (PAKDD’04), volume 3056 of Lecture Notes in Computer Science, p. 615–624, Sydney, Australia. Bonchi F., Giannotti F., Mazzanti A. & Pedreschi D. (2003). Exante : Anticipated data reduction in constrained pattern mining. In Proceedings of the 7th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD’03), volume 2838 of Lecture Notes in Artificial Intelligence, CavtatDubrovnik, Croatia. Bonchi F. & Lucchese C. (2004). On closed constrained frequent pattern mining. In Proceedings of the Fourth IEEE International Conference on Data Mining (ICDM’04), Brighton, UK. Boulicaut J.-F., Bykowski A. & Rigotti C. (2000). Approximation of frequency queries by mean of free-sets. In D. Zighed, J. Komorowski & J. M. Zytkow, Eds., Proceedings of the 4th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD’00), volume 1910 of Lecture Notes in Artificial Intelligence, p. 75–85, Lyon, France : Berlin : Springer-Verlag. Boulicaut J.-F., Bykowski A. & Rigotti C. (2003). Free-sets : a condensed representation of boolean data for the approximation of frequency queries. Data Mining and Knowledge Discovery, 7(1), 5–22. Boulicaut J.-F. & Jeudy B. (2000). Using constraint for itemset mining : should we prune or not ? In A. Doucet, Ed., Actes des 16e Journées Bases de Données Avancées (BDA’00), p. 221–237, Blois, France : Université de Tours. Boulicaut J.-F. & Jeudy B. (2001). Mining free-sets under constraints. In M. E. Adiba, C. Collet & B. C. Desai, Eds., Proceedings of the International Database Engineering & Applications Symposium (IDEAS’01), p. 322–329, Grenoble, France : IEEE Computer Society. Bucila C., Gehrke J. E., Kifer D. & White W. (2003). Dualminer : A dualpruning algorithm for itemsets with constraints. Data Mining and Knowledge Discovery, 7(4), 241–272. 279 CAp 2005 Garofalakis M. M., Rastogi R. & Shim K. (1999). SPIRIT : Sequential pattern mining with regular expression constraints. In M. P. Atkinson & others, Eds., Proceedings of the 25nd International Conference on Very Large Data Bases (VLDB’99), p. 223–234, Edinburgh, UK : San Francisco : Morgan Kaufmann. Ng R., Lakshmanan L. V., Han J. & Pang A. (1998). Exploratory mining and pruning optimizations of constrained associations rules. In L. M. Haas & A. Tiwary, Eds., Proceedings of ACM SIGMOD Conference on Management of Data (SIGMOD’98), volume 27(2) of SIGMOD Record, p. 13–24, Seattle, Washington, USA : New York : ACM Press. Nguifo E. M. & Njiwoua P. (2000). GLUE : a lattice-based constructive induction system. Intelligent Data Analysis, 4(4), 1–49. Pan F., Cong G., Tung A. K. H., Yang J. & Zaki M. J. (2003). CARPENTER : Finding closed patterns in long biological datasets. In Proceedings of the 9th International Conference on Knowledge Discovery and Data Mining (KDD’03), Washington DC : New York : ACM Press. Pasquier N., Bastide Y., Taouil R. & Lakhal L. (1999). Efficient mining of association rules using closed itemset lattices. Information Systems, 24(1), 25–46. Pei J. & Han J. (2000). Can we push more constraints into frequent pattern mining ? In Proceedings of the 6th International Conference on Knowledge Discovery and Data Mining (KDD’00), p. 350–354, Boston, USA : New York : ACM Press. Pei J., Han J. & Mao R. (2000). CLOSET an efficient algorithm for mining frequent closed itemsets. In D. Gunopulos & R. Rastogi, Eds., Proceedings of the ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (DMKD’00), Dallas, Texas, USA. Disp. en ligne (sept. 2002) http://www.cs.ucr. edu/~dg/DMKD.html, 10 pages. Rioult F., Boulicaut J.-F., Crémilleux B. & Besson J. (2003). Using transposition for pattern discovery from microarray data. In 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, p. 73–79, San Diego, USA. Rioult F. & Crémilleux B. (2004). Optimisation of pattern mining : a new method founded on database transposition. In EIS’04. Srikant R., Vu Q. & Agrawal R. (1997). Mining association rules with item constraints. In D. Heckerman, H. Mannila, D. Pregibon & R. Uthurusamy, Eds., Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining (KDD’97), p. 67–73, Newport Beach, California, USA : Menlo Park : AAAI Press. Wille R. (1992). Concept lattices and conceptual knowledge systems. Computer mathematic applied, 23((6-9)), 493–515. Zaki M. J. (2000). Sequence mining in categorical domains : incorporating constraints. In Proceedings of the 9th ACM International Conference on Information and Knowledge Management (CIKM’00), p. 422–429, Washington DC, USA : New York : ACM Press. Zaki M. J. & Hsiao C.-J. (2002). CHARM : An efficient algorithm for closed itemset mining. In R. Grossman, J. Han, V. Kumar, H. Mannila & R. Motwani, Eds., 2nd International SIAM Conference on Data Mining (SDM02), Arlington, USA. Disp. en ligne (sept. 2002) http://www.siam.org/meetings/sdm02/, 17 pages. 280 Semi-supervised Learning by Entropy Minimization ⋆ Yves Grandvalet1 , Yoshua Bengio2 1 Heudiasyc, UMR 6599 CNRS/UTC 60205 Compiègne cedex, France grandval@utc.fr 2 Dept. IRO, Université de Montréal Montreal, Qc, H3C 3J7, Canada bengioy@iro.umontreal.ca Abstract : We consider the semi-supervised learning problem, where a decision rule is to be learned from labeled and unlabeled data. In this framework, we motivate minimum entropy regularization, which enables to incorporate unlabeled data in the standard supervised learning. This regularizer can be applied to any model of posterior probabilities. Our approach provides a new motivation for some existing semi-supervised learning algorithms which are particular or limiting instances of minimum entropy regularization. A series of experiments illustrates that the proposed solution benefits from unlabeled data. The method challenges mixture models when the data are sampled from the distribution class spanned by the generative model. The performances are definitely in favor of minimum entropy regularization when generative models are misspecified, and the weighting of unlabeled data provides robustness to the violation of the “cluster assumption”. Finally, we also illustrate that the method can be far superior to manifold learning in high dimension spaces, and also when the manifolds are generated by moving examples along the discriminating directions. Résumé : Nous considérons le problème de l’apprentissage semi-supervisé, où une règle de décision est induite sur la base d’exemples étiquetés et non-étiquetés. Dans ce cadre, nous motivons l’utilisation de la régularisation par minimum d’entropie, qui permet d’utiliser les données non-étiquetées dans l’apprentissage de modèles discriminants. Cette technique peut être appliquée à tout modèle discriminant estimant des probabilités a posteriori. Notre approche fournit un nouveau point de vue sur certains algorithmes d’apprentissage semi-supervisé existants, qui peuvent être interprétés comme cas particulier ou limite de la régularisation par minimum d’entropie. Une série d’expérience illustre que la solution proposée permet de bénéficier de données non-étiquetées. Les résultats ⋆ This work was supported in part by the IST Programme of the European Community, under the PASCAL Network of Excellence IST-2002-506778. This publication only reflects the authors’ views. 281 CAp 2005 concurrencent ceux des modèles génératifs quand ces derniers utilisent le modèle correct, correspondant à celui de la distribution des données. Les performances sont clairement en faveur de la régularisation par minimum d’entropie quand le modèle devient incorrect, et la pondération des exemples non-étiquetés permet d’atteindre des solutions robustes aux violations de l’hypothèse de départ, qui postule que les classes sont bien séparées. Finalement, nous illustrons que la méthode peut également être de loin supérieure aux techniques récentes d’apprentissage de variété, que ce soit dans les espaces de grande dimension, ou quand les variétés sont produites par des exemples transformés sur les directions discriminantes. Keywords : semi-supervised learning, minimum entropy, transduction, self-training, EM algorithm, spectral methods, logistic regression. 1 Introduction In the classical supervised learning classification framework, a decision rule is to be learned from a learning set Ln = {xi , yi }ni=1 , where each example is described by a pattern xi ∈ X and by the supervisor’s response yi ∈ Ω = {ω1 , . . . , ωK }. Here, we consider semi-supervised learning, where the supervisor’s responses are limited to a subset of Ln . In the terminology used here, semi-supervised learning refers to learning a decision rule on X from labeled and unlabeled data. However, the related problem of transductive learning, that is, of predicting labels on a set of predefined patterns, is addressed as a side issue. Semi-supervised problems occur in many applications where labeling is performed by human experts. They have been receiving much attention during the last few years, but some important issues are unresolved (Seeger, 2002). In the probabilistic framework, semi-supervised learning can be modeled as a missing data problem, which can be addressed by generative models such as mixture models thanks to the EM algorithm and extensions thereof (McLachlan, 1992). Generative models apply to the joint density of patterns and class (X, Y ). They have appealing features, but they also have major drawbacks. Their estimation is much more demanding than discriminative models, since the model of P (X, Y ) is exhaustive, hence necessarily more complex than the model of P (Y |X). More parameters are to be estimated, resulting in more uncertainty in the estimation process. The generative model being more precise, it is also more likely to be misspecified. Finally, the fitness measure is not discriminative, so that better models are not necessarily better predictors of class labels. These difficulties have lead to proposals where unlabeled data are processed in supervised classification algorithms (Bennett & Demiriz, 1999; Joachims, 1999; Amini & Gallinari, 2002; Grandvalet, 2002; Szummer & Jaakkola, 2003). Here, we propose an estimation principle applicable to any probabilistic classifier, aiming at making the most of unlabeled data when they should be beneficial, while controling their contribution to provide robustness to the learning scheme. 282 2 Derivation of the Criterion 2.1 Likelihood The maximum likelihood principle is one of the main estimation technique in supervised learning, which is closely related to the more recent margin maximization techniques such as boosting and support vector machines (Friedman et al., 2000). We start here by looking at the contribution of unlabeled examples to the (conditional) likelihood. The learning set is denoted Ln = {xi , zi }ni=1 , where zi ∈ {0, 1}K denotes the dummy variable representing the actually available labels (while y represents the precise and complete class information): if xi is labeled ωk , then zik = 1 and ziℓ = 0 for ℓ 6= k; if xi is unlabeled, then ziℓ = 1 for ℓ = 1, . . . , K. More generally, z should be thought as the index of possible labels. Hence, an imprecise knowledge, such that “xi belongs either to class ω1 or ω2 ” can be encoded by letting zi1 and zi2 to be one, and zik = 0 for k > 2. We assume that labels are missing at random, that is, the missingness mechanism is independent from the missing information: the label is missing because it is not observed, not because it is deliberately hidden. In the general setup where z can indicate any subset of Ω, some information is missing when two or more labels are possible. The missing-at-random assumption reads P (z|x, Y = ωk ) = P (z|x, Y = ωℓ ) for all (k, ℓ) such that zk = zℓ = 1. Assuming independent examples, and noting that the eventP “yi belongs to the subset K indicated by zi ” follows a Bernoulli distribution of parameter k=1 zik P (Y = ωk |xi ), the conditional log-likelihood of (Z|X) on the observed sample is then L(θ; Ln ) = n X i=1 log K X ! zik fk (xi ; θ) k=1 + h(zi ) , (1) where h(z), which does not depend on P (X, Y ), is only affected by the missingness mechanism, and fk (x; θ) is the model of P (Y = ωk |x) parameterized by θ. This criterion is a concave function of fk (xi ; θ), and for simple models such as the ones provided by logistic regression, the semi-supervised objective function is also concave in θ, so that the global solution can be obtained by numerical optimization. Maximizing (1) corresponds to maximizing the complete likelihood if no assumption whatsoever is made on P (X) (McLachlan, 1992). Provided fk (xi ; θ) sum to one, the likelihood is not affected by unlabeled data: unlabeled data convey no information. In the maximum a posteriori (MAP) framework, Seeger (2002) remarks that unlabeled data are useless regarding discrimination when the priors on P (X) and P (Y |X) factorize: observing x does not inform about y, unless the modeler assumes so. Benefitting from unlabeled data requires assumptions of some sort on the relationship between X and Y . In the MAP framework, this will be encoded by a prior distribution. As there is no such thing like a universally relevant prior, we should look for an induction bias allowing to process unlabeled data when the latter is known to convey information. 283 CAp 2005 2.2 When Are Unlabeled Examples Informative? Theory provides little support to the numerous experimental evidences, such as (Joachims, 1999; Nigam & Ghani, 2000; Nigam et al., 2000), showing that unlabeled examples can help the learning process. Learning theory is mostly developed at the two extremes of the statistical paradigm: in parametric statistics where examples are known to be generated from a known class of distribution, and in the distribution-free Structural Risk Minimization (SRM) or Probably Approximately Correct (PAC) frameworks. Semi-supervised learning, in the terminology used here, does not fit the distribution-free frameworks: no positive statement can be made without distributional assumptions, as for some distributions P (X, Y ) unlabeled data are non-informative while supervised learning is an easy task. In this regard, generalizing from labeled and unlabeled data may differ from transductive inference. In parametric statistics, theory has shown the benefit of unlabeled examples, either for specific distributions (O’Neill, 1978), or for mixtures of the form P (x) = pP (x|Y = ω1 ) + (1 − p)P (x|Y = ω2 ) where the estimation problem is essentially reduced to the one of estimating the mixture parameter p (Castelli & Cover, 1996). These studies conclude that the (asymptotic) information content of unlabeled examples decreases as classes overlap.1 Thus, the assumption that classes are well apart, separated by a low density area, is sensible if we expect to take advantage of unlabeled examples. 2.3 A Measure of Class Overlap The conditional entropy H(Y |X) is a measure of class overlap, which is invariant to the parameterization of the model. The entropy may be related to the usefulness of unlabeled data only where labeling is indeed ambiguous. Hence, we propose to measure the conditional entropy of class labels conditioned on the observed variables H(Y |X, Z) = −EXY Z [log P (Y |X, Z)] , (2) where EX denotes the expectation with respect to X. In the MAP framework, assumptions are encoded by means of a prior on the model parameters. Stating that we expect a high conditional entropy does not uniquely define the form of the prior distribution, but the latter can be derived by resorting to the maximum entropy principle.2 Let (θ, ψ) denote the model parameters of P (X, Y, Z); the maximum entropy prior verifying EΘΨ [H(Y |X, Z)] = c, where the constant c quantifies how small the entropy should be on average, takes the form P (θ, ψ) ∝ exp (−λH(Y |X, Z))) , (3) where λ is the positive Lagrange multiplier corresponding to the constant c. 1 This statement, given explicitly by O’Neill (1978), is also formalized, though not stressed, by Castelli & Cover (1996), where the Fisher information for unlabeled examples at the estimate p̂ is clearly a measure of R (x|Y =ω1 )−P (x|Y =ω2 ))2 the overlap between class conditional densities: Iu (p̂) = p̂P(P dx. (x|Y =ω )+(1−p̂)P (x|Y =ω ) 1 2 Here, 2 maximum entropy refers to the construction principle which enables to derive distributions from constraints, not to the content of priors regarding entropy. 284 Computing H(Y |X, Z) requires a model of P (X, Y, Z) whereas the choice of supervised classification is motivated by the possibility to limit modeling to conditional probabilities. We circumvent the need of additional modeling by applying the plugin principle, which consists in replacing the expectation with respect to (X, Z) by the sample average. This substitution, which can be interpreted as “modeling” P (X, Z) by its empirical distribution, yields n Hemp(Y |X, Z; Ln ) = − K 1 XX P (Y = ωk |xi , zi ) log P (Y = ωk |xi , zi ) . n i=1 (4) k=1 This empirical functional is plugged in (3) to define an empirical prior on parameters θ, that is, a prior whose form is partly defined from data (Berger, 1985). 2.4 Entropy Regularization As detailed in appendix A, the missing-at-random assumption implies zk P (Y = ωk |x) P (Y = ωk |x, z) = PK . ℓ=1 zℓ P (Y = ωℓ |x) (5) Recalling that fk (x; θ) denotes the model of P (Y = ωk |x), the model of P (Y = ωk |x, z) is defined as follows: zk fk (x; θ) gk (x, z; θ) = PK . ℓ=1 zℓ fℓ (x; θ) For labeled data, gk (x, z; θ) = zk , and for unlabeled data, gk (x, z; θ) = fk (x; θ). From now on, we drop the reference to parameter θ in fk and gk to lighten notation. The MAP estimate is defined as the maximizer of the posterior distribution, that is, the maximizer of C(θ, λ; Ln ) = L(θ; Ln ) − λHemp (Y |X, Z; Ln ) ! n K n X K X X X zik fk (xi ) + λ gk (xi , zi ) log gk (xi , zi ) , (6) log = i=1 i=1 k=1 k=1 where the constant terms in the log-likelihood (1) and log-prior (3) have been dropped. While L(θ; Ln ) is only sensitive to labeled data, Hemp (Y |X, Z; Ln ) is only affected by the value of fk (x) on unlabeled data. Note that the empirical approximation Hemp (4) of H (2) breaks down for wiggly functions fk (·) with abrupt changes between data points (where P (X) is bounded from below). As a result, it is important to constrain fk (·) in order to enforce the closeness of the two functionals. In the following experimental section, we imposed such a constraint on fk (·) by adding to the criterion C (6) a smoothness penalty. 285 CAp 2005 3 Related Work 3.1 Minimum Entropy in Pattern Recognition Minimum entropy regularizers have been used in other contexts to encode learnability priors (Brand, 1999). In a sense, Hemp can be seen as a poor’s man way to generalize this approach to continuous input spaces. This empirical functional was also used by Zhu et al. (2003) as a criterion to learn weight function parameters in the context of transduction in manifold learning. 3.2 Input-Dependent and Information Regularization Input-dependent regularization aims at incorporating some knowledge about the density P (X) in the modeling of P (Y |X). In the framework of Bayesian inference, Seeger (2002) proposes to encode this knowledge by structural dependencies in the prior distributions. Information regularization, proposed by Szummer & Jaakkola (2003) and later developped by Corduneanu & Jaakkola (2003), is another approach where the density P (X) is assumed to be known, and where the mutual information between variables X and Y is supposed to be low within predefined neighborhoods. Entropy regularization differs from input-dependent regularization in that it is expressed only in terms of P (Y |X, Z) and does not involve a model of P (X). However, we stress that for unlabeled data, the MAP estimation is consistent with the maximum (complete) likelihood approach when P (X) is small near the decision surface. Indeed, whereas the complete likelihood maximizes log P (X) on unlabeled data, the regularizer minimizes the conditional entropy on the same points. Hence, the two criteria agree provided the class assignments are confident in high density regions, or conversely, when label switching occurs in a low density area. 3.3 Self-Training Self-training (Nigam & Ghani, 2000) is an iterative process, where a learner imputes the labels of examples which have been classified with confidence in the previous step. Amini & Gallinari (2002) analyzed this technique and have shown that it is equivalent to a version of the classification EM algorithm, which minimizes the likelihood deprived of the entropy of the partition. In the context of conditional likelihood with labeled and unlabeled examples, the criterion is ! K K n X X X gk (xi ) log gk (xi ) , zik fk (xi ) + log i=1 k=1 k=1 which is recognized as an instance of the criterion (6) with λ = 1. Self-confident logistic regression (Grandvalet, 2002), also proposed by Jin & Ghahramani (2003) as “the EM model”, is another algorithm optimizing the criterion for λ = 1. Using smaller λ values is expected to have two benefits. First, the influence of unlabeled examples can be controlled, in the spirit of EM-λ (Nigam et al., 2000). Second, slowly increasing λ defines a scheme similar to the increase of the C ∗ parameter in the 286 transductive SVM algorithm of Joachims (1999). These schemes are somewhat similar to the deterministic annealing procedures, used for example in clustering (Rose et al., 1990). They are expected to help the optimization process to avoid poor local minima of the criterion. 3.4 Maximal Margin Separators Maximal margin separators are theoretically well founded models which have shown great success in supervised classification. For linearly separable data, they have been shown to be a limiting case of probabilistic hyperplane separators (Tong & Koller, 2000). In the framework of transductive learning, Vapnik (1998) proposed to broaden the margin definition to unlabeled examples, by taking the smallest Euclidean distance between any (labeled and unlabeled) training point to the classification boundary. The following theorem, whose proof is given in Appendix B, generalizes Theorem 5, Corollary 6 of Tong & Koller (2000) to the margin defined in transductive learning when using the proposed minimum entropy criterion. Theorem 1 In the two-class linear separable case, the logistic regression model with bounded weights, fitted by the minimum entropy criterion, converges towards the maximum margin separator (with maximal distance from labeled and unlabeled examples) as the bound goes to infinity. Hence, the minimum entropy solution can closely mimic semi-supervised SVM (Bennett & Demiriz, 1999), which partially solves the enumeration problem of the original solution proposed by Vapnik (1998). Note however that our criterion is not concave in fk , so that the convergence toward the global maximum cannot be guaranteed. To our knowledge, this apparent fault is shared by all inductive semi-supervised algorithms (learning a decision rule) dealing with a large number of unlabeled data in reasonable time, such as mixture models or the transductive SVM of Joachims (1999): explicitly or implicitly, inductive semisupervised algorithms impute labels which are consistent with a decision rule. The enumeration of all possible configurations is only avoided thanks to an heuristic process which may fail. Most transduction algorithms avoid this enumeration problem because their labeling process is not required to comply with a parameterized decision rule. This clear computational advantage has however its counterpart: label propagation is performed via a predefined, hence non-discriminant, similarity measure. The experimental section below demonstrates that this may be a serious shortcomming in high dimensional spaces, or when a priori similar patterns should be discriminated. 287 CAp 2005 4 Experiments 4.1 Artificial Data In this section, we chose a simple experimental setup in order to avoid artifacts stemming from optimization problems. This setting enables to check to what extent supervised learning can be improved by unlabeled examples, and if minimum entropy can compete with generative methods which are usually advocated in this framework. The minimum entropy criterion is applied to the logistic regression model. It is compared to logistic regression fitted by maximum likelihood (ignoring unlabeled data) and logistic regression with all labels known. The former shows what has been gained by handling unlabeled data, and the latter provides the “crystal ball” ultimate performance obtained by guessing correctly all labels. All hyper-parameters (weight-decay for all logistic regression models plus the λ parameter (6) for minimum entropy) are tuned by ten-fold cross-validation. Minimum entropy logistic regression is also compared to the classic EM algorithm for Gaussian mixture models (two means and one common covariance matrix estimated by maximum likelihood on labeled and unlabeled examples (McLachlan, 1992). Bad local maxima of the likelihood function are avoided by initializing EM with the parameters of the true distribution when the latter is a Gaussian mixture, or with maximum likelihood parameters on the (fully labeled) test sample when the distribution departs from the model. This initialization advantages EM, since it is guaranteed to pick, among all local maxima of the likelihood, the one which is in the basin of attraction of the optimal value. Furthermore, this initialization prevents interferences that may result from the “pseudo-labels” given to unlabeled examples at the first E-step. In particular, “label switching” (badly labeled clusters) is avoided at this stage. 4.1.1 Correct joint density model In the first series of experiments, we consider two-class problems in a 50-dimensional input space. Each class is generated with equal probability from a normal distribution. Class ω1 is normal with mean (aa . . . a) and unit covariance matrix. Class ω2 is normal with mean −(aa . . . a) and unit covariance matrix. Parameter a tunes the Bayes error which varies from 1 % to 20 % (1 %, 2.5 %, 5 %, 10 %, 20 %). The learning sets comprise nl labeled examples, (nl = 50, 100, 200) and nu unlabeled examples, (nu = nl × (1, 3, 10, 30, 100)). Overall, 75 different setups are evaluated, and for each one, 10 different training samples are generated. Generalization performances are estimated on a test set of size 10 000. This benchmark provides a comparison for the algorithms in a situation where unlabeled data are known to convey information. Besides the favorable initialization of the EM algorithm to the optimal parameters, EM benefits from the correctness of the model: data were generated according to the model, that is, two Gaussian subpopulations with identical covariances. The logistic regression model is only compatible with the joint distribution, which is a weaker fulfillment than correctness. As there is no modeling bias, differences in error rates are only due to differences in estimation efficiency. The overall error rates (averaged over all settings) are in favor of 288 minimum entropy logistic regression (14.1 ± 0.3 %). EM (15.7 ± 0.3 %) does worse on average than logistic regression (14.9 ± 0.3 %). For reference, the average Bayes error rate is 7.7 % and logistic regression reaches 10.4 ± 0.1 % when all examples are labeled. Figure 1 provides more informative summaries than these raw numbers. The plots represent the error rates (averaged over nl ) versus Bayes error rate and the nu /nl ratio. The first plot shows that, as asymptotic theory suggests (O’Neill, 1978; Castelli & Cover, 1996), unlabeled examples are more beneficial when the Bayes error is low. This observation supports the relevance of the minimum entropy assumption. 15 Test Error (%) Test Error (%) 40 30 20 10 10 5 5 15 10 Bayes Error (%) 20 1 3 10 Ratio nu/nl 30 100 Figure 1: Left: test error vs. Bayes error rate for nu /nl = 10; right: test error vs. nu /nl ratio for 5 % Bayes error (a = 0.23). Test errors of minimum entropy logistic regression (◦) and mixture models (+). The errors of logistic regression (dashed), and logistic regression with all labels known (dash-dotted) are shown for reference. The second plot illustrates that the minimum entropy model takes quickly advantage of unlabeled data when classes are well separated. With nu = 3nl , the model considerably improves upon the one discarding unlabeled data. This graph also illustrates the consequence of the demanding parametrization of generative models. For very large sample sizes, with 100 times more unlabeled examples than labeled examples, the generative approach eventually becomes more accurate than the diagnosis approach. However, mixture models are outperformed by the simple logistic regression model when the sample size is low, because their number of parameters is quadratic (vs. linear) in the number of input features. 4.1.2 Misspecified joint density model In a second series of experiments, the setup is slightly modified by letting the classconditional densities be corrupted by outliers. For each class, the examples are generated from a mixture of two Gaussians centered on the same mean: a unit variance component gathers 98 % of examples, while the remaining 2 % are generated from a large variance component, where each variable has a standard deviation of 10. The 289 CAp 2005 mixture model used by EM is now slightly misspecified since the whole distribution is still modeled by a simple two-components Gaussian mixture. The results, displayed in the left-hand-side of Figure 2, should be compared with the right-hand-side of Figure 1. The generative model dramatically suffers from the misspecification and behaves worse than logistic regression for all sample sizes. The unlabeled examples have first a beneficial effect on test error, then have a detrimental effect when they overwhelm the number of labeled examples. On the other hand, the diagnosis models behave smoothly as in the previous case, and the minimum entropy criterion performance improves. 30 20 Test Error (%) Test Error (%) 25 15 10 20 15 10 5 5 1 3 10 Ratio nu/nl 30 100 0 1 3 10 Ratio nu/nl 30 100 Figure 2: Test error vs. nu /nl ratio for a = 0.23. Average test errors for minimum entropy logistic regression (◦) and mixture models (+). The test error rates of logistic regression (dotted), and logistic regression with all labels known (dash-dotted) are shown for reference. Left: experiment with outliers; right: experiment with uninformative unlabeled data. The last series of experiments illustrate the robustness with respect to the cluster assumption, by testing it on distributions where unlabeled examples are not informative, and where a low density P (X) does not indicate a boundary region. The data is drawn from two Gaussian clusters like in the first series of experiment, but the label is now independent of the clustering: an example x belongs to class ω1 if x2 > x1 and belongs to class ω2 otherwise: the Bayes decision boundary is now separates each cluster in its middle. The mixture model is unchanged. It is now far from the model used to generate data. The right-hand-side plot of Figure 1 shows that the favorable initialization of EM does not prevent the model to be fooled by unlabeled data: its test error steadily increases with the amount of unlabeled data. On the other hand, the diagnosis models behave well, and the minimum entropy algorithm is not distracted by the two clusters; its performance is nearly identical to the one of training with labeled data only (cross-validation provides λ values close to zero), which can be regarded as the ultimate performance in this situation. 290 4.1.3 Comparison with manifold transduction Although our primary goal is to infer a decision function, we also provide comparisons with a transduction algorithm of the “manifold family”. We chose the consistency method of Zhou et al. (2004) for its simplicity. As suggested by the authors, we set α = 0.99 and the scale parameter σ 2 was optimized on test results (Zhou et al., 2004). The results are reported in Table 1. The experiments are limited due to the memory requirements of the consistency method in our naive MATLAB implementation. Table 1: Error rates (%) of minimum entropy (ME) vs. consistency method (CM), for a = 0.23, nl = 50, and a) pure Gaussian clusters b) Gaussian clusters corrupted by outliers c) class boundary passing through the Gaussian clusters. nu 50 150 500 1500 a) ME 10.8 ± 1.5 9.8 ± 1.9 8.8 ± 2.0 8.3 ± 2.6 a) CM 21.4 ± 7.2 25.5 ± 8.1 29.6 ± 9.0 26.8 ± 7.2 b) ME 8.5 ± 0.9 8.3 ± 1.5 7.5 ± 1.5 6.6 ± 1.5 b) CM 22.0 ± 6.7 25.6 ± 7.4 29.8 ± 9.7 27.7 ± 6.8 c) ME 8.7 ± 0.8 8.3 ± 1.1 7.2 ± 1.0 7.2 ± 1.7 c) CM 51.6 ± 7.9 50.5 ± 4.0 49.3 ± 2.6 50.2 ± 2.2 The results are extremely poor for the consistency method, whose error is way above minimum entropy, and which does not show any sign of improvement as the sample of unlabeled data grows. Furthermore, when classes do not correspond to clusters, the consistency method performs random class assignments. In fact, our setup, which was designed for the comparison of global classifiers, is extremely defavorable to manifold methods, since the data is truly 50-dimensional. In this situation, local methods suffer from the “curse of dimensionality”, and many more unlabeled examples would be required to get sensible results. Hence, these results mainly illustrate that manifold learning is not the best choice in semi-supervised learning for truly high dimensional data. 4.2 Facial Expression Recognition We now consider an image recognition problem, consisting in recognizing seven (balanced) classes corresponding to the universal emotions (anger, fear, disgust, joy, sadness, surprise and neutral). The patterns are gray level images of frontal faces, with standardized positions, as displayed in figure 3. The data set comprises 375 such pictures made of 140 × 100 pixels (Abboud et al., 2003; Kanade et al., 2000) We tested kernelized logistic regression (Gaussian kernel), its minimum entropy version, nearest neigbor and the consistency method. We repeatedly (10 times) sampled 1/10 of the dataset for providing the labeled part, and the remainder for testing. Although (α, σ2 ) were chosen to minimize the test error, the consistency method performed poorly with 63.8 ± 1.3 % test error (compared to 86 % error for random assignments). Nearest-neighbor get similar results with 63.1 ± 1.3 % test error, and Kernelized logistic regression (ignoring unlabeled examples) improved to reach 53.6 ± 1.3 %. 291 CAp 2005 Anger Fear Disgust Joy Sadness Surprise Neutral Figure 3: Examples from the facial expression recognition database. Minimum entropy kernelized logistic regression regression achieves 52.0 ± 1.9 % error (compared to about 20 % errors for human on this database). The scale parameter chosen for kernelized logistic regression (by ten-fold cross-validation) amount to use a global classifier. Again, the local methods fail. This may be explained by the fact that the database contains several pictures of each person, with different facial expressions. Hence, local methods are likely to pick the same identity instead of the same expression, while global methods are able to learn the discriminating directions. 5 Discussion We propose to tackle the semi-supervised learning problem in the supervised learning framework, by using a minimum entropy regularizer. This regularizer is motivated by theory, which shows that the information content of unlabeled examples is higher for classes with little overlap. Maximum a posteriori estimation enables to incorporate minimum entropy regularization in the learning process of any probabilistic classifier. In this framework, minimum entropy is interpreted as a “usefulness prior” for unlabeled examples, whose strength can be controlled. Minimizing entropy gradually increases the confidence of the classifier output at unlabeled examples. Our proposal encompasses self-learning as a particular case, where, at the end of the learning process, entropy minimization converges to a solution assigning hard labels to unlabeled data. The transductive large margin classifier is another limiting case: minimizing entropy on the training sample is a means to drive the decision boundary away from these examples. Both local and global classifiers can be fitted by the minimum entropy criterion. Global classifiers allow to improve over manifold learning when data do not lie on a low-dimensional manifold, or, as illustrated in the expression recognition experiment, when the classification task aims at differentiating examples transformed along some global direction of the manifold. Our experiments also suggest that supervised learning with minimum entropy regularization may be a serious contender to generative models. It compares favorably to mixture models in three situations: for small sample sizes, where the generative model cannot completely benefit from the knowledge of the correct joint model; when the joint distribution is (even slightly) misspecified; when the unlabeled examples turn out to be non-informative regarding class probabilities. 292 A Detailed derivation of P (Y |X, Z) Bayes’ rule and total probability theorem yields: P (z|x, Y = ωk )P (Y = ωk |x) P (Y = ωk |x, z) = PK ℓ=1 P (z|x, Y = ωℓ )P (Y = ωℓ |x) (7) From the definition of z, we have P (z|Y = ωk ) = 0 when zk = 0, which implies P (z|x, Y = ωk ) = zk P (z|x, Y = ωk ). P (Y = ωk |x, z) = = zk P (z|x, Y = ωk )P (Y = ωk |x) PK ℓ=1 zℓ P (z|x, Y = ωℓ )P (Y = ωℓ |x) zk P (Y = ωk |x) , PK ℓ=1 zℓ P (Y = ωℓ |x) (8) (9) where the last line is derived from the missing-at-random assumption, P (z|x, Y = ωk ) = P (z|x, Y = ωℓ ) for all (k, ℓ) such that zk = zℓ = 1. B Proof of theorem 1 Theorem 1 In the two-class linear separable case, the logistic regression model with bounded weights, fitted by the minimum entropy criterion, converges towards the maximum margin separator (with maximal distance from labeled and unlabeled examples) as the bound goes to infinity. Proof. Consider the logistic regression model parameterized by θ = (w, b): P (Y |x) is modeled by f (x; θ) = 1+e−(w1 T x+b ) for the positive class, and by 1−f (x; θ) for the negative class. Let ti ∈ {−1, +1} be a binary variable defined as follows: if xi is a positive labeled example, ti = +1; if xi is a negative labeled example, ti = −1; if xi is an unlabeled example, ti = sign(f (xi ) − 1/2). The margin for the labeled or unlabeled example i is defined as mi (θ) = ti (wT xi + b). The cost C (6) can then be written as a function of mi = mi (θ) as follows C(θ) = − nl X i=1 log(1 + e−mi ) − λ n X log(1 + e−mi ) + i=nl +1 mi e−mi , 1 + e−mi (10) where the indices [1, nl ] and [nl + 1, n] correpond to labeled and unlabeled data, rebB = (w b B , bbB ) is obtained by optimizing C spectively. The bounded weight estimate θ bB ) will be denoted m under the constraint kwk ≤ B. In the sequel, mi (θ bi We first show that, as B goes to infinity, all margins m b i go to infinity. Let θ∗ = (w∗ , b∗ ) be the parameters of the maximum margin separator with kw∗ k = 1. Let 293 CAp 2005 m∗i be mi (θ∗ ). From the definition of θ∗ , m∗i > 0, i = 1, . . . , n. Since mi (Bθ ∗ ) = Bmi (θ ∗ ), limB→∞ mi (Bθ ∗ ) = ∞, and C(Bθ ∗ ) goes to zero: lim C(Bθ ∗ ) = B→∞ = lim − B→∞ 0 . nl X i=1 ∗ e−Bmi − λ n X ∗ Bm∗i e−Bmi i=nl +1 Suppose now that there is at least one example i, such that m b i ≤ M , where M bB ) ≤ is a positive constant. Then, C (10) can trivialy be bounded from above: C(θ b − log(1 + exp(−M )) if i is labeled and C(θ B ) ≤ −λ log(1 + exp(−M )) if i is bB cannot unlabeled. Since Bθ∗ is an admissible solution with limB→∞ C(Bθ ∗ ) = 0, θ maximize C if M is finite. We thus conclude that limB→∞ m b i = ∞, i = 1, . . . , n. b B k = B. For this, we write the gradient of C(αθ) with respect We now show that kw to α: ∂C(αθ) ∂α = α=1 nl X i=1 n X e−mi mi e−mi ∂mi ∂mi + λ −m i ) ∂α (1 + e (1 + e−mi )2 ∂α i=n +1 l nl n X X m2i e−mi mi e−mi = , + λ (1 + e−mi ) (1 + e−mi )2 i=n +1 i=1 l bB , and As limB→∞ m b i > 0, each term in the sum is strictly positive for θ = θ bB ) ∂C(αθ bB = > 0. The constraint kwk ≤ B is thus active at θ limB→∞ ∂α α=1 b B , bbB ), hence kw b B k = B. (w Finally, we derive that logistic regression asymptotically achieves maximum margin b 0 = mini∈[1,n] m b i denote the minimum separation. Let m∗0 = mini∈[1,n] m∗i and m margin among all labeled and unlabeled examples, and the minimum margin achieved m b0 ∗ by logistic regression, respectively. We show below that limB→∞ kw b B k = m0 . ∗ ∗ Let Il and Iu denote the set of indices of respectively labeled and unlabeled examples with minimum margin Il∗ = {i ∈ [1, nl ]|m∗i = m∗0 } and Iu∗ = {i ∈ [nl + 1, n]|m∗i = m∗0 }. Accordingly, we denote Ibl = {i ∈ [1, nl ]|m bi = m b 0 } and Ibu = {i ∈ [nl + m∗ −m∗ ∗ c = 1, n]|m bi = m b 0 }. Finally, we define c = min(2, arg minm∗i >m∗0 im∗ 0 ), and b min(2, arg minm b i >m b0 C(Bθ ∗ ) = bB ) = C(θ 0 mi− b m b0 m b 0 ).  − |Il∗ | − λ  − |Ibl | − λ X ∗ i∈Iu X i∈Ibu  ∗ (1 + Bm∗i ) e−Bm0 + O(Bm∗0 e−c  b0 b0 (1 + m b i ) e−m ) + O(m b 0 e−bcm where |I| denote the cardinal number of set I. 294 ∗ Bm∗ 0 ) ∗ ∗ We now note that for any ε < 1, limB→∞ Bm∗0 e−(c −ε)Bm0 = 0, hence   X ∗ ∗ ∗ lim eεBm0 C(Bθ ) = lim − |Il∗ | − λ (1 + Bm∗i ) e−(1−ε)Bm0 B→∞ B→∞ = ∗ i∈Iu 0 bB entails C(θ bB ) ≥ C(Bθ ∗ ), which implies that for any ε < 1, The optimality of θ ∗  lim − |Ibl | − λ B→∞ bB ) = lim eεBm0 C(θ  B→∞ X i∈Ibu ∗ b0 (1 + m b i ) eεBm0 −m = 0 0 b0 ∗ Hence, for any ε < 1, limB→∞ B( m B − εm0 ) = ∞. As by definition m b0 m b0 ∗ conclude that limB→∞ B = limB→∞ kw b B k = m0 . m b0 B ≤ m∗0 , we Note that besides the linear separable case, this theorem can be easily extended to kernelized logistic regression using kernels ensuring linear separability (such as the Gaussian kernel). References A BBOUD B., DAVOINE F. & M O D. (2003). Expressive face recognition and synthesis. In Computer Vision and Pattern Recognition Workshop, volume 5, p.5̃4. A MINI M. R. & G ALLINARI P. (2002). Semi-supervised logistic regression. In 15th European Conference on Artificial Intelligence, p. 390–394: IOS Press. B ENNETT K. P. & D EMIRIZ A. (1999). Semi-supervised support vector machines. In M. S. K EARNS , S. A. S OLLA & D. A. C OHN, Eds., Advances in Neural Information Processing Systems 11, p. 368–374: MIT Press. B ERGER J. O. (1985). Statistical Decision Theory and Bayesian Analysis. New York: Springer, 2 edition. B RAND M. (1999). Structure learning in conditional probability models via an entropic prior and parameter extinction. Neural Computation, 11(5), 1155–1182. C ASTELLI V. & C OVER T. M. (1996). The relative value of labeled and unlabeled samples in pattern recognition with an unknown mixing parameter. IEEE Trans. on Information Theory, 42(6), 2102–2117. C ORDUNEANU A. & JAAKKOLA T. (2003). On information regularization. In Proceedings of the 19th conference on Uncertainty in Artificial Intelligence (UAI). F RIEDMAN J., H ASTIE T. & T IBSHIRANI R. (2000). Additive logistic regression: a statistical view of boosting. The Annals of Statistics, 28(2), 337–407. G RANDVALET Y. (2002). Logistic regression for partial labels. In 9th Information Processing and Management of Uncertainty in Knowledge-based Systems – IPMU’02, p. 1935–1941. 295 CAp 2005 J IN R. & G HAHRAMANI Z. (2003). Learning with multiple labels. In Advances in Neural Information Processing Systems 15: MIT Press. J OACHIMS T. (1999). Transductive inference for text classification using support vector machines. In International Conference on Machine Learning (ICML), p. 200–209. K ANADE T., C OHN J. & T IAN Y. (2000). Comprehensive database for facial expression analysis. In 4th IEEE International Conference on Automatic Face and Gesture Recognition. M C L ACHLAN G. J. (1992). Discriminant analysis and statistical pattern recognition. Wiley. N IGAM K. & G HANI R. (2000). Analyzing the effectiveness and applicability of cotraining. In Ninth International Conference on Information and Knowledge Management, p. 86–93. N IGAM K., M C C ALLUM A. K., T HRUN S. & M ITCHELL T. (2000). Text classification from labeled and unlabeled documents using EM. Machine learning, 39(2/3), 103–134. O’N EILL T. J. (1978). Normal discrimination with unclassified observations. Journal of the American Statistical Association, 73(364), 821–826. ROSE K., G UREWITZ E. & F OX G. (1990). A deterministic annealing approach to clustering. Pattern Recognition Letters, 11(9), 589–594. S EEGER M. (2002). Learning with labeled and unlabeled data. Rapport interne, Institute for Adaptive and Neural Computation, University of Edinburgh. S ZUMMER M. & JAAKKOLA T. S. (2003). Information regularization with partially labeled data. In Advances in Neural Information Processing Systems 15: MIT Press. T ONG S. & KOLLER D. (2000). Restricted bayes optimal classifiers. In Proceedings of the 17th National Conference on Artificial Intelligence (AAAI), p. 658–664. VAPNIK V. N. (1998). Statistical Learning Theory. Adaptive and learning systems for signal processing, communications, and control. New York: Wiley. Z HOU D., B OUSQUET O., NAVIN L AL T., W ESTON J. & S CH ÖLKOPF B. (2004). Learning with local and global consistency. In Advances in Neural Information Processing Systems 16. Z HU X., G HAHRAMANI Z. & L AFFERTY J. (2003). Semi-supervised learning using Gaussian fields and harmonic functions. In 20th Int. Conf. on Machine Learning, p. 912–919. 296 Apprentissage semi-supervisé asymétrique et estimation d’affinités locales dans les protéines Christophe Nicolas Magnan Laboratoire d’Informatique Fondamentale de Marseille (LIF), UMR CNRS 6166† magnan@cmi.univ-mrs.fr Résumé : Cet article présente une étude en apprentissage automatique semisupervisé asymétrique, c’est-à-dire à partir de données positives et nonétiquetées, ainsi qu’une application à un problème bio-informatique. Nous montrons que sous des hypothèses très naturelles, le classifieur naı̈f de Bayes peut être identifié à partir de données positives et non étiquetées. Nous en déduisons des algorithmes que nous étudions sur des données artificielles. Enfin, nous présentons une application de ces travaux sur le problème de l’extraction d’affinités locales dans les protéines pour la prédiction des ponts disulfures. Les résultats permettent d’étayer une hypothèse sur la manière de formaliser les données biologiques pour des cas d’interactions physiques locales. Mots-clés : Apprentissage semi-supervisé, Naı̈ve Bayes, E.M., Ponts disulfures. 1 Introduction De nombreux thèmes contemporains de recherche en biologie et en bio-informatique, liés à l’étude des protéines, sont étroitement en rapport avec des phénomènes d’interactions physiques locales. Les brins beta ou encore les ponts disulfures dans les protéines sont des exemples de phénomènes liés à des interactions physiques. Pouvoir prédire avec un maximum de précision et de pertinence ces interactions améliorerait de manière significative la prédiction de la structure tridimensionnelle des protéines, elle-même étant liée à sa fonction biologique. Déterminer cette structure expérimentalement, par résonance magnétique nucléaire, est une tâche longue, difficile, coûteuse et de plus, non applicable à certaines familles de protéines. Or on sait par ailleurs que la structure d’une protéine est déterminée par sa structure primaire, séquence d’acides aminés, et par son milieu d’occupation. Il est donc naturel de mettre au point des algorithmes de prédiction de la structure 3D à partir de la séquence primaire. Actuellement, près de 2 millions de séquences protéiques sont disponibles pour moins de 20000 structures 3D. Nous nous sommes intéressés à un élément de la structure 3D : les ponts disulfures. Ces ponts sont des liaisons covalentes qui se forment entre deux cystéines suite à leur oxydation. La cystéine est un des 20 acides aminés qui constituent la séquence primaire † Ces travaux sont en partie financés par l’A.C.I. Masses de Données GENOTO3D 297 CAp 2005 des protéines. Une cystéine peut former un pont avec une autre cystéine proche ou distante sur la séquence, et est contrainte à une unicité de liaison. La prédiction des ponts disulfures peut se décomposer en deux étapes : la prédiction des cystéines oxydées et la prédiction des ponts eux-mêmes. De nombreux travaux ont permis d’élaborer des méthodes adaptées à la première tâche, mais il y a peu de résultats pour la deuxième. C’est donc à la prédiction des ponts disulfures, sachant l’état d’oxydation des cystéines, que nous nous sommes intéressés. Des acides aminés proches dans l’espace interagissent entre eux. On peut donc imaginer que les interactions entre les acides aminés situés autour de deux cystéines contribuent à ce que nous appellerons une affinité entre ces cystéines. Il est clair que cette information seule ne suffit pas à déterminer les ponts, mais nous cherchons à l’extraire au mieux dans le but de l’intégrer dans des processus de prédiction des ponts disulfures. Déterminer si deux segments d’une protéine ont de l’affinité l’un pour l’autre peut être considéré comme un problème de classification supervisée, où les segments appariés sont vus comme ayant de l’affinité, et les segments non appariés comme n’en ayant pas. On peut également voir le problème de manière différente, en considérant comme précédemment que les couples de segments appariés ont de l’affinité l’un pour l’autre, mais que des couples de segments non appariés peuvent ou non en avoir. En effet, une cystéine ne pouvant appartenir qu’à un seul pont disulfure, le nombre de ponts dans une protéine est donc contraint. Nous modélisons cette situation en supposant que les paires de segments appariés appartiennent à la classe des segments qui ont de l’affinité l’un pour l’autre et que les paires de segments non appariés n’apportent pas d’informations sur la notion d’affinité. C’est alors un cas d’apprentissage semi-supervisé, généralement rencontré sous le nom d’apprentissage à partir de données positives et non étiquetées, que nous appelons asymétrique. Ce contexte particulier d’apprentissage nécessite de montrer que le problème est bien posé (les données permettent-elles à la limite d’identifier la cible) et l’élaboration de nouveaux algorithmes. Nous donnons dans la section 2 une brève description des méthodes utilisées lors de nos travaux ainsi que des résultats de la littérature sur ce thème de travail. En section 3, nous exposons notre étude théorique de l’apprentissage asymétrique et en section 4 et 5 nous présentons des résultats expérimentaux sur des données artificielles et réelles. 2 Préliminaires Cette section présente les méthodes et algorithmes utilisés dans nos travaux, ainsi que divers résultats sur l’apprentissage à partir de données positives et non étiquetées. 2.1 La règle de Bayes et le classifieur naı̈f de Bayes Soit X = m Q X i un domaine défini par m attributs symboliques. Pour tout x ∈ X, i=1 on notera xi la projection de x sur X i . Soit P une loi de distribution sur X et soit Y un ensemble de classes muni des lois de distributions conditionnelles P (.|x) pour tout x ∈ X. La règle de décision optimale pour attribuer une classe à tout objet x ∈ X est 298 Apprentissage semi-supervisé asymétrique la règle de Bayes qui sélectionne la classe y ∈ Y possédant la plus grande probabilité sachant x. On peut formuler cette règle de la façon suivante : CBayes (x) = argmax P (y|x) = argmax P (x|y) · P (y) y (x ∈ X, y ∈ Y ) y En règle générale, les quantités P (x|y) ne peuvent pas être estimées à partir d’un échantillon d’apprentissage. En revanche, si les attributs sont indépendants deux à deux m Q conditionnellement à chaque classe, on a alors P (x|y) = P (xi |y) et dans ce cas, i=1 le nombre de paramètres à estimer devient raisonnable. Pour des classes et attributs binaires, le nombre de paramètres à estimer passe de O(2m ) à O(m). Que l’hypothèse d’indépendance soit vérifiée ou non, on appelle classifieur naı̈f de Bayes la règle définie par : CN B (x) = argmax P (y) y m Y P (xi |y) (x ∈ X, y ∈ Y ) i=1 L’hypothèse d’indépendance n’est pas vérifiée dans la plupart des problèmes réels. Néanmoins, le classifieur naı̈f de Bayes est connu pour donner de bons résultats pour des tâches de classification (Domingos & Pazzani, 1996). Les paramètres nécessaires à l’évaluation de CN B lorsque Y = {0, 1} sont les probabilités α = P (y = 1), la probabilité d’observer un exemple de la classe notée 1 que nous appelons classe positive et l’ensemble des λikj = P (xi = k|y = j), les probabilités d’observer l’attribut i de x égal à k sachant que x est de la classe j (j ∈ {0, 1}). Une instance de ces paramètres sera appelée modèle et sera notée θ. 2.2 Le principe du maximum de vraisemblance et application au classifieur naı̈f de Bayes L’objectif de l’apprentissage automatique est de construire un modèle qui rend compte des données. Le principe du maximum de vraisemblance définit un critère permettant de choisir un tel modèle. 2.2.1 Principe du maximum de vraisemblance Pour un échantillon S = {(xs , ys ), s ∈ 1, ..., l} de données indépendamment et identiquement distribuées selon la loi jointe P (x, y) = P (x)P (y|x) et un modèle θ, on appelle vraisemblance (resp. log-vraisemblance) de S pour le modèle θ et on note L(θ, S) (resp. l(θ, S)) les valeurs : L(θ, S) = l Y P (xs , ys |θ) et l(θ, S) = log L(θ, S) s=1 Le principe du maximum de vraisemblance recommande de trouver un modèle θ tel que L(θ, S) - et donc aussi l(θ, S) - soit maximale. 299 CAp 2005 2.2.2 Application au classifieur naı̈f de Bayes Si on note n0 le nombre de données classées ’0’ dans l’échantillon S d’apprentissage, n1 le nombre de données classées ’1’ (n0 + n1 = l), nkij le nombre d’exemples tels que xi = k et y = j et Dom(xi ) l’ensemble des valeurs que peut prendre l’attribut xi , on peut écrire la vraisemblance et la log-vraisemblance de S dans le modèle θ en fonction de α et des λikj : L(θ, S) = l Q s=1  m Q i P (ys ) P (xs |ys ) = αn1 · (1 − α)n0 · i=1 l(θ, S)= log L(θ, S) = n1 · logα + n0 · log(1 − α) + P 1≤i≤m,0≤j≤1 nk Q 1≤i≤m,0≤j≤1 ij λikj k∈Dom(xi ) nkij · log λikj k∈Dom(xi ) S Cette fonction trouve son maximum pour le modèle θmv suivant : n1 – α = n0 +n1 , la proportion d’exemples positifs dans les données d’apprentissage, – λikj = nk P ij r∈Dom(xi ) nrij , le rapport du nombre de données d’apprentissage de classe j tel que xi = k par le nombre de données étiquetées j. 2.2.3 Cas semi-supervisé En contexte semi-supervisé, on dispose de deux échantillons de données : Slab = {(x1 , y1 ), ..., (xl , yl )}, un échantillon de données étiquetées, et Sunl = {x′1 , ..., x′l′ }, un échantillon de données non étiquetées. On modélise la présence de ces deux échantillons par l’existence d’un oracle qui, avec une certaine probabilité β fournit un exemple étiqueté et avec une probabilité 1 − β procure un exemple non étiqueté. Le paramètre β complète le modèle θ vu précédemment. Dans ce nouveau modèle, que nous notons θ′ , les probabilités d’avoir z = (x, y) ∈ Slab et d’avoir z = x ∈ Sunl se calculent de la manière suivante : P (z = (x, y)|θ′ , z ∈ Slab ) = β.P (x, y|θ) P (z = x|θ′ , x ∈ Sunl ) = (1 − β).P (x|θ) avec P (x|θ) = P (y = 1|θ).P (x, y|y = 1, θ) + P (y = 0|θ).P (x, y|y = 0, θ) La vraisemblance de Slab et Sunl pour le modèle θ′ s’écrit alors : ′ l Q l Q βP (xs , ys |θ) (1 − β)P (x′r |θ) s=1 r=1  l′ Q Q ′ Q = β l L(θ, Slab )(1 − β)l λik1 + (1 − α) α L(θ′ , Slab , Sunl ) = r=1 1≤i≤m 1≤i≤m k/xi r =k k/xi r =k 300 λik0  Apprentissage semi-supervisé asymétrique Cette formule permet de trouver analytiquement la valeur optimale de β pour maximil ser la vraisemblance : β = l+l ′ , soit la proportion d’exemples étiquetés dans l’ensemble d’apprentissage. En revanche, elle ne permet pas de trouver les paramètres α et λikj du modèle θ′ qui maximisent la vraisemblance, comme dans le cas supervisé du modèle naı̈f de Bayes. La méthode E.M. permet de pallier ce problème (cf. section 2.3). 2.2.4 Cas semi-supervisé asymétrique Le cas semi-supervisé asymétrique est proche du cas semi-supervisé classique. L’ensemble Slab est réduit à Spos = {(x1 , 1), ..., (xl , 1)}, cela entraı̂ne que le paramètre β représente maintenant la probabilité d’observer un exemple positif. Avec les mêmes notations que précédemment, la vraisemblance de Spos et Sunl pour le modèle θ′ s’écrit : L(θ′ , Spos , Sunl ) ′ = β l L(θ, Spos )(1 − β)l L(θ, Sunl )    l′ l Q Q ′ Q = β l αl α λik1 (1 − β)l r=1 1≤i≤m k/xi r =k r=1 Q λik1 + (1 − α) Q 1≤i≤m 1≤i≤m k/xi r =k k/xi r =k λik0  2.3 La méthode E.M. (Expectation, Maximisation) La méthode E.M. a été élaborée par (Dempster et al., 1977) pour l’inférence de modèles de mélange de densités. 2.3.1 Méthode Cette section décrit la méthode E.M. en suivant (Hastie et al., 2001). Soient θ′ un modèle, Z l’ensemble des données observées, Zm les données manquantes, et T l’ensemble de données complètes d’un problème, T = (Z, Zm ). Si on note : - l0 (θ′ , T ) la log-vraisemblance de T dans le modèle θ′ , - l1 (θ′ , Zm |Z) la log-vraisemblance de Zm dans le modèle θ′ sachant Z, - l(θ′ , Z) la log-vraisemblance de Z dans le modèle θ′ , alors l(θ′ , Z) + l1 (θ′ , Zm |Z) = l0 (θ′ , T ), soit : l(θ′ , Z) = l0 (θ′ , T ) − l1 (θ′ , Zm |Z) En supposant que les données sont générées selon θ et que Z a été observé, les termes de l’égalité précédente sont des variables aléatoires dépendantes de Zm , on peut donc calculer leur espérance : E( l(θ′ , Z)|Z, θ ) = E( l0 (θ′ , T )|Z, θ ) − E( l1 (θ′ , Zm )|Z, θ ) Soit, en posant Q(θ′ , θ) = E( l0 (θ′ , T )|Z, θ ) et R(θ′ , θ) = E( l1 (θ′ , Zm )|Z, θ ) et en remarquant que E( l(θ′ , Z)|Z, θ ) = l(θ′ , Z) : l(θ′ , Z) = Q(θ′ , θ) − R(θ′ , θ) 301 CAp 2005 La méthode du maximum de vraisemblance demande de chercher un modèle θ′ qui maximise l(θ′ , Z). La méthode E.M. est une heuristique, basée sur le résultat suivant qui énonce que maximiser Q ne peut pas faire décroı̂tre la vraisemblance. Théorème 1 Si Q(θ′ , θ) > Q(θ, θ) alors l(θ′ , Z) > l(θ, Z) (Dempster et al., 1977) La méthode E.M. peut être décrite par l’algorithme suivant : Algorithme 1 Entrée : Z 1) Choisir un modèle θ̂0 2) Calculer Q(θ̂i , θ̂i ) pour le i courant (phase d’estimation) 3) Trouver θ̂i+1 tel que Q(θ̂i+1 , θ̂i ) > Q(θ̂i , θ̂i ) (phase de maximisation) 4) Itérer à l’étape deux jusqu’à convergence Sortie : un modèle θc L’algorithme converge vers un maximum local de la vraisemblance. (Dempster et al., 1977) proposent de répéter l’expérience et de choisir le modèle θc de plus grande vraisemblance. 2.3.2 Application au classifieur naı̈f de Bayes Pour le classifieur naı̈f de Bayes en contexte semi-supervisé, Z = {Slab , Sunl } avec Slab = {(x1 , y1 ), ..., (xl , yl )} et Sunl = {x′1 , .., x′l′ }, les données manquantes Zm sont les étiquettes des données de Sunl et T = (Z, Zm ). Avec les mêmes notations que précédemment, les paramètres α = P (y = 1) et λikj = P (xj = k|y = i) se calculent de la manière suivante à chaque itération de l’algorithme (McCallum et al., 1999) : n1 + α= l′ P s=1 P̂ (ys′ = 1|x′s , θ̂) l + l′ nkij + , λikj = P r∈Dom(xi ) l′ P s=1 ′ P̂ (ys′ = j|xsi = k, θ̂) [nrij + l′ P s=1 P̂ (ys′ = j|x′si = r, θ̂)] où les P̂ sont estimées en fonction du modèle courant θ̂. (McCallum et al., 1999) proposent l’algorithme suivant : Algorithme 2 (EM+NB semi-supervisé) Entrée : Slab , Sunl 1) θ̂0 = N.B.(Slab ), le modèle appris sur les données étiquetées 2) ∀x′ ∈ Sunl calculer P (y ′ = j|x′ , θ̂k ), avec le modèle θ̂k courant, j ∈ {0, 1} 3) Maximiser Q(θ̂k+1 , θ̂k ) 4) Itérer à l’étape 2 jusqu’à convergence Sortie : un modèle θc Les résultats sur un problème de classification de textes montrent une amélioration sensible des résultats lors de l’ajout de données non étiquetées aux données étiquetées. 302 Apprentissage semi-supervisé asymétrique 2.4 Apprentissage à partir de données positives et non étiquetées Le thème de l’apprentissage à partir de données positives et non étiquetées a déjà été abordé par divers chercheurs (Denis, 1998; Denis et al., 1999; Liu & Li, 2003). Dans ce contexte, on trouve également l’utilisation du classifieur naı̈f de Bayes pour une application à la classification de textes (Denis et al., 2003). Dans ces travaux, les auteurs partent de l’hypothèse que le paramètre α = P (y = 1) est connu, ce paramètre étant indispensable pour calculer le classifieur (cf. section 3.1). Or, ce paramètre étant généralement inconnu, l’estimation de celui-ci est donc un problème latent. Il a été montré dans (Whiley & Titterington, 2002; Geiger et al., 2001) que, sous l’hypothèse d’indépendance des attributs conditionnellement à chaque classe, les paramètres du modèle sont identifiables à partir de la distribution P (.) sur X lorsque le nombre d’attributs est supérieur à deux et à la détermination des classes près, c’est-à-dire P (.) détermine l’ensemble {α, 1 − α}. Des formules analytiques permettant d’estimer les paramètres du modèle à partir d’échantillons d’exemples non étiquetés sont également fournies. Mais dans le cas qui nous intéresse, nous disposons aussi d’exemples positifs qui doivent permettre d’identifier les classes et d’obtenir de meilleures estimations. 3 Estimation des paramètres d’un classifieur naı̈f de Bayes Après avoir exposé quelques propriétés sur le cas général de l’apprentissage asymétrique (section 3.1), nous établissons une formule qui montre que les paramètres du modèle sont identifiables lorsque le nombre d’attributs est supérieur ou égal à deux (section 3.2). Cette formule permet de définir un estimateur consistant du paramètre P (y = 1). En section 3.3, nous proposons une adaptation de l’algorithme 2 au cas semi-supervisé asymétrique en vue de comparer les deux algorithmes sur des données artificielles. 3.1 Cas général Le cadre général de l’apprentissage statistique suppose l’existence de distributions P (.) sur X et P (.|x) sur Y pour tout x ∈ X. Dans le cas Y = {0, 1}, ces distributions sont déterminées par la donnée de P (.) et P (.|y = 1) sur X, et P (y = 1). En effet : P (y = 1|x) = P (x|y = 1) · P (y = 1) et P (y = 0|x) = 1 − P (y = 1|x) P (x) Des échantillons de données positives et non étiquetées, Spos et Sunl , permettent de déterminer des estimations des distributions P (.) sur X et P (.|y = 1) sur X. Dans le cas général le paramètre P (y = 1) doit être connu. Propriété 1 En règle générale, P(y=1) n’est pas déterminé par la donnée de P (x) et P (x|y = 1). 303 CAp 2005 P (x) Soit r = Inf { P (x|y=1) | x ∈ X et P (x|y = 1) 6= 0}. Alors pour tout λ ∈ ]0, r], ′ il existe P tel que pour tout x ∈ X, P ′ (x) = P (x), P ′ (x|y = 1) = P (x|y = 1) et P ′ (y = 1) = λ. En effet, soit λ tel que 0 < λ ≤ r. Alors, en posant : P ′ (x|y = 0) = P ′ (x) − P ′ (x|y = 1).λ ∀x ∈ X 1−λ on obtient P ′ (y = 1) = λ. L’ensemble des λ acceptables étant l’intervalle ]0, r], le paramètre P (y = 1) n’est donc pas déterminé. Remarque Dans certains cas, P (y = 1) est déterminé par les paramètres P (x) et P (x|y = 1). Un cas trivial est celui des modèles déterministes : pour tout x, P (y =P 1|x) = 1 ou P P (y = 1|x) = 0. Dans ce cas P (y = 1) = P (x)P (y = 1|x) = P (x). x∈X P (x|y=1)6=0 3.2 Déterminisme et identification du paramètre P(y=1) Nous montrons dans cette section que les distributions P (.) sur X et P (.|y = 1) sur X déterminent le paramètre P (y = 1) pour les distributions suivant l’hypothèse naı̈ve de Bayes et nous donnons un estimateur consistant pour ce paramètre. L’apprentissage à partir de données positives et non étiquetées est donc envisageable sans hypothèse supplémentaire. Théorème 2 Pour les distributions de probabilité satisfaisant l’hypothèse naı̈ve de Bayes, la donnée de P (.) sur X et de P (.|y = 1) sur X détermine le paramètre P (y = 1) sous réserve qu’il existe au moins deux attributs distincts xi et xj tels que P (xi = .|y = 1) 6= P (xi = .|y = 0) et P (xj = .|y = 1) 6= P (xj = .|y = 0). Démonstration Avant le cas général, nous traitons les deux cas limites du paramètre P (y = 1) : – Remarquons tout d’abord que le cas P (y = 1) = 0 est impossible puisque l’on suppose l’existence de l’ensemble Spos . – De plus, sous les conditions du théorème, nous montrons que P (y = 1) = 1 <=> P (.) = P (.|y = 1) pour tout x ∈ X, en effet, – l’implication => est triviale, – supposons que P (.) = P (.|y = 1) et P (y = 1) < 1, alors : P (.|y = 1) · (1 − P (y = 1)) = P (.|y = 0) · (1 − P (y = 1)) et donc : P (.|y = 1) = P (.|y = 0), ce qui contredit l’hypothèse. Nous considérons maintenant le cas général 0 < P (y = 1) < 1. Soient pik = P (xi = k|y = 1) et qik = P (xi = k|y = 0) ∀i ∈ {1, ..., m}. Pour tout couple (i, j) d’attributs distincts, et pour tout couple k, l de valeurs respectives des attributs xi et xj , on peut déduire le système d’équations suivant : 304 Apprentissage semi-supervisé asymétrique   αik = P (xi = k) = pik .P (y = 1) + qik .(1 − P (y = 1)) αjl = P (xj = l) = pjl .P (y = 1) + qjl .(1 − P (y = 1))  αik,jl = P (xi = k ∩ xj = l) = pik .pjl .P (y = 1) + qik .qjl .(1 − P (y = 1)) Considérons un couple (i, j) d’attributs distincts et un couple (k, l) de valeurs d’attributs respectives pour xi et xj tels que pik 6= qik et pjl 6= qjl , avec les égalités provenant des deux premières équations du système, on peut écrire : qik = αjl − pjl .P (y = 1) αik − pik .P (y = 1) qjl = 1 − P (y = 1) 1 − P (y = 1) En remplaçant qik et qjl dans la troisième équation du système, on obtient, après simplification, l’équation du premier degré en P (y = 1) suivante : P (y = 1)(pik pjl − αik pjl − αjl pik + αik,jl ) = αik,jl − αik αjl Pour obtenir une expression analytique de P (y = 1) à partir de cette équation, il est nécessaire de montrer que pik pjl −αik pjl −αjl pik +αik,jl 6= 0 et que αik,jl 6= αik ·αjl (sans quoi P (y = 1) = 0). - On peut écrire (pik pjl − αik pjl − αjl pik + αik,jl ) en fonction de pik , pjl , qik , qjl , et P (y = 1) en remplaçant αik , αjl , αik,jl par leur définition. On obtient : pik pjl − αik pjl − αjl pik + αik,jl = (1 − P (y = 1)).(pik − qik ).(pjl − qjl ) Donc sous les conditions du théorème : pik pjl − αik pjl − αjl pik + αik,jl 6= 0. - αik,jl = αik · αjl signifie que les attributs descriptifs sont indépendants. Or, nous travaillons sous l’hypothèse d’indépendance des attributs conditionnellement à chaque classe. Les deux conditions réunies ont pour conséquence directe (développement non précisé faute de place) : P (y = 1) · (1 − P (y = 1)) · (pik − qik ) · (pjl − qjl ) = 0. Sous les conditions du théorème, cette égalité n’est jamais vérifiée. On peut donc écrire : (1) P (y = 1) = αik,jl − αik αjl pik pjl − αik pjl − αjl pik + αik,jl Les paramètres αik,jl , αik , αjl , pik , pjl pouvant être calculés à partir des distributions P (.) et P (.|y = 1), P (y = 1) est bien déterminé par P (.) et P (.|y = 1). Cette formule conduit à une estimation naturelle du paramètre P (y = 1). Soient α̂ik,jl , α̂ik , α̂jl , p̂ik , p̂jl des estimateurs des paramètres αik,jl , αik , αjl , pik , pjl respectivement, on considère : 305 CAp 2005 (2) P̂ (y = 1) = P P |α̂ik,jl − α̂ik α̂jl | i,j,k,l |p̂ik p̂jl − α̂ik p̂jl − α̂jl p̂ik + α̂ik,jl | i,j,k,l avec i 6= j et k et l un couple de valeurs respectives des attributs xi et xj . On en déduit l’algorithme d’apprentissage suivant : Algorithme 3 (NB semi-sup. asymétrique) Entrée : Spos , Sunl 1) Calculer les estimateurs α̂ik,jl , α̂ik , α̂jl , p̂ik , p̂jl des paramètres αik,jl , αik , αjl , pik , pjl sur Spos et Sunl 2) Calculer P̂ (y = 1) par la formule (2) 3) Calculer les estimateurs des paramètres manquants du modèle : q̂ik , q̂jl Sortie : un modèle θ̂ En l’absence de résultats théoriques sur la vitesse de convergence de l’estimateur (2), nous avons décidé de comparer les résultats obtenus par l’algorithme 3 à ceux que l’on obtient en maximisant la vraisemblance au moyen de la méthode E.M.. Pour cela, nous proposons un algorithme adapté de l’algorithme 2 à la section suivante. 3.3 Algorithme naı̈f de Bayes en contexte semi-supervisé asymétrique Nous présentons ici un algorithme itératif, adapté de l’algorithme 2 (McCallum et al., 1999) qui permet d’estimer le paramètre P (y = 1) sur le critère du maximum de vraisemblance. Nous proposons la solution suivante : Algorithme 4 (EM+NB asym. + aléa) Entrée : Spos , Sunl M=∅ Estimer les quantités P (xi = k|y = 1) et P (xi = k) avec Spos et Sunl . Répéter 1) Tirer aléatoirement un paramètre P (y = 1) 2) Calculer un modèle θ0 à partir des estimations des P (xi = k|y = 1) et P (xi = k) et du paramètre P (y = 1) tiré alátoirement. 3) ∀x′ ∈ Sunl calculer P (y = j|x′ , θk ), avec le k courant et où j ∈ {0, 1} 4) Maximiser Q(θk+1 , θk ) (cf section 2.3.2 pour le détail des calculs) 5) Itérer à l’étape 3 jusqu’à convergence 6) Insérer le modèle θ final dans M Choisir un modèle θ dans M de vraisemblance maximale. Sortie : un modèle θ On peut également dériver de cet algorithme un cinquième algorithme en remplaçant le tirage aléatoire de P (y = 1) à la phase 1 de l’algorithme par l’estimation de P (y = 1) donnée par la formule (2). Dans ce cas, la boucle répéter est inutile. Nous noterons Algorithme 5 (EM+NB asym. + (2)) cette variante. 306 Apprentissage semi-supervisé asymétrique 4 Résultats expérimentaux sur des données artificielles 4.1 Exemple Cette section présente un exemple de déroulement de l’algorithme 4 et expose le protocole expérimental utilisé dans le cadre des expériences sur des données artificielles. Le modèle cible θc est tiré aléatoirement, il satisfait l’hypothèse naı̈ve de Bayes. Les données possèdent 50 attributs binaires, l’ensemble Spos contient 20 données (xi , 1), i ∈ {1, ..., 20}, tirées aléatoirement selon les distributions P (x|y = 1) du modèle cible, l’ensemble Sunl contient 1000 données x′i , i ∈ {1, ..., 1000}, tirées aléatoirement selon les distributions P (x) et enfin, pour tester la performance des modèles inférés, un ensemble Stest contenant 1000 données (x′′i , yi′′ ), i ∈ {1, ..., 1000}, yi′′ ∈ {0, 1}, est généré selon les distributions P (y = 1), P (x|y = 1) et P (x|y = 0). Les trois critères observés lors du déroulement de l’algorithme sont : le paramètre P (y = 1), le taux d’erreur sur les données test des différents modèles et la log-vraisemblance des modèles inférés sur l’ensemble Stest . Le modèle θc généré aléatoirement prend les valeurs suivantes pour ces paramètres : P (y = 1) = 0, 5798, Erreur(θc , Stest ) = 0, 045 et l(θc , Stest ) = −5651, 84. La phase d’initialisation est numérotée 0. Le paramètre P (y = 1) tiré aléatoirement à la phase 1 de l’algorithme est indiqué en gras. Chaque étape correspond à une phase complète d’itération (indices 3, 4 et 5 de l’algorithme 4). La dernière ligne, marquée en gras, indique la dernière étape avant convergence. étape k 0 1 2 3 4 5 6 7 8 9 P(y=1) 0,7868 0,8286 0,7762 0,7221 0,6744 0,6368 0,6104 0,5934 0,5830 0,5767 log-vraisemblance(θk,Stest ) -6813,95 -5909,26 -5804,40 -5735,62 -5694,87 -5673,13 -5663,93 -5661,03 -5660,45 -5660,38 Erreur(θk ,Stest ) 0,248 0,188 0,124 0,111 0,046 0,046 0,045 0,045 0,044 0,045 Tableau 1 Une seule itération de la boucle ”répéter” est indiquée, nous avons constaté que différents P (y = 1) tirés aléatoirement menaient la plupart du temps au même modèle. 4.2 Comparaison de l’algorithme naı̈f de Bayes dans les cas semisupervisés classique et asymétrique Cette section présente les résultats expérimentaux obtenus sur des données générées artificiellement selon le protocole exposé section 4.1. Différentes tailles des ensembles Slab et Sunl et différents nombres d’attributs binaires par donnée sont testés. Ces résultats permettent de comparer les performances des algorithmes 2, 3, 4 et 5. 307 CAp 2005 L’algorithme 2 utilise un ensemble Slab de données étiquetées et un ensemble Sunl de données dont la classe n’est pas connue, les tailles de ces ensembles sont signalées dans le tableau 2. Les algorithmes 3, 4 et 5 utilisent les données positives de l’ensemble Slab et le même ensemble Sunl . La taille de Spos varie en fonction du paramètre P (y = 1) du modèle cible et de la taille de Slab et vaut approximativement P (y = 1) ∗ |Slab |. Enfin, chaque résultat présenté dans le tableau 2 est une moyenne calculée sur 200 expériences. La lecture en ligne du tableau permet d’observer l’évolution des performances des algorithmes en fonction du nombre d’attributs. En colonne, elle permet d’observer les changements induits par des modifications de la taille des ensembles Slab et Sunl , et permet également de comparer les algorithmes entre eux. Entre parenthèses sont indiqués les écarts-types des taux d’erreurs et en gras, les moyennes des vitesses de convergence apparentes pour les algorithmes utilisant la méthode E.M. (2,4 et 5), soit la moyenne du nombre d’itérations avant stabilisation. Nb attributs xi Performance Modèle cible Algo 2 EM+NB semi-supervisé |Slab | = 50 Algo 3 NB semi-sup. asym. |Sunl | = 100 Algo 4 |Spos | = EM+NB asym.+aléa α · |Slab | Algo 5 EM+NB asym.+(2) Algo 2 EM+NB semi-supervisé |Slab | = 100 Algo 3 NB semi-sup. asym. |Sunl | = 1000 Algo 4 |Spos | = EM+NB asym.+aléa α · |Slab | Algo 5 EM+NB asym.+(2) Algo 2 EM+NB semi-supervisé |Slab | = 1000 Algo 3 NB semi-sup. asym. |Sunl | = 5000 Algo 4 |Spos | = EM+NB asym.+aléa α · |Slab | Algo 5 EM+NB asym.+(2) 20 0.0410 (0.0265) 0.0787 (0.1481) 24.46 0.1236 (0.0753) 0.0592 (0.0601) 30.70 0.0653 (0.0531) 22.64 0.0536 (0.0978) 23.19 0.0911 (0.0527) 0.0460 (0.0425) 30.83 0.0460 (0.0288) 24.09 0.0434 (0.0294) 21.61 0.0490 (0.0285) 0.0434 (0.0294) 28.56 0.0440 (0.0289) 21.13 50 0.0035 (0.0038) 0.0621 (0.2166) 8.22 0.1037 (0.0662) 0.0346 (0.1040) 9.99 0.0465 (0.1364) 7.63 0.0140 (0.0936) 6.53 0.0514 (0.0478) 0.0221 (0.0962) 9.03 0.0170 (0.0656) 6.15 0.0037 (0.0040) 4.11 0.0140 (0.0182) 0.0103 (0.0573) 7.74 0.0088 (0.0690) 5.14 Tableau 2 L’algorithme 2 est celui qui utilise le plus de données, c’est l’algorithme le plus efficace lorsque le nombre de données est grand. L’estimateur (2), utilisé pour l’étape initiale de l’algorithme 5, permet d’augmenter la rapidité de convergence par rapport à un choix aléatoire de P (y = 1) (algorithme 4). On observe également une amélioration rapide des performances de l’algorithme 3 lorsque le nombre de données augmente. 308 Apprentissage semi-supervisé asymétrique 5 Prédiction de ponts disulfures dans les protéines Les ponts disulfures sont des liaisons covalentes, entre deux acides aminés (cystéines) de la chaı̂ne protéique, qui contraignent la structure 3D de cette protéine. Des travaux préliminaires ont montré que l’information recherchée, tel couple de cystéines forme-til un pont, est vraisemblablement dispersée et portée par des éléments très divers : environnement, propriétés chimiques, etc... Mais il est vraisemblable que cette information soit aussi en partie portée par le voisinage des cystéines. C’est cette part de l’information que nous cherchons à extraire, sans prétendre pouvoir résoudre le problème de la prédiction des ponts disulfures avec cette seule donnée. Nous pensons qu’il est préférable de considérer un couple de cystéines non observées appariées comme un exemple de classe indéterminée plutôt que de le considérer comme un exemple négatif, c’est-à-dire n’étant pas compatible. En effet, chaque cystéine est contrainte à une unicité de liaison et il est pourtant probable qu’elle soit compatible avec plusieurs autres cystéines de la même protéine. C’est pourquoi nous cherchons à montrer qu’il ne faut pas considérer les couples non observés appariés comme des représentants de couples qui ne peuvent pas s’apparier. 5.1 Les données Les données sont extraites de la Protein Data Bank (PDB) pour les besoins du groupe de travail de l’ACI GENOTO3D (http ://www.loria.fr/˜guermeur/GdT/ ). Le fichier de données dont nous disposons contient 227 séquences protéiques (mots sur un alphabet à 20 lettres) qui ont toutes leurs cystéines oxydées et appariées par un pont disulfure. La répartition des protéines en fonction de leur taille (nombre d’acides aminés de la séquence) est indiquée figure 1 et en fonction du nombre de ponts figure 2. 309 CAp 2005 5.2 Protocole expérimental 5.2.1 Modélisation des données Nous cherchons à estimer des affinités locales dans les protéines. Dans le cas des ponts disulfures, ces attractions se font entre les acides aminés proches des deux cystéines appariées. C’est pourquoi nous avons extrait de chaque séquence protéique des fragments de taille fixe centrés sur les cystéines. Nous appelons ces fragments des fenêtres et notons x−n , .., x−1 , x0 , x1 , ..., xn une fenêtre de rayon n (x0 est donc une cystéine). Nous travaillons sur un alphabet de 231 lettres (nombre de couples ordonnés sur un alphabet à 21 lettres : les 20 acides aminés et un caractère pour les fins de chaı̂ne). Pour représenter l’affinité entre deux segments f et f ′ , trois codages sont testés : – Codage simple : {(xi , x′i )}, i ∈ {−n, ..., n}, i 6= 0, xi ∈ f, x′i ∈ f ′ – Codage double : {(xi , x′i )} ∪ {(xi , x′−i )}, i ∈ {−n, ..., n}, i 6= 0, xi ∈ f, x′i ∈ f ′ – Codage croisé : {(xi , x′j )}, i, j ∈ {−n, ..., n}, xi ∈ f, x′i ∈ f ′ Une donnée est donc un couple de fenêtres representé par 231 attributs n-aires. Chacun de ces attributs représentant le nombre d’occurrences du couple dans la donnée. 5.2.2 Protocole d’apprentissage Pour une protéine contenant n ponts, on compte n(2n − 1) couples de fenêtres potentiellement en interaction. Si un couple est observé comme formant un pont, on le considère comme un exemple positif. Quand aux autres couples, nous les considérons dans un premier temps comme des exemples ne pouvant pas former un pont, et dans un deuxième temps comme des exemples non étiquetés. Pour le premier cas, nous avons utilisé l’algorithme naı̈f de Bayes (section 2.1), et pour le deuxième l’algorithme 4. L’apprentissage se fait sur des protéines ayant le même nombre n de ponts. Nous avons étudié n = 2, 3, 4 et 5. Le cas n = 1 étant trivial, il est pas étudié. Pour n > 5, nous ne disposons pas d’assez de données pour que les résultats soient significatifs. 5.2.3 Protocoles de test Pour tester la pertinence des estimations d’affinité issues des deux algorithmes, nous proposons un protocole de test ne prennant en compte que cette information et permettant de comparer la qualité des estimations des deux algorithmes : – calculer pour chaque couple de fenêtres d’une protéine test l’affinité entre ces deux fenêtres dans le modèle généré par l’algorithme d’apprentissage ; – trouver la configuration la plus vraisemblable. Cela revient à trouver dans un graphe complet le couplage parfait de poids maximal, où les sommets sont les fenêtres d’une protéine et les arêtes les affinités. Ceci se fait en temps polynomial. Nous avons effectué des validations croisées 10-folds pour chacun des codages proposés. Nous comparons ces résultats avec ceux d’un tirage aléatoire d’une configuration de ponts. Pour une protéine contenant n ponts, l’espérance mathématique du nombre n de ponts correctement prédits par un choix aléatoire est 2n−1 . Ce résultat a été utilisé dans d’autres études sans jamais avoir été démontré. Nous l’avons prouvé mais notre démonstration est fastidieuse, aussi nous avons choisi de ne pas la faire figurer. 310 Apprentissage semi-supervisé asymétrique 5.3 Résultats expérimentaux Les performances des deux algorithmes sur les données biologiques sont maximales pour le codage croisé et très inférieures pour les autres codages. Nous donnons donc les résultats pour le codage croisé. Le tableau suivant présente les moyennes des résultats obtenus sur des séries de 100 expériences faites selon le protocole présenté section 5.3. Nb de ponts/cystéines par protéine 2/4 3/6 4/8 Nb de protéines 51 50 28 Nb et % de ponts correctement prédits 34 30 16 aléatoirement (espérance) 33,33% 20% 14,3% Nb et % de ponts correctement prédits 41 26,25 14,22 Algorithme NB (supervisé) 40,2% 17,5% 12,7% Nb et % de ponts correctement prédits 60 50,1 18,26 Algorithme 4 (semi-sup. asymétrique) 58,8% 33,4% 16,3% Résultats expérimentaux sur les données biologiques 5/10 20 11 11,1% 5,8 5,8% 13,2 13,2% Les résultats connus pour ce problème d’apprentissage sont (Fariselli & Casadio, 2001; Fariselli et al., 2002; Vullo & Frasconi, 2004). Les meilleurs de ces résultats (Fariselli et al., 2002) sont plus élevés que les notres. Ces résultats ont été obtenus par des méthodes plus sophistiquées (réseaux de neurones récursifs), avec plus de données, et en intégrant d’autres informations comme l’information évolutionnaire, c’est-à-dire un codage des segments selon des profils. Il est donc difficile de comparer nos résultats aux leurs, mais voici un tableau synthétique de leurs résultats à titre indicatif : Nb de ponts par protéine 2 ponts 3 ponts 4 ponts Nb de protéines 156 146 99 % de ponts correctement prédits 73 56 37 Résultats obtenus par (Fariselli et al., 2002) 5 ponts 45 30 Néanmoins, nos résultats sont suffisants pour conclure sur deux points importants : – l’apprentissage semi-supervisé asymétrique donne des résultats tout à fait satisfaisants (données artificielles et biologiques), ce qui nous encourage à poursuivre nos travaux dans cette voie ; – notre hypothèse semble vérifiée : il est préférable de considérer les couples de cystéines non appariées comme des exemples non étiquetés plutôt que négatifs. Cette hypothèse devrait pouvoir être intégrée à des méthodes plus sophistiquées (réseaux de neurones, SVMs) de façon à exploiter au mieux l’information locale. 6 Conclusion Nous montrons dans cet article que le problème de l’apprentissage semi-supervisé asymétrique lorsque les attributs descriptifs suivent l’hypothèse naı̈ve de Bayes est bien posé. Nous fournissons un estimateur consistant qui permet d’identifier à la limite le modèle cible. Nous proposons également un algorithme itératif de construction de modèles basé sur le critère du maximum de vraisemblance. 311 CAp 2005 Les résultats obtenus sur des données biologiques étayent une hypothèse biologique qui se veut originale quant à la façon de modéliser les données. Nous cherchons actuellement à appliquer ce procédé à d’autres données (brins beta en particulier) ainsi qu’à améliorer nos résultats sur les ponts disulfures en intégrant plus d’informations sur ces ponts. Nous essayons également d’intégrer les estimations d’affinités locales issues de notre méthode à d’autres méthodes d’apprentissage comme les SVM. 7 Remerciements Je tiens à remercier François Denis (LIF, Marseille) et Cécile Capponi (LIF, Marseille - LMGM, Toulouse) pour leur aide et leurs conseils durant cette étude. Mais également Liva Ralaivola (LIF, Marseille), Christophe Geourjon (IBCP, Lyon) et Laurent Brehelin (LIRMM, Montpellier) pour leur participation et les diverses idées proposées. Références D EMPSTER A., N.M.L AIRD & D.B.RUBIN (1977). Maximum likelihood from incomplete data via the em algorithm. In Journal of the Royal Statistical Society, p. 39 :1–38. D ENIS F. (1998). Pac learning from positive statistical queries. In The 9th International Workshop on Algorithmic Learning Theory. D ENIS F., D E C OMITE F., G ILLERON R. & L ETOUZEY F. (1999). Positive and unlabeled examples help learning. In The 10th International Workshop on Algorithmic Learning Theory. D ENIS F., G ILLERON R., L AURENT A. & T OMMASI M. (2003). Text classification and cotraining from positive and unlabeled examples. In Proceedings of the ICML 2003 Workshop : The Continuum from Labeled to Unlabeled Data, p. 80–87. D OMINGOS P. & PAZZANI M. (1996). Simple bayesian classifiers do not assume independance. In A. P. . M. P RESS, Ed., Proceedings of the Thirteenth National Conference on Artificial Intelligence and the Eighth Innovative Applications of Artificial Intelligence Conference. FARISELLI P. & C ASADIO R. (2001). Prediction of disulfide connectivity in proteins. In Bioinformatics, number 17(10), p. 957–964. FARISELLI P., M ARTELLI P. & C ASADIO R. (2002). A neural network-based method for predicting the disulfide connectivity in proteins. In Proceedings of KES 2002, Knowledga based intelligent information engineering systems and allied technologies, number 1, p. 464–468. G EIGER D., H ECKERMAN D., K ING H. & M EEK C. (2001). Stratified exponential families : Graphical models and model selection. In The Annals of Statistics, number 29(2), p. 505–529. H ASTIE T., T IBSHIRANI R. & F RIEDMAN J. (2001). The elements of statistical learning. L IU B. & L I X. (2003). Learning to classify text using positive and unlabeled data. In Proceedings of Eighteenth International Joint Conference on Artificial Intelligence (IJCAI). M C C ALLUM A., T HRUN S. & M ITCHELL T. (1999). Text classification from labeled and unlabeled documents using e.m. V ULLO A. & F RASCONI P. (2004). Disulfide connectivity prediction using recursive neural networks and evolutionary information. In Bioinformatics, number 20(5), p. 653–659. W HILEY M. & T ITTERINGTON D. (2002). Model identifiability in naive bayesian networks. In Technical Report. 312 Approximation de collections de concepts formels par des bi-ensembles denses et pertinents Jérémy Besson1,2 , Céline Robardet3 et Jean-François Boulicaut1 1 INSA Lyon, LIRIS CNRS UMR 5205, F-69621 Villeurbanne cedex, France http://liris.cnrs.fr 2 3 UMR INRA/INSERM 1235, F-69372 Lyon cedex 08, France INSA Lyon, PRISMA, F-69621 Villeurbanne cedex, France http://prisma.insa-lyon.fr Résumé : Le calcul de concepts formels, et plus généralement l’usage des treillis de Galois pour l’extraction de connaissances, a motivé de très nombreuses recherches. Grâce à des progrès algorithmiques récents, ces techniques fournissent des motifs particulièrement intéressants pour l’analyse de grandes matrices codant l’expression de milliers de gènes dans des situations biologiques variées. Dans cet article, nous considérons le contexte réaliste, notamment en biologie, où les concepts formels reflètent des associations trop fortes et donc très sensibles au bruit dans les données. Nous étudions l’extraction de bi-ensembles denses et pertinents pour approximer des collections de concepts formels. Le travail est formalisé dans le cadre de l’extraction de motifs sous contraintes par des algorithmes complets. Plusieurs validations expérimentales confirment la valeur ajoutée de notre approche. Mots-clés : Découverte de connaissances, extraction de motifs sous contraintes, concepts formels, bioinformatique. 1 Introduction L’extraction de concepts formels dans des contextes booléens et plus généralement l’usage des treillis de Galois pour l’extraction de connaissances ont motivé de nombreuses recherches. Les contextes booléens, également appelés données transactionnelles1 , se retrouvent dans de nombreuses applications. Ainsi, nous travaillons à l’analyse du transcriptome (étude des mécanismes de régulation des gènes chez un organisme vivant) après codage de propriétés d’expression booléennes pour des (dizaines de) milliers de gènes dans des situations biologiques variées. En effet, des techniques 1 Des données transactionnelles sont un multi-ensemble d’items. Ce type de données souvent étudié en “data mining”, correspond à de (grandes) matrices booléennes où les lignes définissent les transactions et les colonnes représentent les items : la présence d’un item dans une transaction est codée par la valeur vrai. 313 CAp 2005 expérimentales comme celles des puces ADN permettent de quantifier le niveau d’expression des gènes (voir, e.g., la matrice de gauche de la figure 1) et dont on peut dériver des données booléennes d’expression (e.g., la matrice de droite de la figure 1). Cette dernière code le fait que les gènes ont ou pas un fort niveau d’expression (ici une valeur >1.52). Dans de tels contextes booléens, un concept formel, ou rectangle maximal de valeurs 1 (vrai), représente un motif a priori intéressant pour les biologistes : il informe sur une association forte entre un ensemble maximal de gènes qui sont co-exprimés et un ensemble maximal de situations biologiques donnant lieu à cette co-expression. L’extraction de tels motifs fournit alors des collections de modules de transcription potentiels permettant d’accélerer la découverte de nouvelles voies de régulation (Besson et al., 2004b), i.e., l’un des objectifs majeurs de l’analyse du transcriptome. s1 s2 s3 s4 s5 g1 1.8 2.1 1.1 0.3 0.25 Gènes g2 g3 2.3 1.6 2.4 0.3 1.6 0.2 0.3 2.1 0.5 0.5 g4 2.0 1.1 0.1 1.1 1.0 s1 s2 s3 s4 s5 g1 1 1 0 0 0 Gènes g2 g3 1 1 1 0 1 0 0 1 0 0 g4 1 0 0 0 0 F IG . 1 – Matrice d’expression de gènes (gauche) et une matrice booléenne r1 (droite) Par définition, les concepts formels sont construits sur des ensembles fermés. En marge des algorithmes de calcul de concepts formels (voir (Fu & Nguifo, 2004) pour une synthèse récente), de nombreux chercheurs ont proposé des algorithmes de calcul d’ensembles fermés dits fréquents qui peuvent désormais s’appliquer à de très grandes matrices booléennes (Pasquier et al., 1999; Pei et al., 2000; Zaki & Hsiao, 2002; Goethals & Zaki, 2003). On peut alors calculer des collections de concepts fréquents au sens de (Stumme et al., 2002) : seuls les concepts dont l’un des ensembles est suffisamment grand sont extraits. En s’intéressant aux dimensions très particulières des matrices d’expression booléennes (peu de lignes et de très nombreuses colonnes), (Rioult et al., 2003) montre qu’il est possible d’utiliser n’importe quel algorithme efficace de calcul d’ensembles fermés fréquents3 sur la plus petite des deux dimensions et ainsi calculer tous les concepts formels dans des données d’expression typiques. Pour traiter des cas plus difficiles, i.e., lorsqu’aucune des deux dimensions n’est suffisamment petite ou lorsque la densité du contexte (nombre de valeurs 1) est trop importante pour les algorithmes existants, nous avons proposé D-M INER, un algorithme complet d’extraction de concepts formels sous contraintes (Besson et al., 2004a). Il permet d’exploiter efficacement les contraintes monotones sur les deux dimensions des concepts formels (e.g., une taille minimale pour chacun des deux ensembles, une “surface minimale”, des contraintes d’inclusion). Nous avons maintenant des preuves de l’intérêt des concepts formels pour l’analyse 2 Il s’agit d’un codage naı̈f mais des approches plus réalistes ont été étudiées (Pensa et al., 2004). utilise ici avec un seuil de fréquence nulle. 3 On 314 Approximation de concepts formels du transcriptome et la découverte de connaissances biologiques (Besson et al., 2004b; Meugnier et al., 2005). Cependant, dans un concept formel, on capture une association très forte entre un ensemble de gènes et un ensemble de situations. Intuitivement, un concept n’accepte aucune exception. Si le concept c1 = ({s1 , s2 , s3 }, {g1 , g2 , g3 , g4 }) est considéré comme traduisant une association réelle et si, dans les données, g3 ne vérifie plus la propriété booléenne pour s2 , alors on trouvera les deux concepts ({s1 , s2 , s3 }, {g1 , g2 , g4 }) et ({s1 , s3 }, {g1 , g2 , g3 , g4 }) mais pas le concept c1 . En fait, la présence de valeurs “indûment” mises à 0 va faire exploser le nombre de concepts formels à extraire. Notons également que l’on aura des problèmes avec des valeurs codées par 1 alors qu’elles auraient du prendre la valeur 0. Dans ces contextes bruités, non seulement les extractions peuvent devenir impossibles, mais aussi les interprétations des motifs calculés sont très difficiles. En d’autres termes, nous sommes en présence d’une très grande sensibilité au bruit. Or, non seulement les données d’expression numériques sont bruitées du fait de la complexité des techniques de mesure, mais aussi le prétraitement de codage des propriétés booléennes à partir des données numériques peut introduire du bruit. Dans cet article, nous proposons de travailler avec un nouveau type de motif : des bi-ensembles contenant un nombre borné de 0 par ligne et par colonne, et tel que chaque ligne (resp. colonne) soit suffisamment différente de chaque ligne (resp. colonne) extérieure sur l’ensemble des colonnes (resp. lignes) du bi-ensemble. Nous montrons que ce type de motif, appelé bi-ensemble dense et pertinent, est plus robuste au bruit et permet en pratique de concentrer davantage d’information pertinente dans des collections de motifs plus petites. Dans la section 2 nous présentons quelques travaux connexes. La section 3 formalise notre problème dans le cadre de l’extraction sous contraintes. Dans la section 4, nous décrivons succinctement l’algorithme développé pour l’extraction de tous les biensembles denses et pertinents. La section 5 s’intéresse aux résultats expérimentaux obtenus, notamment dans le cas de données biologiques réelles. Nous montrons que même dans le cas où le calcul de tous les bi-ensembles denses et pertinents est trop difficile, on peut utiliser l’algorithme proposé pour étudier les extensions de certains concepts. Enfin, nous concluons dans la section 6. 2 Travaux connexes Les récentes techniques de bi-partitionnement tendent à fournir des rectangles plus robustes au bruit mais au moyen de recherches heuristiques (optimisations locales) et surtout sans recouvrement (Dhillon et al., 2003; Robardet, 2002). D’autres approches ont été proposées dans la communauté de l’extraction de motifs sous contraintes. Dans (Yang et al., 2001), les auteurs étendent la définition des ensembles fréquents4 à des ensembles tolérants au bruit. Ils proposent un algorithme par niveau pour les calculer. Malheureusement, ces motifs ne peuvent pas être extraits facilement car les contraintes qui les définissent ne sont ni anti-monotones ni monotones relativement à l’inclusion 4 Dans notre contexte, un ensemble fréquent correspond à un ensemble de gènes suffisamment co-exprimés au regard d’un nombre minimal de situations biologiques impliquées. 315 CAp 2005 ensembliste, des propriétés essentielles pour rendre les extractions faisables. Ils utilisent donc un algorithme glouton calculant une solution incomplète. Dans (Seppänen & Mannila, 2004), les auteurs recherchent une contrainte anti-monotone. Ils proposent un algorithme par niveau pour calculer les ensembles qui ont une densité de valeurs 1 supérieure à δ dans au moins σ situations. L’anti-monotonicité est obtenue en exigeant que tous leurs sous-ensembles vérifient également cette contrainte. L’extension de tels ensembles denses à des bi-ensembles est difficile : les correspondances qui associent les gènes aux situations biologiques, et réciproquement, ne sont ni croissantes ni décroissantes. En effet, l’ensemble des situations biologiques associé à un ensemble de gènes n’est pas nécessairement inclus dans celui de ses sur-ensembles. Dans (Gionis et al., 2004), les auteurs calculent des motifs (“geometrical tiles”) qui sont des rectangles denses (ayant une densité de valeurs 1 supérieure à un seuil fixé). Pour extraire ces motifs, ils utilisent un algorithme non déterministe d’optimisation locale qui ne garantit pas la qualité globale des motifs extraits. Ils exigent qu’il existe un ordre sur les deux dimensions de la matrice : les rectangles ne sont pas considérés à des permutations près des lignes et/ou des colonnes mais doivent concerner des éléments contigus au regard des ordres considérés. Cette hypothèse n’est clairement pas acceptable dans notre contexte. Une autre approche importante consiste à étudier de façon systématique la notion de représentation condensée des collections de concepts formels ou de bi-ensembles denses, qu’il s’agisse de représentations exactes ou approximatives. L’objectif est alors de ne représenter, ou mieux de ne calculer, qu’un sous-ensemble des collections tout en pouvant retrouver, plus ou moins exactement mais à un faible coût, l’ensemble de la collection. On peut vouloir, par exemple, rechercher une collection de k motifs qui approxime le mieux des collections complètes (Afrati et al., 2004). L’approche des représentations condensées doit aussi intégrer des approches de “zoom” comme, par exemple, les travaux présentés dans (Ventos et al., 2004) pour construire des treillis de Galois à différents niveaux d’abstraction. Cette méthode utilise une partition sur les objets qui permet de réduire le nombre de motifs extraits. Ils utilisent une partition sur les lignes et ne conservent que les concepts qui sont en “accord” avec cette partition : une situation s appartient à l’extension d’un ensemble G si α% des objets de la même classe que s satisfont G et que s satisfait aussi G. Nous souhaitons pour notre part avoir une approche duale entre les situations et les gènes où aucune des deux dimensions n’est privilégiée au cours de l’extraction. 3 Définitions Nous notons G l’ensemble des gènes et S l’ensemble des situations biologiques. Le contexte à fouiller est booléen, i.e., la représentation d’une relation r ⊆ S × G. Ces situations peuvent correspondre à des expériences de type puce ADN (voir figure 1). 316 Approximation de concepts formels 3.1 Bi-ensembles Un bi-ensemble (S, G) est un couple d’ensembles de 2S × 2G . Certains bi-ensembles particuliers peuvent être extraits dans des matrices booléennes comme les 1-rectangles (tous les éléments de S sont en relation avec tous les éléments de G) ou les concepts formels qui sont des 1-rectangles maximaux (en fait, S et G sont des ensembles fermés). Les nombreux travaux sur le calcul d’ensembles d’items (typiquement les ensembles fréquents utilisés pour le calcul de règles d’association (Becquet et al., 2002)) peuvent être considérés comme des calculs de bi-ensembles. On associe à un ensemble de gènes toutes les situations qui le “portent” et l’on a donc un 1-rectangle particulier appelé ”itemset”. D’une manière duale, on peut définir un motif similaire basé sur un ensemble de situations appelé ”objectset”. Nous donnons quelques rappels sur les correspondances de Galois (voir notamment (Wille, 1982)) pour formaliser notre problème. Définition 1 (Correspondance de Galois) Soit φ : S → G et ψ : G → S deux opérateurs entre deux ensembles partiellement ordonnés (S, ≤S ) et (G, ≤G ). Ces opérateurs forment une correspondance de Galois si : 1 2 ∀v, w ∈ S, si v ≤S w alors φ(w) ≤G φ(v), ∀i, j ∈ G, si i ≤G j alors ψ(j) ≤S ψ(i), 3 ∀v ∈ S, ∀i ∈ G, v ≤S ψ(φ(v)) et i ≤G φ(ψ(i)) où ≤S et ≤G sont deux relations de spécialisation respectivement sur S et G . Définition 2 (Correspondances φ et ψ) Si S ⊆ S et G ⊆ G , φ et ψ peuvent être définis ainsi : φ(S, r) = {g ∈ G | ∀s ∈ S, (s, g) ∈ r} et ψ(G, r) = {s ∈ S | ∀g ∈ G, (s, g) ∈ r}. φ renvoie l’ensemble des gènes qui satisfont la propriété d’expression dans toutes les situations biologiques de S . ψ fournit l’ensemble des situations biologiques pour lesquels on a la propriété d’expression de tous les gènes de G. (φ, ψ) forme une correspondance de Galois entre S et G munis de l’inclusion ensembliste ⊆ (relation de spécialisation). Nous utilisons les notations classiques h = φ ◦ ψ et h′ = ψ ◦ φ pour désigner les opérateurs de fermeture de Galois. Un ensemble S ⊆ S (resp. G ⊆ G ) est dit fermé dans r ssi S = h′ (S, r) (resp. G = h(G, r)). On peut maitenant formaliser les types de motifs précités. Définition 3 (1-rectangles, ensembles et concepts formels) Un bi-ensemble (S, G) est un 1-rectangle dans un contexte r ssi ∀s ∈ S et ∀g ∈ G, (s, g) ∈ r. Quand un bi-ensemble n’est pas un 1-rectangle, on dit qu’il contient des valeurs 0. Un bi-ensemble (S, G) est un concept dans r ssi S = ψ(G, r) et G = φ(S, r). Ceci est équivalent à S = h′ (S, r) et G = φ(S, r) ou à G = h(G, r) et S = ψ(G, r). Une propriété importante de la correspondance de Galois est que chaque ensemble fermé sur l’une des deux dimensions est associé à un unique ensemble fermé de l’autre dimension. 317 CAp 2005 Exemple 1 ({s1 }, {g1, g3 }) et ({s1 , s2 }, {g2 }) sont des 1-rectangles dans r1 mais ne sont pas des concepts. Un exemple de concept dans r1 est ({s1 , s2 }, {g1 , g2 }). Nous avons h({g1 , g2 }, r1 ) = {g1 , g2 }, h′ ({s1 , s2 }, r1 ) = {s1 , s2 }, φ({s1 , s2 }, r1 ) = {g1 , g2 }, et ψ({g1 , g2 }, r1 ) = {s1 , s2 }. On peut associer à l’ensemble de gènes {g1 } l’ensemble des situations {s1 , s2 } = ψ({g1 }, r1 ) et nous pouvons alors parler du 1-rectangle ({s1 , s2 }, {g1}) comme d’un itemset. Notons qu’avec nos définitions, le 1-rectangle ({s1 , s2 }, {g2}) n’est pas un itemset : il faudrait ajouter s3 à sa première composante. Nous avons motivé dans l’introduction l’intérêt de travailler avec des bi-ensembles qui soient moins sensibles au bruit que les concepts formels et plus pertinents vis-à-vis des données globales. La faisabilité des extractions dépend de l’existence de contraintes monotones et anti-monotones (voir définition 4) permettant de définir les motifs recherchés. En fait, monotonicité et anti-monotonicité sont des propriétés duales qui sont très bien exploitées pour des extractions complètes de motifs sous contraintes, même en présence de grands espaces de recherche. Définition 4 (Relation de spécialisation et monotonicité) La relation de spécialisation  que nous utilisons sur les bi-ensembles de 2S × 2G est définie par (S1 , G1 )  (S2 , G2 ) ssi S1 ⊆ S2 and G1 ⊆ G2 . Une contrainte C est dite anti-monotone par rapport à  ssi ∀X, Y ∈ 2S ×2G tels que X  Y, C(Y ) ⇒ C(X). C est dite monotone par rapport à  ssi ∀X, Y ∈ 2S × 2G tel que X  Y, C(X) ⇒ C(Y ). Définition 5 (Exemple de contraintes monotones sur les bi-ensembles) Contrainte de taille minimale : un bi-ensemble (S, G) satisfait Cms (r, σ1 , σ2 , (S, G)) ssi ♯S ≥ σ1 et ♯G ≥ σ2 où ♯ désigne le cardinal d’un ensemble. Contraintes d’inclusion : un bi-ensemble (S, G) satisfait CInclusion (r, X, Y, (S, G)) ssi X ⊆ S and Y ⊆ G. Contrainte de surface minimale : un bi-ensemble (S, G) satisfait Carea (r, σ, (S, G)) ssi ♯S × ♯G ≥ σ . A la recherche de bi-ensembles denses, nous avons proposé dans (Besson et al., 2005) une première approche visant à calculer des bi-ensembles ayant un nombre borné de valeurs 0. La méthode proposée consistait en un post-traitement de la collection de tous les concepts formels. L’idée était de procèder à une fusion de certains concepts de telle sorte que le nombre de valeurs 0 par ligne et par colonne soit borné. Cette contrainte étant anti-monotone suivant , ce procédé peut être réalisé en adaptant un algorithme d’extraction d’ensembles maximaux. Malheureusement, les motifs ainsi extraits ne sont pas munis d’une correspondance de Galois : le même ensemble de situations biologiques peut être associé à plusieurs ensembles de gènes différents. Nous proposons maintenant d’extraire un nouveau type de motif appelé bi-ensemble dense et pertinent muni d’une telle correspondance. Il s’agit de calculer tous les bi-ensembles qui satisfont la conjonction des contraintes introduites ci-dessous. 318 Approximation de concepts formels 3.2 Bi-ensembles denses Le concept de densité peut être envisagé sous deux angles selon que l’on mesure le nombre de 0 par ligne/colonne ou sur l’ensemble du bi-ensemble (densité forte versus faible) et selon que l’on considère ce nombre de manière absolue ou relativement à la taille du bi-ensemble (densité absolue versus relative). La contrainte de “densité forte absolue” impose une limitation du nombre de 0 par ligne et par colonne, mais, relativement à la taille du bi-ensemble, elle borne aussi supérieurement le nombre de 0 total du bi-ensemble. De plus, lorsque le seuil de densité choisi est petit devant la taille minimale du bi-ensemble, ces bi-ensembles ne contiennent pas de lignes et de colonnes presque vides (avec presque que des 0) contrairement à ce qui peut se produire avec la densité faible. D’autre part, on peut obtenir un résultat similaire sans devoir pousser de contrainte de taille minimale et en utilisant seulement une contrainte de ”densité forte relative” : en fixant la proportion de 0 par ligne et par colonne on ne peut obtenir de ligne ou de colonne pleines de 0. Ainsi, nous souhaitons extraire des bi-ensembles ayant un nombre maximum α de valeurs 0 et contenant au moins γ fois plus de 1 que de 0 par ligne et par colonne. Cette contrainte est notée Cd (r, α, γ, (S, G)). 3.3 Bi-ensembles pertinents Nous voulons extraire des bi-ensembles composés de situations biologiques ayant une densité sur les gènes du bi-ensemble supérieure à celle sur les gènes n’appartenant pas au bi-ensemble. Réciproquement, le bi-ensemble doit contenir des gènes dont la densité sur les situations biologiques du bi-ensemble est supérieure à celle des situations biologiques n’appartenant pas au bi-ensemble. De manière plus formelle, étant donné deux paramètres δ, un bi-ensemble (S, G) est dit pertinent ssi max(♯{g ∈ G | (s, g) 6∈ r}) + δ ≤ max(♯{s ∈ S | (s, g) 6∈ r}) + δ ≤ s∈S g∈G min (♯{g ∈ G | (s, g) 6∈ r}) s∈S\S min (♯{s ∈ S | (s, g) 6∈ r}) g∈G\G Par la suite, cette contrainte sera désignée par Cs (r, δ, (S, G)). Par construction, plus δ augmentent, plus la différence entre la densité du bi-ensemble et chacune des situations biologiques extérieures au bi-ensemble et chacun des gènes extérieurs au bi-ensemble doit être grande. 3.4 Bi-ensembles denses et pertinents Les contraintes Cd et Cs sont complémentaires et peuvent être utilisées conjointement pour augmenter la qualité des motifs extraits. Etant donné les paramètres α, δ et γ, nous voulons donc calculer les bi-ensembles denses et pertinents, i.e., tous les bi-ensembles satisfaisant Cd ∧Cs dans r. Nous désignons 319 CAp 2005 cette collection par SAT αδγ . Un bi-ensemble (S,G) ∈ SAT αδγ ssi :    α |G|/(γ + 1) max(♯{g ∈ G | (s, g) 6∈ r}) ≤ s∈S   min (♯{g ∈ G | (s, g) 6∈ r}) − δ s∈S\S    α |S|/(γ + 1) max(♯{s ∈ S | (s, g) 6∈ r}) ≤  g∈G  min (♯{s ∈ S | (s, g) 6∈ r}) − δ g∈G\G Les paramètres α, δ et γ peuvent être différenciés selon que l’on considère ces contraintes sur les lignes et les colonnes. On notera d’un ′ ces paramètres sur les colonnes. Lorsque α = α′ = 0, on retrouve des collections déjà bien étudiées : – SAT est la collection des 1-rectangles lorsque δ = δ ′ = 0. – SAT est la collection des itemsets (au sens défini dans la section 2.1) lorsque δ = 1 et δ ′ = 0. – SAT est la collection des objectsets lorsque δ = 0 et δ ′ = 1. – SAT est la collection des concepts formels lorsque δ = δ ′ = 1. Dans le cas où α = α′ = 0, ces collections correspondent aux bi-ensembles les plus denses et ayant le plus petit seuil de pertinence. Lorsque α > 0, les collections de 1-rectangles, d’ensembles et de concepts formels sont généralisées en introduisant un certain nombre d’exceptions (valeur 0) dans les motifs. La figure 2 montre la collection SAT lorsque α = 5, α′ = 4, δ = δ ′ = 1 et γ = γ ′ = 0 pour r1 ordonnée par la relation . Chaque niveau indique le nombre maximum d’exceptions par ligne et par colonne. Par exemple, si une seule exception est autorisée (α = α′ = 1) et avec δ = δ ′ = 1, cinq motifs sont extraits. {s1, s2, s3, s4, s5}, {g1, g2, g3, g4} {s1, s2, s3, s4}, {g1, g2, g3, g4} {s1, s2}, {g1, g2, g3, g4} alpha = 4 {s1, s2, s3, s4, s5}, {g1, g2, g3} {s1, s2, s3, s4}, {g1, g2, g3} {s1, s2, s3, s4, s5}, {g2} {s1, s2, s3}, {g1, g2} {s1},{g1, g2, g3, g4} {s1, s4}, {g3} {s1, s2}, {g1, g2} {s1, s2, s3}, {g2} alpha = 3 alpha = 2 alpha = 1 alpha = 0 F IG . 2 – Motifs de r1 avec δ = 1 et γ = 0. Les motifs entourés sont ceux de M110 . Il peut être pertinent d’étendre les motifs de base (itemset et concepts) avec des exceptions de telle sorte qu’ils conservent les propriétés de maximalité associées à ces motifs au sens de la correspondance de Galois. Cette propriété est très importante car elle permet de mieux appréhender la collection extraite, c’est le cas en particulier pour les biologistes. Pour préserver les correspondances de Galois, nous introduisons une nouvelle contrainte notée Cm . 320 Approximation de concepts formels Définition 6 (Contrainte de maximalité Cm ) Un bi-ensemble (X,Y) ∈ SAT αδγ satisfait Cm dans r ssi : – δ = 1 et δ ′ = 0 ⇒6 ∃ (X ′ , Y ′ ) ∈ SAT αδγ tel que Y = Y ′ et X ⊂ X ′ – δ = 0 et δ ′ = 1 ⇒6 ∃ (X ′ , Y ′ ) ∈ SAT αδγ tel que X = X ′ et Y ⊂ Y ′ – δ ≥ 1 et δ ′ ≥ 1 ⇒6 ∃ (X ′ , Y ′ ) ∈ SAT αδγ tel que (X,Y)  (X ′ , Y ′ ) La collection des bi-ensembles qui satisfont Cd ∧ Cs ∧ Cm est notée Mαδγ . Sur la figure 2, les trois motifs entourés forment la collection M110 . Deux motifs de SAT 110 ont été éliminés. Le tableau 1 montre quelques collections SAT et M en fonction des paramètres α et δ. δ=1 α 0 1 0 1 SAT αδγ Mαδγ {{s1 }, {g1 , g2 , g3 , g4 }} {{s1 }, {g1 , g2 , g3 , g4 }} {{s1 , s4 }, {g3}} {{s1 , s4 }, {g3 }} {{s1 , s2 }, {g1, g2 }} {{s1 , s2 }, {g1 , g2 }} {{s1 , s2 , s3 }, {g2}} {{s1 , s2 , s3 }, {g2 }} {{s1 }, {g1 , g2 , g3 , g4 }} {{s1 , s4 }, {g3}} {{s1 }, {g1 , g2 , g3 , g4 }} {{s1 , s2 }, {g1, g2 }} {{s1 , s4 }, {g3 }} {{s1 , s2 , s3 }, {g2}} {{s1 , s2 , s3 }, {g1 , g2 }} {{s1 , s2 , s3 }, {g1, g2 }} δ=2 {{s1 }, {g1 , g2 , g3 , g4 }} {{s1 }, {g1 , g2 , g3 , g4 }} {{s1 }, {g1 , g2 , g3 , g4 }} {{s1 }, {g1 , g2 , g3 , g4 }} {{s1 , s2 , s3 }, {g1, g2 }} TAB . 1 – Collections SAT αδγ et Mαδγ sur r1 . La collection Mαδγ est muni d’une correspondance de Galois. En effet, dans nos applications, les ensembles de situations permettent d’expliquer l’association des gènes (la co-expression) et inversement. Ainsi, les biologistes recherchent des associations bijectives et décroissantes. Les bi-ensembles extraits vérifient cette propriété. Propriété 1 Pour α1 ≤ α et α′1 ≤ α′ , δ , δ ′ , γ et γ ′ fixés, alors ∀X ∈ Mαα′ δδ′ , ∃X1 ∈ Mα1 α′1 δδ′ tel que X1  X . De plus, ∀X1 ∈ Mα1 α′1 δδ′ , ∃X ∈ Mαα′ δδ′ tel que X1  X . Propriété 2 Pour α, α′ , γ et γ ′ fixés, et δ ≤ δ1 et δ ′ ≤ δ1′ alors SAT αα′ δ1 δ1′ ⊆ SAT αα′ δδ′ . D’après la propriété 1, plus α et α′ augmentent, plus la taille de chaque motif extrait de Mαα′ δ1 δ1′ augmente tout en conservant les associations extraites dans les collections avec α et α′ plus petits. En pratique, une réduction importante de la taille de la collection 321 CAp 2005 est observée lorsque les paramètres de l’extraction sont judicieusement choisis (voir section 5). Par conséquent, un effet de zoom est observé lorsque α et α′ varient. Les paramètres δ et δ ′ permettent de sélectionner les motifs les plus pertinents (voir propriété 2). M0,0,0,0 et M0,0,1,1 correspondent respectivement aux collections des 1-rectangles et des concepts couvrant toutes les valeurs 1 de la matrice. Ainsi, d’après la propriété 1, ∀α ≥ 0, ∀α′ ≥ 0 et δ, δ ′ ∈ {0, 1}, la collection Mα,α′ ,δ,δ′ couvre tous les 1 de la matrice. 4 Un algorithme complet L’algorithme construit un arbre d’énumération binaire, sur les situations biologiques et les gènes, en procédant en profondeur. En s’inspirant du principe de l’algorithme D UAL -M INER (Bucila et al., 2003), chaque nœud de l’arbre est constitué de trois biensembles : – O = (Os , Og ) est composé des éléments qui appartiendront aux motifs construits par cette branche, – N = (Ns , Ng ) contient les éléments qui n’appartiendront pas aux motifs engendrés par cette branche, – P = (Pg , Pg ) contient les éléments qui restent à énumérer. Chaque élément de S et de G appartient à un et un seul ensemble parmi O, P et N . Les bi-ensembles O et N sont générés de (∅, ∅) au bi-ensemble (S, G) en exploitant la relation d’ordre . Pour pouvoir utiliser activement les contraintes Cs et Cd , on associe à chaque situation biologique s (resp. chaque gène g) deux valeurs notées mins et maxs (resp. ming et maxg ). mins correspond au nombre de valeurs 0 de s sur les gènes appartenant à Og . maxs correspond au nombre de valeurs 0 de s sur les gènes de Og ∪ Pg . mins et maxs correspondent respectivement aux bornes inférieure et supérieure du nombre de 0 à un niveau donné de l’énumération. 4.1 Vérification et propagation des contraintes A tout moment, les éléments des trois ensembles O, P et N doivent vérifier les contraintes suivantes : – soit une situation s telle que mins > α alors s doit appartenir à Ns . Ainsi, si s était dans Os , on élague la branche. Sinon s est déplacé dans Ns . En effet, les situations qui ont plus de α valeurs 0 ne peuvent pas appartenir à un bi-ensemble solution. – soit une situation s telle que maxs < max{mint } + δ t∈Os alors s doit appartenir à Os . Ainsi, si s appartenait à Ns , le nœud est élagué. Sinon, s est déplacé dans Os . Dans ce cas, la situation ne contient pas suffisamment de valeurs 0 pour être à l’extérieur du bi-ensemble. 322 Approximation de concepts formels De manière tout à fait similaire, ces contraintes doivent être vérifiées sur les gènes. D’autres contraintes peuvent également être poussées lors de l’extraction de telle sorte à élaguer l’espace de recherche ou bien à forcer l’appartenance d’un élément à O ou à N . Par exemple, les contraintes monotones et anti-monotones sur  peuvent être exploitées. Les contraintes monotones vont être basée sur O ∪ P et les contraintes anti-monotones sur O. Les définitions 7 et 8 donnent des exemples de contraintes. Définition 7 (Exemple de contraintes monotones) – Cms (r, σ1 , σ2 , (S, G)) si ♯(Os ∪ Ps ) ≥ σ1 et ♯(Og ∪ Pg ) ≥ σ2 – CInclusion (r, X, Y, (S, G)) si X ⊆ Os ∪ Ps et Y ⊆ Og ∪ Pg – Carea (r, σ, (S, G)) si ♯(Os ∪ Ps ) ∗ ♯(Og ∪ Pg ) ≥ σ Définition 8 (Exemple de contraintes anti-monotones) – Cmins (r, σ1 , σ2 , (S, G)) si ♯(Os ) ≤ σ1 et ♯(Og ) ≤ σ2 – CInc (r, X, Y, (S, G)) si Os ⊆ X et Og ⊆ Y Si un nœud ne vérifie pas une de ces contraintes alors aucun de ces fils ne la vérifiera et ainsi l’espace de recherche peut être élagué. Ce type d’algorithme permet d’exploiter un grand nombre de contraintes, même des contraintes qui ne sont ni monotones ni anti-monotones sur  comme Cd ∧ Cs . 4.2 Optimisation Pour des raisons d’efficacité, nous utilisons une heuristique importante pour l’énumération des gènes et des situations biologiques : l’élément e (gène ou situation biologique) utilisé pour l’énumération est celui qui possède le nombre de valeurs 0 potentiels (maxe ) le plus grand. Ce choix tend à réduire la taille du bi-ensemble P le plus rapidement possible. Cela diminue l’espace de recherche tout en préservant la complétude des extractions. 5 Expérimentations 5.1 Evaluation de la robustesse au bruit sur données synthétiques Pour montrer la pertinence des Mαα′ δδ′ dans les données bruitées, nous avons tout d’abord généré des jeux de données synthétiques. Notre but est de montrer que l’extraction des Mαα′ δδ′ permet de retrouver les concepts, introduits dans le jeu de données avant qu’il ne soit bruité. Ainsi, les jeux de données construits sont composés de 4 concepts disjoints comportant chacun 10 éléments sur chaque dimension. Ensuite, un bruit aléatoire uniforme a été introduit dans les données, aussi bien sur les concepts qu’à l’extérieur. Nous avons généré 10 jeux de données pour chaque niveau de bruit : 5%, 10%, 15% et 20%. Le tableau 2 indique le nombre moyen suivi de l’écart-type du nombre de motifs extraits pour chaque niveau de bruit pour α = α′ variant de 0 à 3, δ = δ ′ = 3 et contenant au moins 4 éléments sur chaque dimension. Ces contraintes permettent de ne pas considérer les petits motifs dus au bruit et de ne conserver que 323 CAp 2005 ceux qui sont très pertinents. Dans le tableau 2, nous donnons également le nombre moyen de concepts pour chaque niveau de bruit. α 5% 10% 15% 20% Nb concepts 228.6 663.8 1292.5 2191.7 0 Moy σ 0 0 0 0 0 0 0 0 1 Moy 1.3 0.1 0 0 2 σ 0.82 0.32 0 0 Moy 3.3 1.7 0.4 0 3 σ 0.95 1.16 0.70 0 Moy 4 3 1.3 3.1 σ 0 0.94 0.95 3 TAB . 2 – Moyenne et écart-type du nombre de motifs extraits (sur 10 essais) en fonction de α = α′ et du pourcentage de bruit dans les données (δ = δ ′ = 3 et Cms (r, 4, 4, (S, G))). Lorsqu’il y a 5% de bruit, on retrouve systématiquement les 4 concepts originaux avec α = α′ = 3. Pour un pourcentage de bruit plus élevé (10% et 15%), seulement certains des concepts originaux sont retrouvés. Lorsque le bruit est trop important (20%), le nombre de motifs extraits est assez variable (l’écart-type vaut 3). Sur certains jeux de données, quelques concepts parmi les 4 d’origine sont retrouvés ; sur d’autres jeux de données, la démultiplication du nombre de concepts réapparaı̂t un peu. En revanche, de très nombreux concepts générés par l’introduction du bruit ont été éliminés. 5.2 Impact des paramètres sur les collections extraites 5.2.1 L’influence des paramètres α et α′ Pour voir l’influence des paramètres α et α′ sur Mαα′ δδ′ , nous avons réalisé plusieurs extractions sur le jeu de données CAMDA (Bozdech et al., 2003). Ce jeu de données montre l’évolution des niveaux d’expression de 3719 gènes (colonnes) de Plasmodium falciparum (responsable de la malaria) durant son invasion des globules rouges. La série temporelle comporte 46 mesures du niveau d’expression des gènes. Nous avons fixé δ = δ ′ = 1 et nous avons fait varier α = α′ de 0 à 4. De plus, les motifs doivent satisfaire la contrainte Cms (r, σ1 , σ2 , (S, G)) avec σ2 = 3 et σ1 qui varie de 19 à 24. Comme la contrainte de fréquence habituellement utilisée lors de l’extraction des ensembles fréquents, la contrainte Cms permet de rendre les extractions faisables. Le nombre de motifs extraits pour α = α′ de 0 à 2 diminue globalement. Certains motifs sont enrichis et deviennent des sur-ensembles de motifs pour α = α′ plus petits. Ensuite, pour α = α′ > 2, le nombre de motifs extraits tend a augmenter de nouveau. Ceci peut s’expliquer par deux phénomènes : – Tout d’abord, la taille de certains motifs, initialement non comptabilisés car étant trop petits, augmentent de telle sorte qu’ils satisfont la contrainte de taille – Lorsque α ≥ 3, le nombre d’erreurs accepté par ligne est supérieur ou égal au nombre de colonnes minimum du motif, ce qui conduit à accepter des concepts pouvant avoir très peu de 1 par ligne. Cela induit une augmentation du nombre de 324 Approximation de concepts formels σ1 σ1 σ1 σ1 σ1 σ1 α = 24 = 23 = 22 = 21 = 20 = 19 0 0 9 35 97 241 578 1 4 10 23 68 202 511 2 4 8 22 66 197 513 3 5 9 24 69 213 608 4 5 12 251 - TAB . 3 – Nombre de motifs satisfaisant la contrainte Cms (r, σ1 , σ2 , (S, G)) avec σ2 = 3, σ1 entre 19 et 24, δ = δ ′ = 1 et α = α′ qui varie. motifs. En pratique, il faut imposer une contrainte de taille minimale sur les deux dimensions nettement supérieure à α et α′ . Lorsque α augmente, l’extraction des motifs denses et pertinents devient de plus en plus difficile. Nous n’avons pas réussi à extraire ces motifs pour α = α′ = 4 et σ1 ≤ 21. 5.2.2 L’influence des paramètres δ et δ ′ Pour montrer l’influence des paramètres δ et δ ′ sur Mαα′ δδ′ , nous avons réalisé des extractions sur un jeu de données UCI (Internet Advertisements) de dimension 3279 × 1555. Il ne ’agit pas d’une matrice d’expression mais nous avons cherché un contexte booléen peu dense pour mieux illustrer les variations du nombre de concepts lorsque δ et δ ′ augmentent. Pour ces extractions, α et α′ sont fixés à 1, δ et δ ′ varient de 1 à 10 et les motifs extraits (S,G) doivent satisfaire la contrainte Cms (r, σ1 , σ2 , (S, G)) avec σ2 = 0 et σ1 ∈ {31, 78, 155, 330}. δ = δ′ σ1 = 31 σ1 = 78 σ1 = 155 σ1 = 330 1 549 131 43 6 2 56 17 7 1 3 16 3 1 1 4 7 2 1 1 5 5 2 1 1 6 5 2 1 1 7 2 1 1 1 8 2 1 1 1 9 2 1 1 1 10 2 1 1 1 TAB . 4 – Taille des collections extraites sur le jeu de données de l’UCI :Internet Advertisements, pour α = α′ = 1 sous la contrainte Cms (r, σ1 , σ2 , (S, G)) avec σ2 = 0 et σ1 ∈ {31, 78, 155, 330} Les extractions du tableau 4 montrent une diminution importante du nombre de concepts extraits au fur et à mesure de l’augmentation de δ et δ ′ . 5.3 Extension des concepts La complexité de l’extraction des motifs denses et pertinents peut augmenter très fortement avec α et α′ rendant certaines extractions infaisables. Il est néanmoins possible, 325 CAp 2005 dans ce cas, d’utiliser l’algorithme présenté pour enrichir certains concepts formels intéressant l’utilisateur final. En effet, il suffit pour étendre un concept (S,G) d’extraire les motifs (S ′ , G′ ) de Mαα′ δδ′ avec α et β supérieur à 0 et tel que (S, G) est un sur-ensemble de (S ′ , G′ ) (il satisfait CInclusion (r, S ′ , G′ , (S, G))). Pour réduire efficacement la complexité du calcul, il faut que le concept que l’on cherche à étendre ait suffisamment d’éléments (relativement à la taille et à la densité du jeu de données utilisé). Dans ce cas, la contrainte d’inclusion devient suffisamment sélective pour réduire l’espace de recherche. Pour illustrer ce procédé, nous avons utilisé le jeu de données CAMDA qui représente une série temporelle de 46 mesures correspondant à l’évolution du niveau d’expression des 483 gènes dont la fonction biologique est connue parmi 3719 gènes de la matrice d’origine. On peut distinguer trois phases dans le développement de Plasmodium falciparum au cours de l’infection. Elle sont appelées “ring”, “trophozoite” et “shizont”. Tous les concepts formels ont pu être extraits de cette matrice après discrétisation. Parmi ces 3800 concepts, on s’est intéressé à un concept contenant huit situations relatives à la phase ”ring” et quatre gènes dont trois sont connus pour avoir une fonction cytoplasmique. Les gènes ayant cette fonction ont tendance à être sur-exprimés au cours de cette phase. Nous avons essayé d’étendre ce concept pour l’enrichir (voir figure 3). Par exemple en utilisant α = α′ = 2 et δ = δ ′ = 1 on obtient un motif qui contient neuf gènes, onze situations biologiques et 7% de valeurs 0 dans le motif. Les trois situations biologiques ajoutées correspondent à la phase ”ring” et parmi les cinq gènes ajoutés, quatre ont une fonction cytoplasmique. Parmi les motifs étendus de la figure 3, cinq des sept nouveaux gènes sont connus pour avoir une fonction cytoplasmique et les huit situations biologiques ajoutées appartiennent à la phase “ring”. La prise en compte des exceptions dans les données a permis d’augmenter la taille du motif extrait en ajoutant des éléments cohérents d’un point de vue biologique avec ceux du concept initial. 11 − 5 − 11% 11 − 10 − 13% 14 − 9 − 15% 13 − 8 − 19% alpha = 3 alpha = 2 11 − 9 − 7% 11 − 6 − 5% alpha = 1 8 − 4 − 0% alpha = 0 F IG . 3 – Extensions d’un concept : chaque triplet représente le nombre de situations, le nombre de gènes et la densité faible relative de 0. 326 Approximation de concepts formels 6 Conclusion Pour extraire des connaissances dans de grandes matrices booléennes, nous avons défini un nouveau type de motifs appelé bi-ensembles denses et pertinents. Cette recherche a été motivée par des applications en analyse du transcriptome où les concepts formels dans des matrices d’expression de gènes suggèrent aux biologistes des modules de transcription potentiels. Nous nous sommes alors intéressés à la trop grande sensibilité au bruit des extractions de concepts formels pour proposer l’extraction de bi-ensembles qui peuvent être vus comme des concepts formels avec un nombre borné d’exceptions (bi-ensemble dense) mais aussi avec un critère de qualité sur leurs pertinences (singularité des éléments retenus dans le bi-ensemble au regard de l’ensemble des données). L’extraction de ce nouveau type de motifs est, dans certains cas, plus difficile en pratique que celle de tous les concepts formels. L’applicabilité de l’algorithme complet dans des contextes variés nous paraı̂t donc peu vraisemblable. Pour autant, nous avons proposé une méthode très simple pour exploiter l’algorithme lors de l’extension de certains concepts déjà découverts. Cette direction de recherche nous parait très prometteuse dans l’optique d’une assistance à la découverte de connaissances dans des données réelles, que ce soit dans le cadre de la biologie moléculaire ou plus généralement pour le traitement de données transactionnelles bruitées, denses et/ou très corrélées (i.e., de nombreux domaines d’application où les données sont transactionnelles mais pas le classique contexte de l’analyse du “panier de la ménagère” pour lequel les données sont peu bruitées, peu denses et peu corrélées). Remerciements Ce travail est partiellement financé par l’ACI Masse de Données Bingo (ACI MD 46, CNRS STIC). Références A FRATI F. N., G IONIS A. & M ANNILA H. (2004). Approximating a collection of frequent sets. In Proceedings ACM SIGKDD’04, p. 12–19, Seattle, WA, USA : ACM. B ECQUET C., B LACHON S., J EUDY B., B OULICAUT J.-F. & G ANDRILLON O. (2002). Strong association rule mining for large gene expression data analysis : a case study on human SAGE data. Genome Biology, 12. See http ://genomebiology.com/2002/3/12/research/0067. B ESSON J., ROBARDET C. & B OULICAUT J.-F. (2004a). Constraint-based mining of formal concepts in transactional data. In Proceedings PaKDD’04, volume 3056 of LNAI, p. 615–624, Sydney, Australia : Springer-Verlag. B ESSON J., ROBARDET C. & B OULICAUT J.-F. (2005). Mining formal concepts with a bounded number of exceptions from transactional data, In Post-Workshop proceedings KDID’04, volume 3377 of LNCS, p. 33–45. Springer-Verlag. B ESSON J., ROBARDET C., B OULICAUT J.-F. & ROME S. (2004b). Constraint-based bi-set mining for biologically relevant pattern discovery in microarray data. Intelligent Data Analysis journal, 9(1). In Press. 327 CAp 2005 B OZDECH Z., L LIN ÁS M., P ULLIAM B. L., W ONG E., Z HU J. & D E R ISI J. (2003). The transcriptome of the intraerythrocytic developmental cycle of plasmodium falciparum. PLoS Biol, 1(e5). B UCILA C., G EHRKE J. E., K IFER D. & W HITE W. (2003). Dualminer : A dual-pruning algorithm for itemsets with constraints. Data Mining and Knowledge Discovery, 7(4), 241– 272. D HILLON I., M ALLELA S. & M ODHA D. (2003). Information-theoretic co-clustering. In Proceedings ACM SIGKDD 2003, p. 1–10 : ACM. F U H. & N GUIFO E. M. (2004). Etude et conception d’algorithmes de génération de concepts formels. In Extraction de motifs dans les bases de données, volume 9(3/4) of RSTI série ISI, p. 109–132. Hermès. G IONIS A., M ANNILA H. & S EPP ÄNEN J. K. (2004). Geometric and combinatorial tiles in 0-1 data. In Proceedings PKDD’04, volume 3202 of LNAI, p. 173–184, Pisa, Italy : Springer-Verlag. G OETHALS B. & Z AKI M. (2003). Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations FIMI 2003. Melbourne, USA : IEEE Computer Press. M EUGNIER E., B ESSON J., B OULICAUT J.-F., L EFAI E., D IF N., V IDAL H. & ROME S. (2005). Resolving transcriptional network from microarray data with constraint-based formal concept mining revealed new target genes of SREBP1. Submitted. PASQUIER N., BASTIDE Y., TAOUIL R. & L AKHAL L. (1999). Efficient mining of association rules using closed itemset lattices. Information Systems, 24(1), 25–46. P EI J., H AN J. & M AO R. (2000). CLOSET an efficient algorithm for mining frequent closed itemsets. In Proceedings ACM SIGMOD Workshop DMKD’00. P ENSA R. G., L ESCHI C., B ESSON J. & B OULICAUT J.-F. (2004). Assessment of discretization techniques for relevant pattern discovery from gene expression data. In Proceedings ACM BIOKDD’04 co-located with SIGKDD’04, p. 24–30, Seattle, USA. R IOULT F., B OULICAUT J.-F., C R ÉMILLEUX B. & B ESSON J. (2003). Using transposition for pattern discovery from microarray data. In Proceedings ACM SIGMOD Workshop DMKD’03, p. 73–79, San Diego, USA. ROBARDET C. (2002). Contribution à la classification non superviséee : proposition d’une méthode de bi-partitionnement. PhD thesis, University Claude Bernard - Lyon 1, F-69622 Villeurbanne cedex. S EPP ÄNEN J. K. & M ANNILA H. (2004). Dense itemsets. In Proceedings ACM SIGKDD’04, p. 683–688, Seattle, WA, USA : ACM. S TUMME G., TAOUIL R., BASTIDE Y., PASQUIER N. & L AKHAL L. (2002). Computing iceberg concept lattices with titanic. Data and Knowledge Engineering, 42, 189–222. V ENTOS V., S OLDANO H. & L AMADON T. (2004). Treillis de galois alpha. In Actes CAp 2004, p. 175–190, Montpellier, F. W ILLE R. (1982). Restructuring lattice theory : an approach based on hierarchies of concepts. In I. R IVAL , Ed., Ordered sets, p. 445–470. Reidel. YANG C., FAYYAD U. & B RADLEY P. S. (2001). Efficient discovery of error-tolerant frequent itemsets in high dimensions. In Proceedings ACM SIGKDD’01, p. 194–203, San Francisco, CA, USA : ACM Press. Z AKI M. J. & H SIAO C.-J. (2002). CHARM : An efficient algorithm for closed itemset mining. In Proceedings SIAM DM’02, Arlington, USA. 328 Discovering "Factual" and "Implicative" generic association rules Gh. Gasmi1 , S. Ben Yahia1,2 , E. Mephu Nguifo2 and Y. Slimani1 1 Départment des Sciences de l’Informatique Faculté des Sciences de Tunis Campus Universitaire, 1060 Tunis, Tunisie. {sadok.benyahia,yahya.slimani}@fst.rnu.tn 2 Centre de Recherche en Informatique de Lens-IUT de Lens Rue de l’Université SP 16, 62307 Lens Cedex mephu@cril.univ-artois.fr Abstract : Le nombre de plus en plus grandissant de rËgles associatives extraites– mÍme ‡ partir de contextes de taille raisonnable– a encouragÈ le dÈveloppement de mÈthodes et/ou techniques pour rÈduire la liste des rËgles associatives extraites. Dans ce contexte, la batterie de rÈsultats thÈoriques fournie par l’Analyse de Concepts Formels (AFC) a permis de dÈgager un "noyau irrÈductible" de rËgles associative, mieux connu sous le nom de base gÈnÈrique. A partir de cet ensemble condensÈ, de taille rÈduite, nous sommes en mesure d’infÈrer toutes les rËgles associatives valides par la biais d’un systËme axiomatique adÈquat. Dans ce papier, nous proposons une nouvelle base gÈnÈrique, convoyant une nouvelle caractÈrisation: RËgles "Factuelles" et RËgles "implicatives", sans nÈgliger l’interprÈtation sÈmantique de ce type de connaissance. Nous proposons ainsi un systËme axiomatique valide et complet, permettant d’infÈrer toutes les rËgles associatives valides. Les rÈsultats des expÈrimentations effectuÈes sur des contextes d’extraction rÈels ont montrÈ une importante rÈduction en terme de compacitÈ de la taille de l’ensemble des rËgles associatives extraites. Mots-clÈs: Base gÈnÈrique de rËgles associatives, Connaissance factuelle et implicative, Connexion de Galois, SystËme Axiomatique. 1 Introduction Extracting "condensed" patterns is grasping the interest of the Data Mining community. In fact, avoiding the extraction of an overwhelming knowledge is of primary importance as it guaranties extra value knowledge usefulness and reliability. In the association rule extraction topic, rule selection is mainly based on user-defined syntactic templates or on user-defined statistical interestingness metrics (Ohsaki et al., 2004). Lossless selection is mainly based on the determination of a generic subset of all association rules, called generic basis, from which the remaining (redundant) association rules are generated. 329 CAp 2005 Compared to the stampede algorithmic effort for extracting frequent (condensed) patterns, a few works only focused on extracting generic bases, from which only that defined by Bastide et al is considered as informative, i.e., support and confidence of inferred rules can be retrieved exactly. However, as a drawback, such generic basis may be over-sized specially for dense datasets. In this paper, we introduce a new generic basis of association rules called IGB. Through IGB, we introduce a novel characterization of generic association rules instead of the traditional one, i.e., exact and approximative. In fact, we distinguish the "factual" from the "implicative" generic association rule. Indeed, a factual generic association rule, fulfilling the premise part emptiness, allows to highlight item correlations without any conditionality. However, for an implicative generic association rule, where the premise part is not empty, item correlations are conditioned by the existence of those of premise items. The introduced IGB generic basis fulfills the "informativeness property", i.e., the support and the confidence of the derived association rules can be retrieved accurately. In order to derive valid association rules from the IGB basis, we introduce an axiomatic system, and show that it is valid and complete. We conducted several experiments on typical benchmarking datasets to assess the IGB compactness. Reported statistics highlighted that IGB is more compact than informative generic bases found in the literature. The introduced generic rule characterization permitted to explain the "atypical" behavior of the variation of the reported generic association rule set cardinality versus the variation of the minconf value, i.e., the number of the reported generic association rules does not necessarily decrease when the minconf value increases. The remainder of the paper is organized as follows: Section 2 sketches the basic mathematical foundations for the derivation of association rule generic bases. We devote section 3 to a review of the literature relating to the extraction of generic bases. Section 4 introduces a novel informative basis of generic association rules and the associated axiomatic system. Results of the experiments carried out on real-life databases are reported in section 5. The conclusion and future work are presented in section 6. 2 Mathematical background In the following, we briefly recall some key results from the Formal Concept Analysis (FCA) (Ganter & Wille, 1999) and its connection with generic association rules mining. Formal context: A formal context (extraction context) is a triplet K = (O, I, R), where O represents a finite set of objects (or attributes), I is a finite set of items and R is a binary (incidence) relation (i.e., R ⊆ O × I). Each couple (o, i) ∈ R expresses that the transaction o ∈ O contains the item i ∈ I. We define two functions, summarizing links between subsets of objects and subsets of attributes induced by R, that map sets of objects to sets of attributes and vice versa. Thus, for a set O ⊆ O, we define φ(O) = {i | ∀o, o ∈ O(o, i) ∈ R}; and for I ⊆ I, ψ(I) = {o | ∀i, i ∈ I(o, i) ∈ R}. Both functions φ and ψ form a Galois connection between the sets P(I) and P(O) (Barbut & Monjardet, 1970). Consequently, both compound operators of φ and ψ are closure operators, particularly ω = φ ◦ ψ is a 330 Factual and Implicative Generic Ass. Rules closure operator. Frequent closed itemset (FCI): An itemset I ⊆ I is said to be closed if I = ω(I), and is said to be frequent with respect to the minsup threshold if support(I)= |ψ(I)| |O| ≥ minsup (Pasquier et al., 1999). Formal Concept: A formal concept is a pair c = (O, I), where O is called extent, and I is a closed itemset, called intent. Furthermore, both O and I are related through the Galois connection, i.e., φ(O) = I and ψ(I) = O. Minimal generator: An itemset g ⊆ I is said to be minimal generator of a closed itemset I, if and only if ω(g) = I and there is no such g′ ⊂ g such that ω(g ′ ) = I (Bastide et al., 2000). Equivalence classes: The closure operator ω induces an equivalence relation on items power set, i.e., the power set of items is portioned into disjoint subsets (also called classes). In each distinct class, all elements are equal support value. The set of minimal generators is the smallest set of incomparable elements in this equivalence, while the closed itemset is the largest one. Galois lattice: Given a formal context K, the set of formal concepts CK is a complete lattice Lc = (CK , ≤), called the Galois (concept) lattice, when CK is considered with inclusion between closed itemsets (Ganter & Wille, 1999; Barbut & Monjardet, 1970). Such structure must verify these two properties: • A partial order on formal concepts is defined as follows ∀ c1 , c2 ∈ CK , c1 ≤ c2 iif intent(c2 ) ⊆ intent(c1 ), or equivalently extent(c1 ) ⊆ extent(c2 ). The partial order is used to generate the lattice graph, called Hasse diagram, in the following manner: there is an arc (c1 , c2 ), if c1  c2 where  is the transitive reduction of ≤, i.e., ∀c3 ∈ CK , c1 ≤ c3 ≤ c2 implies either c1 = c3 or c2 = c3 (Ganter & Wille, 1999). • All subsets of Lc have one greatest lower bound, the join operator, an one lowest upper bound, the meet operator. Iceberg Galois lattice: When only frequent closed itemsets are considered with set inclusion, the resulting structure (L̂, ⊆) only preserves the join operator. This is called a join semi-lattice or upper semi-lattice. In the remaining of the paper, such structure is referred to as "Iceberg Galois Lattice" (Stumme et al., 2002). Therefore, given an Iceberg Galois lattice in which each closed itemset is "decorated" with its associated list of minimal generators, generic bases of association rules can be derived in a straightforward manner. Indeed, generic approximative1 rules represent "inter-node" implications, assorted with the confidence measure, between two comparable equivalence relation classes2 , i.e., from a sub-closed-itemset to a super-closeditemset when starting from a given node in the partially ordered structure. For example, 1 2 the generic approximative association rule C⇒ABE is generated from the two equivalence relation classes topped respectively by the closed itemsets ’C’ and ’ABCE’. Whereas, generic exact3 association rules are "intra-node" implications, with a confi- 1 With confidence value less than 1. closure operator ω induces an equivalence relation on items power set. 3 With confidence value equal to 1. 2 The 331 CAp 2005 dence value equal to 1, extracted from each node in the partially ordered structure (e.g., from the closed itemset "ABCE", we obtain the following generic exact association rule: AB⇒CE). Example 1 Let us consider the formal context K given by Figure 1 (Left). Figure 1 (Right) sketches equivalence classes of the induced equivalence relation from the extraction context K. The associated Iceberg Galois lattice, for minsup = 25 , is depicted by Figure 1 (Bottom)4 . Each node in the Iceberg is represented as a couple (closed itemset, support) and is decorated with its associated minimal generator list. Figure 1 (Center) sketches equivalence classes of the induced equivalence relation from the extraction context K. AB A × 1 2 3 4 5 × × B × × × × C × × × D × AC AD AE BC BD BE CD CE DE E × × × × × A B C D E ∅ {AE}, {AB} (ABCE;2) {A} {BC} ,{CE} (AC;3) (BCE;3) {B}, {E} {C} (C;4) (BE;4) (∅;5) Figure 1: Left: Formal context K Right: Equivalence classes Bottom: Associated Iceberg Galois lattice for minsup = 52 . 3 Extraction of generic bases of association rules Association rule derivation is achieved from a set F of frequent itemsets in an extraction context K, for a minimal support minsup. An association rule R is a relation between 4 We use a separator-free form for sets, e.g., AB stands for {A, B}. 332 Factual and Implicative Generic Ass. Rules itemsets of the form R: X ⇒ (Y − X), in which X and Y are frequent itemsets, and X ⊂ Y . Itemsets X and (Y − X) are called, respectively, premise and conclusion of the rule R. The valid association rules are those whose strength metric, confidence(R)= support(Y ) support(X) , is greater than or equal to the minimal threshold of confidence minconf. If confidence(R)=1 then R is called exact association rule, otherwise it is called approximative association rule. The problem of relevance and usefulness of the association rules is highly important. This is due to the high number of association rules extracted from real-life databases and the presence of a high percentage of redundant rules conveying the same information. In the literature, we can witness the presence of techniques to prune such a set of rules, mainly based on statistical metrics. In what follows, we focus on the results issued from the FCA, to retrieve an information lossless reduced set of rules. Indeed, this reduced set, called basis, is composed of generic rules that have to fulfill the following requirements: • "Informativeness": The generic basis of association rules allows to retrieve exactly the support and confidence of the derived (redundant) association rules. • "Derivability": An inference mechanism should be provided (e.g., an axiomatic system). The axiomatic system has to be valid (i.e., should forbid derivation of non valid rules) and complete (i.e., should enable derivation of all valid rules). A critical review of the dedicated literature allowed mainly to split previous works into two pools: 1. Non informative generic bases: approaches described below are not informative, i.e., support and confidence of redundant rules can not be determined exactly. In (Kryszkiewicz, 1998; Kryszkiewicz, 2002), Kryszkiewicz introduced a new syntactic derivation operator, called the "Cover". Based on the Cover operator, the author defined a minimal basis of rules called "representative rules" (RR). RR basis was redefined in (Luong, 2001) under the name of "representative basis" (RB). However, the premise and the conclusion parts of the generic rules of RB are not necessarily disjoint. To derive redundant rules from RB, the author proposed a sound axiomatic system composed of Left augmentation and Decomposition Axioms. In (Zaki, 2004), Zaki defined a generic basis of association rules, called N RR. The N RR basis is composed of rules having minimal premise and conclusion parts. To generate all redundant association rules, the author uses Augmentation and Transitivity axioms. However, association rules inferred by the application of the augmentation axiom are not always valid. 2. Informative generic basis Bastide et al. (Bastide et al., 2000) characterized what they called "Generic basis for exact association rules" which is defined as follows: Definition 2 Let F CI be the set of frequent closed itemsets extracted from the context and, for each frequent closed itemset I, let us denote GI the set of minimal generators 333 CAp 2005 of I. GBE = {R : g ⇒ (I − g) | I ∈ F CI ∧ g ∈ GI ∧ g 6= I}. The authors also characterized what they called "Informative basis for approximative association rules" which is defined as follows: Definition 3 Let F CI be the set of frequent closed itemsets extracted from the context and let us denote G the set of minimal generators. c GBA = {R : g⇒ (Y-g), Y ∈ F CI ∧ g ∈ G ∧ ω (g) ⊂ Y ∧ c = confidence(R) ≥ minconf}. As pointed out in (Kryszkiewicz, 2002), by using the Cover operator as axiomatic system, the couple (GBE,GBA) forms a subset of association rules which is information lossless. A couple of valid and complete axiomatic systems for GBE and GBA, respectively, was given in (BenYahia & Nguifo, 2004b). 4 A new generic basis As we have seen, RR and N RR generic bases are unfortunately not information lossless. The couple (GBE, GBA) is information lossless. However, as a drawback, the couple (GBE, GBA) is oversized specially for dense datasets. Hence, our contribution consists in introducing a new approach to extract an informative generic basis of association rules, which is by far more compact than (GBE,GBA). Thus, we introduce the following definition of the new generic basis called IGB: Definition 4 Let F CI be the set of frequent closed itemsets and GI the set of minimal generators of a frequent closed itemset I. IGB = {R : gs ⇒ (I-gs ) | I ∈ F CI ∧ I6= ∅ ∧ gs ∈ GI ′ , I’ ∈ F CI ∧ I’ ⊆ I ∧ confidence(R) ≥ minconf ∧ ∄ g′ / g’ ⊂ gs ∧ confidence(g′ ⇒ I-g′ )≥ minconf }. Proposition 5 The IGB generic basis is informative, i.e., the support and the confidence of all derived rules can be retrieved exactly from IGB. Proof. Our approach consists in finding for each non empty frequent closed itemset I, the smallest minimal generator gs of a frequent closed itemset I’ subsumed by I and fulfilling the minconf constraint. Thus, generic association rules of IGB have the following form: gs ⇒I-gs . Therefore, we are able to reconstitute all frequent closed itemset by concatenation of the premise and the conclusion parts of a generic rule. Since the support of an itemset is equal to the support of the smallest closed itemset containing it, then the support and the confidence of all derived rules can be retrieved exactly. 334 Factual and Implicative Generic Ass. Rules 1 2 1 2 ( 25 ) C⇒ABE 3 ( 25 ) A⇒BCE 2 ( 52 ) B⇒ACE 2 ( 52 ) E⇒ABC 5 ( 53 ) ∅ ⇒BCE 5 ( 35 ) ∅ ⇒AC 1 4 3 3 4 5 ( 54 ) ∅ ⇒BE 5 ( 54 ) ∅ ⇒C E⇒B ( 54 ) B⇒E ( 45 ) 4 C⇒A ( 35 ) 4 B⇒CE ( 53 ) 4 C⇒BE ( 53 ) A⇒C ( 53 ) BC⇒E ( 35 ) 2 E⇒ABC ( 52 ) 2 C⇒ABE ( 25 ) 2 B⇒ACE ( 52 ) CE⇒B ( 53 ) AB⇒CE ( 25 ) 3 ( 52 ) A⇒BCE 3 3 1 2 3 1 1 2 3 ( 25 ) BC⇒AE 3 4 ( 53 ) E⇒BC 2 AE⇒BC ( 25 ) 3 CE⇒AB ( 52 ) Table 1: (Up) IGB generic basis. Bottom) (GBE, GBA) generic bases for minsup= 52 and minconf= 21 (the support value is indicated between brackets.) 4.1 IGB generic basis construction In what follows, we propose to present the IGB construction algorithm, whose pseudocode is depicted by Algorithm 1. IGB construction algorithm takes as input the set of all FCI, F CI, extracted by using one of the dedicated algorithms5, e.g., CLOSE, CHARM or CLOSET+ algorithms. Proposition 6 Let I be a non empty frequent closed itemset, if support(I)≥ minconf, then the generic association rule R: ∅ ⇒I ∈ IGB . Proof. Proposition 6 derives straightforwardly from Definition 4. Since confidence (R:∅ ⇒I)=support(I), then the generic rule ∅ ⇒I is valid. Hence, R presents the largest conclusion that can be drawn from the frequent closed itemset I, since there is no such another rule R’:X’⇒Y’ such that X’ ⊂ ∅ and I ⊆ Y’. The IGB construction algorithm (see Algorithm 1)is based on Proposition 6. So, it considers the set of frequent closed itemsets F CI. For each non empty closed itemset I, it checks whether its support is greater than or equal to minconf. If it is the case, then we generate the generic rule R:∅ ⇒I. Otherwise, it has to look for the smallest minimal generator gs , associated to a frequent closed itemset subsumed by I, and then generates the generic rule R:gs ⇒I-gs if the minconf threshold is reached. Example 7 Let us consider the extraction context given by Figure 1 (Left). Table 1 (Up) shows the IGB basis extracted from the formal context K for minsup = 25 and minconf = 12 . Whereas Table 1(Bottom) shows the couple (GBE ,GBA) for the same minsup and minconf settings. 5A critical survey of these algorithms can be found in (BenYahia & Nguifo, 2004a) 335 CAp 2005 Algorithm 1: IGB construction Input: F CI: set of frequent closed itemsets and their associated minimal generators; minconf Output: IGB: Informative generic basis begin foreach non empty frequent closed itemset I ∈ F CI do if (support(I) ≥ minconf) then R= ∅ ⇒ I R.support=support(I) R.confidence=support(I) IGB=IGB ∪ R else Lsmallest−gen ={} support(I) foreach I ′ ⊆I in increasing order of size | support(I ′ ) ≥ minconf do foreach g∈ GI ′ and g6= I do if ∄ gs ∈ Lsmallest−gen | gs ⊂ g then Lsmallest−gen =Lsmallest−gen ∪ g foreach gs ∈ Lsmallest−gen do R= gs ⇒I-gs R.support=support(I) support(I) R.confidence= support(g s) IGB=IGB ∪ R return(IGB) end 4.2 Generic association rule semantics In the following, we have to discuss about the semantic attached to an association rule c R:X⇒(Y-X). Usually, R expresses that the probability of finding Y with a value c depends on the presence of X. Thus, X constitutes a constraint for Y item correlations. In the IGB basis, we can find generic association rules whose premise part can be empty. Such rules were considered in (Kryszkiewicz, 2002; Luong, 2001), but no attention was paid to a semantic interpretation attached to this type of knowledge. Let us consider the extraction context given by Figure 1 (Left). For minconf = 52 and applying Bastide et al.’s approach, we obtain among the possibly extracted generic association rules, C ⇒ ABE, E ⇒ ABC, B ⇒ ACE, A ⇒ BCE. However, does the probability of finding A, B, C and E together depend on the presence of A, B, C or E? Actually, the probability of finding A, B, C and E with a value greater than or equal to minconf = 52 does not depend on any condition. Thus, we propose to represent such type of knowledge by only one generic association rule, i.e., R: ∅ ⇒ ABCE. The generic basis IGB contains then two types of rules:(i) "Implicative rules" represented by generic association rules whose premise part is not empty. (ii) "Factual rules" represented by 336 Factual and Implicative Generic Ass. Rules generic association rules whose premise part is empty. 4.3 Redundant association rule derivation In order to derive the set of all valid redundant association rules, we propose in what follows an axiomatic system and we prove that it is valid (i.e., should forbid derivation of non valid rules) and that it is complete (i.e., should enable derivation of all the valid rules). Proposition 8 Let us consider the generic basis denoted by IGB and the set of all valid association rules extracted from K, denoted by AR. The following axiomatic system is valid. c c A0. Conditional reflexivity: If X ⇒ Y ∈ IGB ∧ X 6= ∅ then X⇒Y ∈ AR c′ c A1. Augmentation If X⇒Y ∈ IGB then X ∪ Z⇒Y-{Z} ∈ AR ,Z ⊂Y. c c A2. Decomposition: If X⇒Y ∈ AR then X ⇒Z ∈ AR, Z ⊂ Y ∧ ω(XZ) = XY. Proof. A0. Conditional reflexivity: follows from the proper definition of the IGB. c c A1. Augmentation Since R: X⇒Y ∈ IGB then confidence(R: X⇒Y)=c and supc ) port(R: X⇒Y) ≥ minsup. support(XY support(X) = c ≥ minconf. Since X ⊂ XZ, then support(X)≥ support(XZ) and minconf ≤ support(XY ) support(X) ≤ support(XY ) support(XZ) . Thus, c′ R’: X ∪ Z⇒Y-{Z} is a valid association rule having a confidence value equal to ) c’= support(XY support(XZ) and a support value equal to that of R. c c A2. Decomposition: Since, R: X⇒Y ∈ AR then confidence(R: X⇒Y) = c ≥ minc ) conf, and support(R: X⇒Y) = support(XY) ≥ minsup. c= support(XY support(X) then support(XY)=c × support(X). Also, we have ω(XZ) = XY, then support(XZ) = c support(XY) consequently, support(XZ) = c × support(X). Thus, R’: X⇒Z is a valid association rule having support and confidence values equal to that of R . Support and confidence values of the derived (redundant) rules are greater than or equal to those of the associated generic association rule. Thus, the proposed axiomatic system is valid Remark 9 The conditional reflexivity is used by compliance with the constraint of non emptiness of the premise, in respect to an implicit "habit" stipulating that the premise part of an association rule is usually non empty. Proposition 10 The proposed axiomatic system is complete: the set of all association rules extracted from K are derivable from IGB by using the proposed axiomatic system. 337 CAp 2005 Proof. Let IGB be the generic basis extracted from the extraction context K for a given minsup and minconf. AR denotes the set of all association rules extracted from K and F CI the set of frequent closed itemsets. Let R:X⇒Y-X ∈ AR. In the following, we have to show that R can be derived from a generic association rule of IGB by the application of the proposed axiomatic system. • If Y ∈ F CI then two cases are possible: 1. there is no such a rule R’:X’⇒Y-X’ ∈ AR such that X’⊂X, then – if support(R)< minconf, then R:X⇒Y-X ∈ IGB. R:X⇒Y-X ∈ AR by application of the conditional reflexivity axiom. – Else there is such a rule R":∅⇒Y∈ IGB. By application of the augmentation axiom to R", we obtain the rule R:X⇒(Y-X). 2. There is such a rule R":X"⇒Y-X"∈ IGB such that X"⊂X’ ∧ X"⊂X. By application of the augmentation axiom to R":X"⇒Y-X", we obtain R:X⇒YX. • Otherwise, there is such a rule R’:X⇒Y’-X∈ AR such that Y’∈ F CI ∧ Y’ = ω(Y ). Then, it exists a rule R":X"⇒Y’-X"∈ IGB such that X"⊆X. We apply firstly, the augmentation axiom to R":X"⇒Y’-X"(if X"⊂X) in order to obtain R’:X⇒Y’-X. Next, we apply the decomposition axiom to R’ to find R:X⇒Y-X. 5 Experimental results We carried out experimentations on benchmarking datasets, whose characteristics are summarized in Table 2, in order to evaluate the number of generic association rules. We implemented both algorithms in the C language under Linux Fedora Core 2. Physical characteristics of the machine are: a PC pentium 4 with a CPU clock rate of 3.06 Ghz and a main memory of 512 Mo. Table 3 reports the number of FCI extracted from the considered datasets. The number of reported generic association rules of IGB and the couple (GBE, GBA), for different values of minconf, are also given. We denote by FR the cardinality set of factual generic association rules and by IR the cardinality set of implicative generic association rules. To assess the compactness of the considered generic bases, the column labelled by AR reports the number of all valid association rules extracted by the Apriori algorithm (Agrawal et al., 1996). In the following, we focus on the variation of the reported generic rule number of the different generic bases versus the minconf value variation. Experimental results only stress on comparing IGB compactness versus that of the only informative generic basis pointed out by the state of the art review, i.e., the couple (GBE,GBA). For the IGB, when minconf =minsup, IGB contains only factual generic association rules. The number of factual generic association rules is equal to the number of FCI (c.f., the third column of Table 3). This can be explained by the fact that all FCI supports are equal to or greater than minconf. As long as minconf value is increasing, the number 338 Factual and Implicative Generic Ass. Rules Base T10I4D100K Mushrooms Connect Chess |Transaction| 100000 8124 67557 3196 Type Sparse Dense Dense Dense |items| 1000 120 130 76 Table 2: Characteristics of datasets. minsup #FCI T10I4D100K 0.5% 1074 Mushrooms 30% 427 Connect 95% 809 Chess 87% 1194 Dataset minconf AR 0.5% 1% 10% 50% 100% 30% 50% 70% 90% 100% 95% 96% 97% 98% 99% 100% 87% 89% 91% 93% 95% 97% 100% 2216 2216 2172 1145 0 94894 79437 58010 24408 8450 77816 73869 60101 41138 19967 2260 42740 40451 36098 29866 20312 10830 418 IGB (IR,FR) (0, 1074) (1210, 385) (1188, 0) (606, 0) (0, 0) (0, 427) (922, 45) (954, 12) (794, 5) (557, 1) (0, 809) (2092, 48) (2154, 284) (2463, 135) (2256, 28) (682, 0) (0, 1194) (1734, 689) (2293, 362) (2573, 193) (2681, 73) (1257, 29) (342, 0) (GBE ,GBA) (0, 2216) (0, 2216) (0, 2172) (0, 1145) (0, 0) (557, 7066) (557, 5204) (557, 3963) (557, 1602) (557, 0) (682, 24654) (682, 23098) (682, 17788) (682, 11035) (682, 4568) (682, 0) (342, 31196) (342, 29362) (342, 25805) (342, 21008) (342, 14031) (342, 7353) (342, 0) Table 3: Variation of generic association rules number vs minconf value variation (dense datasets are indicated in bold). 339 CAp 2005 Dataset T10I4D100K Mushrooms Connect Chess minconf 0.5% 1% 10% 50% 100% 30% 50% 70% 90% 100% 95% 96% 97% 98% 99% 100% 87% 89% 91% 93% 95% 97% 100% IGB (GBE,GBA) IGB AR (GBE,GBA) AR 0.48 0.71 0.54 0.52 1 0.05 0.16 0.21 0.37 1 0.03 0.1 0.13 0.22 0.43 1 0.03 0.08 0.1 0.12 0.19 0.16 1 0.48 0.71 0.54 0.52 1 0.004 0.01 0.01 0.03 0.66 0.01 0.03 0.04 0.06 0.11 0.3 0.02 0.05 0.07 0.09 0.13 0.11 0.81 1 1 1 1 1 0.08 0.07 0.07 0.08 0.66 0.32 0.32 0.3 0.28 0.26 0.3 0.73 0.73 0.72 0.71 0.7 0.71 0.81 Table 4: Comparison of generic basis compactness. 340 Factual and Implicative Generic Ass. Rules of factual generic rules decreases until reaching 0 when minconf =1 (c.f., Figure 2). Indeed, by varying minconf, each factual generic rule is substituted by a certain number of implicative generic rules. Thus, the higher this cardinality is, the more the number of IGB generic association rules increases. A singularity for the M USHROOM dataset is noteworthy. In fact, the number of factual generic rules is equal to 1 even for minconf =1 (usually, it is equal to 0). This can be explained by the fact that the item coded by ’85’ appears in all dataset transactions. Thus, for any value of minconf, the factual generic rule ∅ →85 is always valid. For the (GBE,GBA) generic bases, we note that the number of GBE rules is insensitive to the variation of minconf value. However, the more minconf increases, the more the number of GBA rules decreases. Indeed, by increasing minconf, the number of minimal generators satisfying the minconf constraint decreases. In what follows, we discuss the compactness degree of the considered generic bases. From the reported statistics in Table 4, we note that the gap between IGB and the set of all valid rules extracted using the A PRIORI algorithm is more important for dense datasets. Indeed, the compactness degree of IGB ranges from 0.4% to 80%. However, for sparse datasets, the compactness degree is limited to a value varying between 48% and 100%. For sparse datasets, (GBE, GBA) contains as many generic rules as the set of all valid rules (e.g., the two associated curves are merging for the T10I4D100K dataset). This can be explained by the fact that for sparse datasets, the set of frequent itemsets is equal to the set of FCI and to the set of minimal generators. However, for dense datasets, the compactness degree of (GBE, GBA) varies between 8% and 80%. Mushroom Association rules number Association rules number T10I4D100K 2500 IGB (GBE, GBA) AR 2000 1500 1000 500 0 100000 90000 80000 70000 60000 50000 40000 30000 20000 10000 0 IGB (GBE, GBA) AR 30 0 10 20 30 40 50 60 70 80 90 100 Minconf(%) 40 50 Association rules number Association rules number IGB (GBE, GBA) AR 70000 50000 40000 30000 20000 10000 0 95 96 98 97 Minconf(%) 90 100 98 100 Chess Connect 80000 60000 60 70 80 Minconf(%) 99 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 IGB (GBE, GBA) AR 86 100 88 90 92 94 96 Minconf(%) Figure 2: Generic association rule set cardinality variation versus minconf variation. 341 CAp 2005 6 Conclusion In this paper, we introduced an approach for the extraction, of an informative generic basis which is more compact than (GBE, GBA). We also provided a valid and complete axiomatic system, allowing to infer the set of all valid rules. We distinguished two types of generic rules; "factual" from "implicative" ones. We also implemented algorithms of IGB and (GBE, GBA) construction. Experimental results carried out on benchmarking datasets showed important profits in terms of compactness of the introduced generic basis. Of interest to mention that IGB extraction algorithm performances outperform those of (GBE, GBA) extraction algorithm. In the near future, we plan to examine the potential benefits from integrating IGB basis in a query expansion system. In this context, we have to focus on assessing the tradeoff between generic basis compactness and complexity of the associated axiomatic system, in case of association rule derivation. Also, we have to tackle the "pitfall" of representing factual rules in a generic basis visualization environment. References AGRAWAL R., M ANNILA H., S RIKANT R., T OIVONEN H. & V ERKAMO A. I. (1996). Advances in Knowledge discovery and Data Mining, chapter Fast discovery of association rules, p. 307–328. AAAI/MIT Press. BARBUT M. & M ONJARDET B. (1970). Ordre et classification. Algèbre et Combinatoire. Hachette, Tome II. BASTIDE Y., PASQUIER N., TAOUIL R., L AKHAL L. & S TUMME G. (2000). Mining minimal non-redundant association rules using frequent closed itemsets. In Proceedings of the Intl. Conference DOOD’2000, LNCS, Springer-verlag, p. 972–986. B EN YAHIA S. & N GUIFO E. M. (2004a). Approches d’extraction de règles d’association basées sur la correspondance de galois. Ingénierie des Systèmes d’Information (ISI), HermèsLavoisier, 3–4(9), 23–55. B EN YAHIA S. & N GUIFO E. M. (2004b). Revisiting generic bases of association rules. In Proceedings of 6th International Conference on Data Warehousing and Knowledge Discovery (DaWaK 2004),LNCS 3181, Springer-Verlag, Zaragoza, Spain, p. 58–67. G ANTER B. & W ILLE R. (1999). Formal Concept Analysis. Springer-Verlag. K RYSZKIEWICZ M. (1998). Representative association rules. In Research and Development in Knowledge Discovery and Data Mining. Proc. of Second Pacific-Asia Conference (PAKDD). Melbourne, Australia, p. 198ñ209. K RYSZKIEWICZ M. (2002). Concise representations of association rules. In D. J. H AND , N. A DAMS & R. B OLTON, Eds., Proceedings of Pattern Detection and Discovery, ESF Exploratory Workshop, London, UK, volume 2447 of Lecture Notes in Computer Science, p. 92– 109: Springer. L UONG V. P. (2001). Raisonnement sur les règles d’association. In Proceedings 17ème Journées Bases de Données Avancées BDA’2001, Agadir (Maroc), Cépaduès Edition, p. 299– 310. O HSAKI M., K ITAGUCHI S., O KAMOTO K., YOKOI H. & YAMAGUCHI T. (2004). Evaluation of rule interestingness measures with a clinical dataset on hepatitis. In S PRINGER -V ERLAG, Ed., Proceedings of the Intl. Conference Actes PKDD, Pisa (Italy), p. 362–373. 342 Factual and Implicative Generic Ass. Rules PASQUIER N., BASTIDE Y., TAOUIL R. & L AKHAL L. (1999). Efficient Mining of Association Rules Using Closed Itemset Lattices. Information Systems Journal, 24(1), 25–46. S TUMME G., TAOUIL R., BASTIDE Y., PASQUIER N. & L AKHAL L. (2002). Computing iceberg concept lattices with T ITANIC. J. on Knowledge and Data Engineering (KDE), 2(42), 189–222. Z AKI M. (2004). Mining Non-Redundant Association Rules. Data Mining and Knowledge Discovery, (9), 223–248. 343 344 Average Number of Frequent and Closed Patterns in Random Databases Loïck L HOTE, François R IOULT, Arnaud S OULET GREYC, CNRS - UMR 6072, Université de Caen F-14032 Caen cedex France {prenom.nom}@info.unicaen.fr Résumé : Frequent and closed patterns are at the core of numerous Knowledge Discovery processes. Their mining is known to be difficult, because of the huge size of the search space, exponentially growing with the number of attributes. Unfortunately, most studies about pattern mining do not address the difficulty of the task, and provide their own algorithm. In this paper, we propose some new results about the average number of frequent patterns, by using probabilistic techniques and we extend these results to the number of closed patterns. In a first step, the probabilistic model is simple and far from the real life since the attributes and the objects are considered independent. Nevertheless according to this model, frequency threshold phenomena observed in practice are explained. We also prove that, for a fixed threshold, the number of frequent patterns is asymptotically exponential in the number of attributes and polynomial in the number of objects whereas, for a frequency threshold proportional to the number of objects, the number of frequent and closed patterns is asymptotically polynomial in the number of attributes without depending on the number of objects. Mots-clés : data mining, average analysis, frequent and closed patterns 1 Introduction In Knowledge Discovery in Databases, the goal is to find information in databases which describe the objects under study with their attributes. More precisely, we are trying to find interesting conjunctions of attributes, called patterns. These patterns are more or less present in the database, and are qualified by their frequency : it is the number of objects containing the pattern. When this quantity rises above a user-defined threshold, the pattern is said frequent. Among others, frequent patterns are at the core of many data mining processes. They give a first piece of information, telling that some conjunctions of attributes are significantly present in the data. They are very useful, e.g. for the association rules discovery, which can ground classification methods. Frequent pattern mining has been well studied, because it is the first stage leading to association rules. Finding these patterns is algorithmically hard, while it is easy to derive association rules from them. In fact, the 345 CAp 2005 search space is exponentially large with the number of attributes, and becomes rapidly intractable. In this article, we are also interested in closed patterns. A closed pattern is the maximal pattern (w.r.t. the inclusion) of the set of patterns having the same frequency and sharing the same attributes. When they are associated with the corresponding pattern of objects containing the pattern of attributes and being also closed, both constitute a concept. Conceptual learning is a hot topic (Wille, 1992), and closed patterns is an easy way to non redundant association rules (Zaki, 2000). Their mining has then been widely examined (Kuznetsov & Obiedkov, 2002; Fu & Mephu Nguifo, 2004). Unfortunately, most studies about pattern mining provide their own solution for solving the mining problem, and sometimes give the complexity of their algorithm, but the theoretical aspects of the difficulty of mining is rarely addressed. The exponential size of the search space is always recalled but only gives an upper bound on the number of frequent patterns, furthermore in the worst case. In this article, we propose new results about the average number of frequent patterns, by using probabilistic techniques. We also give the average number of concepts (or closed patterns, see Section 2) for a frequency threshold proportional to the number of objects. We will see that these results confirm the intuition about the difficulty of the task, by showing that the number of patterns is exponentially large with the number of attributes, and polynomial with the number of objects. Besides, if the frequency threshold is a proportion of the number of objects (10% for example), the average number of frequent patterns is polynomial with the number of attributes, without depending on the number of objects. The organization of this paper is as follows : we present in Section 2 some definitions and properties about pattern mining in databases, and give the main results of our work in Section 3. We change the model by adding more constraints in Section 4 and end the presentation with some open problems (Section 5). Section 6 is a short conclusion and Appendix A and B gather the proofs of the theorems. 2 Preliminaries 2.1 Notations A database contains the objects under study, which are described by their attributes. It is usually a boolean matrix, where objects are drawn on the rows, and the binary attributes are the columns. We will not discuss here about the methods for obtaining such a boolean matrix, starting from continuous or multi-valued attributes (see (Srikant & Agrawal, 1996) for an example). In this article, we will have to distinguish two frameworks : 1. the transactional (consumer bag) framework is the most classical : objects are called transactions and represent a list of purchase. Every bought product is an attribute, and is often called item. It is absent or present in the transaction ; 2. the attribute/value framework is related to the database domain : every continuous attribute is discretized and transformed into several new boolean attributes. 346 We will yet use the same notation for both frameworks considering that, at the end, we only use boolean attributes. We will come back again to the differences between both frameworks when specifying the probabilistic model (see Section 3.2). The set of attributes is denoted A = {1..m} and the set of objects is O = {1..n}. A pattern is a subset of A, and the collection of patterns is denoted by 2A . A database is a subset of A × O and can be represented by a n × m matrix (χi,j )i=1..n,j=1..m . We can also consider that a database is a set of transactions ; then we will write that a pattern A is supported by a transaction T if A ⊂ T . The support of A is the set of all transactions containing A, and the frequency of A is the size of its support. A is said to be γ-frequent if its frequency is over a user-defined threshold γ : Definition 1 (frequent pattern) Let B = (χi,j )i=1..n,j=1..m be a binary database with m items and n transactions and γ a strictly positive integer. A γ -frequent A is a pattern such that |support(A)| ≥ γ . During the demonstrations, we will use a matrix vision of the support : for all j in A and i in support(A), χi,j = 1, and for all i in O\support(A), there exists j in A such that χi,j = 0. We now give, in this framework, the definition of a γ-closed pattern : Definition 2 (frequent closed pattern) Let B = (χi,j )i=1..n,j=1..m be a binary database with m items and n transactions and γ a strictly positive integer. A pattern A is γ -closed if : – A is γ -frequent pattern, – for all j in A\A, there exists i in support(A) such that χi,j = 0. 2.2 Pattern mining The first and most popular algorithm for mining frequent patterns is A - PRIORI (Agrawal & Srikant, 1994). The key idea is to use the anti-monotonous property of the frequency constraint, which entails that every subset of a frequent pattern is frequent as well, or reciprocally that a superset of an infrequent pattern is infrequent. Starting from frequent items, candidate patterns with two items are built and their frequency is checked in the database. When a candidate is not enough present, its supersets are pruned and will not ground any further candidate. New candidates are produced by joining two frequent patterns having the same prefix, and again checked in the database, etc. With this method, patterns are mined with a level-wise strategy, computing them by increasing size. A - PRIORI requires only one database scan to check all candidates at each level : there will be as much database scans as the size of the largest frequent pattern. If we consider that the bottleneck of such a method lies in database accesses, the complexity of A - PRIORI regarding this criteria is good. The concept of positive and negative border is very useful, in order to more precisely analyze the complexity. The positive border gathers the maximum frequent patterns, with respect to the inclusion order. The negative border offers a dual vision : it brings together the minimum infrequent patterns. Gunopulos et al. have shown that mining 347 CAp 2005 the frequent patterns requires as many database accesses as there are elements in both borders (Gunopulos et al., 1997a). Since twenty years, closed pattern mining is well studied, but the known methods provide all closed patterns, while we are, in the context of data mining, only interested in the most frequent. Recent works combine both approaches, and the closed patterns can also be mined in a level-wise manner, by using the free (Calders & Goethals, 2003) or key patterns (Pasquier et al., 1999), because they are the generators of the closed patterns. 2.3 Related work We recall in this section some results about the complexity of frequent pattern mining. As we will see, we are aware about the difficulty of the mining task : Gunopulos et al. have shown that deciding whether there exists a frequent pattern with t attributes is NP-complete (Gunopulos et al., 1997b; Purdom et al., 2004). The associate counting problem is #P-hard. But we are not really aware about the number of frequent patterns. In fact, as far as we know, there does not exist such results in the literature. The reason is that the search space is well known to be exponentially large with the number of attributes, and the worst case (e.g. a database where χi,j = 1 for all i and j, see Figure 1-a) gives 2m − 1 frequent patterns (with the minimum frequency threshold γ = 1). In the middle matrix where χi,i = 0 (see Figure 1-b), there are 2m − 2 closed patterns (with γ = 1). Finally, in the matrix of the Figure 1-c (Boros et al., 2002), there are k maximal frequent patterns (k is such that n = kγ), 2k − 2 closed patterns, and more than 2k(l−1) frequent patterns (l is such that m = kl). Of course, it is a pathological example, but we have here a situation where the number of closed patterns is exponentially larger than the number of maximal patterns, and the number of frequent patterns is again exponentially larger than the number of closed patterns. m m l γ n (a) (b) (c) F IG . 1 – Three worst cases for pattern mining (when it is filled, it means that there are 1 in the matrix, otherwise there are 0). Average analysis considerations might then provide interesting results. We found one such study (Purdom et al., 2004), but it is related to the failure rate of A - PRIORI. It is useful for predicting the number of candidates that the algorithm will have to check. 348 This work confirms the results of (Geerts et al., 2001), who used an upper bound. On other hand, in the seminal paper (Agrawal et al., 1996), the authors of the A - PRIORI algorithm have explained that there are very few long patterns in a random database, and we will reuse the same probabilistic model. We end this section with quoting (Dexters & Calders, 2004), which gives bounds on the size of the set of k-free patterns (Calders & Goethals, 2003). The authors provide a link between the number of free patterns and the maximum length of such a pattern. Even if this work is hard to relate to ours, we will have to investigate it further. 3 Results with the transactional framework 3.1 Hypothesis In the following, we are interested in computing the average number of frequent and closed patterns, with respect to a certain minimum frequency threshold γ. All the provided results are asymptotic (i.e. for n and m large) so that the way the frequency threshold is growing with n is important. In practice, two cases are generally distinguished : Hypothesis 1 (fixed case) γ is fixed and small when compared to the number n of objects. For example, γ can be fixed to ten transactions, when there are 100 000 transactions in the database. Hypothesis 2 (proportional case) γ is a ratio of n. In this case, we will say that there exists r ∈]0, 1[ such that γ = rn. Since we do not have infinite databases, the percentage r must not be too small in practice. Nevertheless in our theoretical framework, r can be taken as small as we want but the speed of convergence of our asymptotics decelerates. The distinction between both hypothesis will be useful during the proof of our results : if γ is fixed and small, some approximation can be performed which could not be made if it is a percentage of n. When γ is a ratio of n, some threshold phenomena appears in an integral, which can be exploited by a Laplace’s method. Figure 2 shows the difference between a fixed γ and a variable one. The whole set of (closed) patterns is a lattice where all the patterns with the same cardinality are present on the same horizontal line. Besides, the most general patterns which have the lowest cardinality, are in the top of the lattice. Thus, the lattice may be represented by a rhombus and frequent (closed) patterns correspond to the grey superior part. This figure emphasizes the fact that a variable γ cuts the lattice with preserving the same proportion between both parts. With a fixed γ, this proportion is no longer preserved. We also have to safely define the ratio between the number of objects and the number of attributes. We therefore require from n and m that they are polynomially linked, i.e. there exists a constant c such that log m ∼ c log n. Let us note that this assumption is only useful for the asymptotic provided in the Theorem 1. 349 CAp 2005 γ γ=rn F IG . 2 – Difference between a fixed γ and a variable one (the empty set is at the top of the lattice, and the complete set of attributes is at the bottom. In the case where γ is fixed, the white parts of the lattices, which gather the infrequent patterns, seem to have an equal size, but it is false in practice) 3.2 Probabilistic model We assume in this section that we are in the transactional framework. The probabilistic model we now describe is very simple. Since we can not appreciate in advance the correlations existing in real databases,we will suppose that : The database (χi,j )i=1..n,j=1..m forms an independent family of random variables which follows the same Bernoulli law of parameter p in ]0, 1[. Figure 3 provides an example of such a transactional database on the left chart : there is no constraint w.r.t. the columns on the number of 1 in each line. This model is far from the reality. Indeed, an equivalent in Information Theory is to modelize the French language with a memoryless source that respects the probability of each letter. The result is not very good but theoretical analysis can be yet lead. In the Section 4, this model is improved in order to handle items coming from continuous or multi-valued attributes. Nevertheless, we will again suppose that the objects are independent. 3.3 Results This probabilistic model leads to a simple analysis of the average number of γ-closed and γ-frequent patterns. The next theorem sums up our first result for a fixed frequency threshold. Theorem 1 If the positive integer γ is fixed (hypothesis 1, Section 3.1) and if there exist a constant c such that log m ∼ c log n, then for large n and m, the average number of γ -frequent 350 t ... ... m n ... ... n ... ... ... ... m F IG . 3 – Transactional and attribute modelizations of databases (a grey square corresponding to a 1 in the matrix) patterns Fm,n,γ satisfies Fm,n,γ ∼   n (1 + pγ )m γ This theorem states that the average number of γ-frequent patterns is asymptotically exponential in the number of attributes and polynomial in the number of objects. This is not really surprising, because we already had this intuition when we studied the search space (which is exponentially large with the number of attributes). Remark nonetheless that the average behavior is far from the worst case, which is 2m . In addition, the denser the matrix is, the more frequent patterns there are : this is natural. Let us notice that the corresponding proof (see Appendix A) provides the exact asymptotic :    m    1 + pγ+1 n γ m (1 + p ) 1 + O n Fm,n,γ = 1 + pγ γ The following theorem gives a link between the average number of γ-closed patterns and the number of γ-frequent patterns : Theorem 2 If γ satisfies γ > ⌊(1 + ǫ) log m/| log p|⌋ for an ǫ strictly positive, then the average number of γ -frequent patterns and the average number of γ -closed patterns Cm,n,γ are equivalent, Cm,n,γ ∼ Fm,n,γ . We now detail the result of this theorem with the help of the database T10I4D100K, which has n = 100000 objects, m = 1000 attributes, and its density is p = 0.01. This dataset is generated by Srikant’s synthetic data generator (Agrawal & Srikant, 1994), 351 CAp 2005 and is available on the FIMI website1 . We used this dataset to illustrate our aim since it has a large number of objects and attributes. The threshold ⌊log m/| log p|⌋ for γ involved in the theorem 2 is in practice very low w.r.t. the number of objects. For instance, the theorem applies on T10I4D100K when γ > 1.5. We mined the frequent and the closed patterns in this dataset with Uno’s implementations for the FIMI (Uno & Satoh, 2003) and plotted on the Figure 4 the number of patterns, w.r.t. the threshold γ. When γ is greater than 20, we can see that the number of frequent patterns and the number of closed pattern are almost the same. average number 1e+10 frequent patterns closed patterns 1e+09 1e+08 1e+07 1e+06 100000 10000 1000 100 10 1 1 10 100 1000 10000 minimum support threshold F IG . 4 – Average number of frequent/closed patterns on T10I4D100K It is hard to give an intuition of this surprising result, because it is justified by an approximation which can be realized on the asymptotic (see demonstration on Appendix A). This phenomena can be explained by the poorness of our probabilistic model, which does not handle correlations. Closed patterns are normally useful, because they can summarize correlations. In the conditions of the theorem, almost all the frequent patterns are also closed and A - PRIORI has a better behavior than those algorithms based on the closed patterns. Now, we consider the average number of patterns with the second hypothesis : Theorem 3 If γ satisfies γ = ⌊rn⌋ with r ∈]0, 1[ (hypothesis 2, Section 3.1), then the average number of γ -closed patterns and γ -frequent patterns satisfies for large m and n     log r m , where j0 = Cm,n,γ ∼ Fm,n,γ ∼ . log p j0 In other words, j0 is such that pj0 +1 < r < pj0 . 1 Frequent Itemset Mining Implementations is a workshop of the IEEE International Conference on Data Mining (ICDM) http ://fimi.cs.helsinki.fi/ 352 This theorem is very important, because it states that the average number of frequent patterns (and closed patterns) is polynomial with the number m of attributes for a frequency threshold proportional to the number of objects. This is again surprising, because the search space is theoretically exponentially growing with m. Besides, this average number of frequent patterns does not depend on the number n of objects. In the future, we will reuse this result to justify applications of sampling techniques. 4 Results with the attribute/value framework The preceding results show that our model can be improved. We now try to handle correlations in the data. In practice, items often come from continuous attributes, that are split. For instance, the attribute size of the patient can be split into three items small, medium, tall. The previous modelization allowed a patient to be small and tall at the same time, while it is impossible. The new modelization considers these kinds of correlations. Nevertheless, we restrict ourselves to the case where all multi-valued or continuous attributes lead to the same number of boolean attributes t > 1. On the right chart, Figure 3 proposes an example of dataset where t = 3 : there can be only one 1 in each triple of columns. Since all the original attributes have the same size t, there exists one positive integer m1 such that the number m of boolean attributes satisfies m = m1 t. The new probabilistic model is based on the following hypothesis : The database (∆i,j = (χi,tj+1 , χi,tj+2 , . . . , χi,tj+t ))i=1..n,j=0..m1 −1 forms an independent family of random variables with the same uniform law on the set composed with the sequences of size t with only one one and (t−1) zeros (the density of the matrix is 1t ). Once more, this model is far from the reality but its equivalent one in Information Theory would be to modelize the French language by a memoryless source that emits trigrams (if t = 3) according to their probability. The result is then better than our first modelization. Using this model, our results are similar to the previous section. The proofs are also similar (see Appendix B). Theorem 4 If the positive integer γ is fixed, then the average number of γ -frequent patterns Fm,n,γ satisfies for large m and n   m1     γ−1 !m1  1 + (1/t)γ n 1 1+O n Fm,n,γ = 1+ t 1 + (1/t)γ−1 γ Theorem 5 If γ satisfies γ > ⌊(1 + ǫ) log m1 / log t⌋ for an ǫ strictly positive, then the average number of γ -frequent patterns and the average number of γ -closed patterns Cm,n,γ are 353 CAp 2005 equivalent, Cm,n,γ ∼ Fm,n,γ . Theorem 6 If γ satisfies γ = ⌊rn⌋ with r ∈]0, 1[ which is not a power of p, then the average number of γ -closed patterns and γ -frequent patterns satisfies     m1 j0 − log r t , where j0 = Cm,n,γ ∼ Fm,n,γ ∼ . j0 log t Theorems 4, 5 and 6 show that the behavior of the asymptotics are very close to those proposed with the former modelization. Nevertheless, the number of γ-frequent patterns with the new model is exponentially lower for fixed γ. Indeed, the factor between the two modelizations is given by m  (1 + (1/t)γ−1 )1/t = δm with δ < 1 1 + (1/t)γ It let us think that correlations entail an exponential decay on the number of frequent patterns (even if δ is near 1). Thus, this new model really refines the previous results. Finally with γ = ⌊rn⌋, the asymptotic is the same than in the first modelization and then, still polynomial. 5 Open problems We now focus our intention on problems that we did not treat here or manage to solve : 1. What is the average number of γ-closed patterns for fixed γ ? Our feeling is that this number is asymptotically equivalent to the number of closed patterns of size around log n/| log p| and frequency around log m/| log p|. 2. What is the average number of γ-closed/frequent patterns for other function γ √ such that γ = n ? The proof of Theorem 3 might be adapted to this context. In particular, the integer j0 was chosen such pj0 +1 < (γ − 1)/(n − 1) ≈ r < pj0 . By extension, fixing j0 = logp (γ − 1)/(n − 1) we suppose that the number of  frequent patterns is jm0 . 3. What is the average size of the biggest frequent pattern ? It corresponds to the number of steps that A - PRIORI Algorithm performs. 4. The positive border is the set of γ-frequent patterns (or equivalently γ-closed ones) whose all supersets are infrequent. What is the average cardinal of the positive border ? This average is given by !m−j γ−1 n   m  X X i X n ij m j n−i u i−u p (1 − p ) p (1 − p) . u j i=γ i u=0 j=1 P For r > p, it tends to zero but for r < p, the term ( )m−j goes from 0 to 1 around i = pn. We did not manage to find the asymptotic. 354 5. The negative border is the set of patterns which are not γ-frequent, and whose all subsets are γ-frequent patterns. What is the average cardinal of the negative border ? Of course, this list is not exhaustive. 6 Conclusion In this paper, we gave the average number of frequent or closed patterns in a database, according to the frequency threshold, the number of attributes, objects, and the density of the database. We first used a simple model for the database, consisting in an independent family of Bernouilli random variables. We also provided the results with an improved modelization handling correlations in the attributes. Our asymptotic results are useful in order to better understand the complexity of the frequent or closed pattern mining task. They explain the efficiency of the frequent pattern mining compared to the closed pattern one on databases close to our models. Furthermore, we emphasized the gap between two choices for the minimal frequency threshold (fixed or not) when the size of pattern lattice grows. In the first case, the average number of patterns is exponential with the number of attributes and polynomial with the number of objects. In the second case, it only polynomially depends on the number of attributes. In further work, we want to take into account the correlations between objects in order to study the frequent and closed pattern mining on corresponding databases. Besides, we would like to propose a sampling method to estimate the number of patterns starting from a database and a minimum frequency threshold. A Proofs with the transactional framework We now prove the theorems. Let us recall that n and m are polynomially linked, i.e. there exist a constant c such that log m ∼ c log n. Thus in the following, both parameters tend to infinity. The first lemma gives simple formulae directly deduced from the definitions for the average number of γ-frequent patterns and γ-concepts. This lemma is sufficient to show the result 2. The second lemma is an integral reformulation of a part of the previous formulae. The third lemma gives asymptotics for the integral part. Finally, we prove the theorem. Lemma 1 The average number of γ -frequent patterns satisfies n   m  X X n ij m p (1 − pj )n−i . Fm,n,γ = i j i=γ j=1 The average number of γ -concepts satisfies n   m  X X n ij m p (1 − pi )m−j (1 − pj )n−i . Cm,n,γ = i j i=γ j=1 355 CAp 2005 Proof 1 (Lemma 1) Fix (A, O) a γ -frequent pattern. The cardinal of a set E is noted |E|. Since O is the support of A, for all index in A × O, there is a one in the matrix. But the probability o having a one is p so that the probability of having a one at each index of A × O ˙ is p|A||O| . In addition, O is the greatest set containing all the items of A, so that for all transactions in O\O, there is at least one zero at an index of A. The probability of satisfying this last condition is (1 − p|A| )n−|O| . If (A, O) is a concept, the probability that A is the greatest set containing O is by symmetry (1 − p|O| )m−|A| . Now, summing over all the possible cardinalities for A and O, we get both formulae. Proof 2 (Theorem 2) Both formulae are sufficient to prove Theorem 2. Indeed, if γ satisfies γ > ⌊(1 + ǫ) log m/| log p|⌋ for an ǫ strictly positive, then (1 − pi )m−j (1 − p(1+ǫ) log m/| log p|−1 )m−j 1 )m−j = (1 − pm1+ǫ → 1. ≤ Theorem 2 follows from this equivalence. The next lemma expresses the sum over i in Fm,n,γ with an integral. This is the key point of all the proofs, since the way we approximate the integral leads to two different asymptotics for γ fixed or linear. Lemma 2 One has the integral equality :  Z x n   X n n i n−i tγ−1 (1 − t)n−γ dt. x (1 − x) =γ γ i 0 i=γ Proof 3 (Lemma 2) Expanding (1 − x)n−i leads to  n−i  n  X n   X X n−i n n i (−1)u xi+u . x (1 − x)n−i = u i i u=0 i=γ i=γ Now, the change of variable v = u + i and the inversion of both signs sum gives the new equality v   n   n   X X n vX v n i (−1)v−i . x x (1 − x)n−i = i v i v=γ i=γ i=γ A simple induction shows that the second sum simplifies into   v−γ v − 1 . (−1) γ−1 356 Hence, the previous inequality becomes   n   n   X X n v n i v−γ v − 1 n−i . x (−1) x (1 − x) = γ−1 v i v=γ i=γ  Now, the binomials simplify, nv v − γ gives the new expression n   X n i i=γ i  v−1 γ−1 n−i x (1 − x) =  γ n v γ n−γ v−γ  and the change of variable w =   n−γ   n X n−γ xw+γ . =γ (−1)w w w+γ γ w=0 To conclude, remark that the second sum is zero when x = 0 and that the derivative according to x is exactly xγ−1 (1 − x)n−γ . The lemma follows. We can now prove Theorem 1. Proof 4 (Theorem 1) Let f be the function f (x) = (1 − x)n−γ . The sign of the derivatives of f alternates so that, the Taylor expansion of f entails the bounds, 2k+1 X l=0 2k X f (l) (0) f (l) (0) l x ≤ f (x) ≤ xl l! l! l=0 for all positive integer k . Now the derivatives satisfy f (l) (0) = (−1)l (n − γ) . . . (n − γ − l + 1)xn−γ−l . A bound of the integral formula is then Z 0 x tγ−1 (1 − t)n−γ dt Z x 2k+1 X f (l) (0) l+γ−1 t dt l! 0 l=0 2k+1 X n − γ  xl+γ = . (−1)l l+γ l ≈ l=0 Applying Lemma 2 with Fm,n,γ , using the previous bounds and summing over j in Fm,n,γ finally gives Fm,n,γ ≈ γ     2k+1 (1 + pl+γ )m − 1 n X n−γ (−1)l . l γ l+γ l=0 In particular for k = 0, one has        n n − γ (1 + p1+γ )m − 1 n n (1+pγ )m −1. ≤ Fm,n,γ ≤ ((1+pγ )m −1)−γ γ 1+γ 1 γ γ To conclude, the condition log m ∼ c log n entails that the binomials are polynomial in m and it is negligible compared to the exponential part. This finishes the proof of Theorem 1. 357 CAp 2005 The last lemma describes the asymptotic of the integral when n is large. Lemma 3 Suppose that γ satisfies γ = ⌊rn⌋ with r a non-power of p. For x > r, Z x 1 tγ−1 (1 − t)n−γ dt = n (1 + ǫn (x)), γ 0 γ with (ǫn )n a sequence of decreasing functions that converges uniformly to zero. For x < r, Z x exp(ngn (x)) (1 + e ǫn (x)), tγ−1 (1 − t)n−γ dt = ngn′ (x) 0 with (e ǫn )n a sequence of increasing functions that converges uniformly to zero and gn (x) = n−γ γ−1 log x + log(1 − x). n n Proof 5 (Lemma 3) This lemma is the well known Laplace Method. The proof is then let to the reader. We finally prove Theorem 3. Proof 6 (Theorem 3) Integer j0 is (asymptotically) the lowest integer j such that pj > r. By Lemma 1 and Lemma 2, the average number of frequent patterns satisfies Fm,n,γ n     Z pj X n m tγ−1 (1 − t)n−γ dt. γ = γ j 0 j=1 The sum is then split into two sums the equivalence Fm,n,γ ∼ j0   X m j=1 j Pj0 + j=1 + Pm j=j0 +1 and the use of lemma 3 provides     m X n exp(ngn (pj )) m γ . γ j ngn′ (pj ) j=j +1 0  The first sum is equivalent to jm0 since j0 is constant. A simple upper bound gives the inequality for the second sum,     m m X X m γj 1 m exp(ngn (pj )) p (1 − pj )n−γ+1 . ≤ ′ (pj ) j0 (n − 1) j ng γ − 1 − p j n j=j +1 j=j +1 0 0 Now, an equivalent of the right sum is     m X m m γj j n−γ+1 pγ(j0 +1) (1 − pj0 +1 )n−γ+1 . p (1 − p ) ∼ j + 1 j 0 j=j +1 0 358 (1)  γj j n−γ+1 Indeed, let wj = m . The ratio wj+1 /wj is decreasing with j and j p (1 − p ) the ratio wj0 +2 /wj0 +1 satisfies m − j0 − 2 wj0 +2 = exp(nθ(γ, n, p, j0 )) wj0 +1 j0 + 3 with θ(γ, n, p, j0 ) = n−γ+1 1−p γ ). log p + log(1 + pj0 +1 n n 1 − pj0 +1 Using that γ/n tends to r as n tends to infinity and that pj0 +1 < r, the function θ is shown to converge to a strictly negative constant. Hence, the ratio wj0 +2 /wj0 +1 tends to zero as n tends to infinity what is sufficient to prove the equivalent of Formula (1).  The Stirling formula applied with the binomial nγ entails the equivalent s  j0 +1 γ  n−γ   1 p n 1 − pj0 +1 n (j0 +1)γ j0 +1 n−γ p (1 − p ) ∼ γ 2πr(1 − r)n γ 1 − (γ/n) where e n, p, j0 )), = exp(nθ(γ, j0 +1 n 1 − pj0 +1 e n, p, j0 ) = γ log p + (n − γ) log . θ(γ, n γ 1 − (γ/n) Finally, since for all positive x, log x ≤ x − 1 and log 1 + x ≤ x, the function θe is proved to converge to a strictly negative number. It follows that     X m m exp(ngn (pj )) n → 0. γ ngn′ (pj ) γ j=j +1 j 0 which finishes the proof of Theorem 3. B Proofs with the attribute/value framework The proofs are exactly identical. The only change is the first formula for the average number of frequent patterns or concepts. Lemma 4 The average number of γ -frequent patterns satisfies Fm,n,γ  j  X m1 n    ij X 1 1 n j m1 (1 − )n−i . = t t t i j i=γ j=1 The average number of γ -closed patterns satisfies  n    ij  i  j m1  X 1 m1 X n 1 1 Cm,n,γ = (1 − )m1 −j (1 − )n−i . i j t t t i=γ j=1 All the previous proofs extend to these formulae. 359 CAp 2005 Références AGRAWAL R., M ANNILA H., S RIKANT R., T OIVONEN H. & V ERKAMO A. (1996). Fast discovery of association rules. In Advances in Knowledge Discovery and Data Mining. AGRAWAL R. & S RIKANT R. (1994). Fast algorithms for mining association rules. In Intl. Conference on Very Large Data Bases (VLDB’94), Santiago de Chile. B OROS E., G URVICH V., K HACHIYAN L. & M AKINO K. (2002). On the complexity of generating maximal frequent and minimal infrequent sets. In Symposium on Theoretical Aspects of Computer Science, p. 133–141. C ALDERS T. & G OETHALS B. (2003). Minimal k-free representations of frequent sets. In Proceedings of PKDD’03. D EXTERS N. & C ALDERS T. (2004). Theoretical bounds on the size of condensed representations. In ECML-PKDD 2004 Workshop on Knowledge Discovery in Inductive Databases (KDID). F U H. & M EPHU N GUIFO E. (2004). Etude et conception d’algorithmes de génération de concepts formels. Revue des sciences et technologies de l’information, série ingénierie des systèmes d’information (RSTI-ISI), 9, 109–132. G EERTS F., G OETHALS B. & VAN DEN B USSCHE J. (2001). A tight upper bound on the number of candidate patterns. In Proceedings of ICDM’01, p. 155–162. G UNOPULOS D., M ANNILA H., K HARDON R. & T OIVONEN H. (1997a). Data mining, hypergraph transversals, and machine learning. In PODS 1997, p. 209–216. G UNOPULOS D., M ANNILA H. & S ALUJA S. (1997b). Discovering all most specific sentences by randomized algorithms. In ICDT, p. 215–229. K UZNETSOV S. O. & O BIEDKOV S. A. (2002). Comparing performance of algorithms for generating concept lattices. J. Exp. Theor. Artif. Intell., 14(2-3), 189–216. PASQUIER N., BASTIDE Y., TAOUIL R. & L AKHAL L. (1999). Efficient mining of association rules using closed itemset lattices. Information Systems, 24(1), 25–46. P URDOM P. W., VAN G UCHT D. & G ROTH D. P. (2004). Average-case performance of the apriori algorithm. SIAM Journal on Computing, 33(5), 1223–1260. S RIKANT R. & AGRAWAL R. (1996). Mining quantitative association rules in large relational tables. In Proceedings of the 1996 ACM SIGMOD international conference on Management of data, p. 1–12 : ACM Press. U NO T. & S ATOH K. (2003). LCM : An efficient algorithm for enumerating frequent closed item sets. In Workshop on Frequent Itemset Mining Implementations (ICDM’03). W ILLE R. (1992). Concept lattices and conceptual knowledge systems. In Computer mathematic applied, 23(6-9) :493-515. Z AKI M. J. (2000). Generating non-redundant association rules. In SIGKDD’00, Boston, p. 34–43. 360 Fouille de données biomédicales : apports des arbres de décision et des règles d’association à l’étude du syndrome métabolique dans la cohorte STANISLAS Sandy Maumus1-2, Amedeo Napoli2, Laszlo Szathmary2, Sophie Visvikis-Siest1 1 INSERM U525, 54000 Nancy {sandy.maumus, sophie.visvikis-siest}@nancy.inserm.fr 2 LORIA, 54506 Vandoeuvre-Lès-Nancy {maumus, napoli, szathmar}@loria.fr Résumé : Nous présentons deux études de fouille de données, l’une s’appuyant sur les arbres de décision et l’autre sur les motifs fréquents et les règles d’association. Les résultats obtenus sont encourageants car nous réussissons à extraire des connaissances utiles et nouvelles pour l’expert. De plus, ces travaux nous ont conduit à proposer les premiers éléments d’une méthodologie globale de fouille de règles en bioinformatique. Au cœur de ces réflexions, nous soulignons le rôle majeur de l’expert dans le processus de fouille de données. Mots-clés : Arbre de décision, Motif fréquent, Règle d’association, Syndrome métabolique. Dans l’équipe 4 de l’unité INSERM 525, nous disposons d’une base de données contribuant à la compréhension des mécanismes entraînant l’athérosclérose : la cohorte STANISLAS (Siest et al., 1998). C’est une étude familiale sur dix ans dont l’objectif principal est d’étudier le rôle et la contribution de facteurs génétiques et environnementaux sur la fonction cardiovasculaire. Des familles de la Meurthe-etMoselle et des Vosges ont été invitées à venir passer un examen de santé tous les cinq ans. Lors du recrutement initial (1993-1995, t0), les critères d’inclusion étaient les suivants : familles supposées saines, exemptes de maladies aiguës et/ou chroniques, composées de deux parents et de deux enfants de plus de six ans. 1006 familles (4295 sujets) ont ainsi pu être recrutées. Les données recueillies peuvent se diviser en trois catégories : (1) cliniques et environnementales, (2) biologiques et (3) génétiques. Un des thèmes auxquels nous nous intéressons plus particulièrement est le syndrome métabolique (SM), une affection regroupant des facteurs de risque cardiovasculaire. Notre objectif est d’expérimenter sur les données de la cohorte différentes techniques de fouille afin d’étudier les mécanismes impliqués dans le SM. Pour nos expérimentations, nous avons utilisé d’une part l’algorithme C4.5 361 Weka (Witten & Frank, 2002) qui permet la construction proposé dans le système d’arbres de décision. D’autre part, nous avons testé CORON, une plate-forme développée dans l’équipe Orpailleur qui extrait les motifs fréquents (Szathmary & CAp 2005 Napoli, 2005). Un autre module intégré dans CORON, ASSRULEX (Association Rule eXtractor), permet la génération de règles d’association à la fois à partir des motifs fréquents et des motifs fermés fréquents. Les expérimentations avec C4.5 ont été menées sur deux sous-populations de la cohorte STANISLAS. Nous avons créé une nouvelle variable nominale, « SM », qui décrit pour chaque individu s’il est atteint ou non par le syndrome métabolique. Pour cela, nous avons utilisé une définition standard où un individu est atteint par le SM s’il a au moins trois des cinq critères suivants : hyperglycémie, hypertriglycéridémie, HDL-cholestérol bas (“bon” cholestérol), hypertension, obésité. Ainsi, SM est la classe cible sur laquelle nous cherchons à classifier les individus. Le rôle de l’expert est ici très important pour le choix des paramètres et l’interprétation de résultats. Pour l’extraction de motifs et de règles, l’implication de l’expert dans le processus de fouille de données est également très importante et s’étend du pré-traitement au post-traitement des données. Nous proposons une méthodologie globale pour la fouille de règles en cinq étapes : (1) Etapes de pré-traitement, (2) Utilisation d’un logiciel de fouille, (3) Etapes de post-traitement : fouille de règles, (4) Visualisation des résultats, (5) Interprétation et validation des résultats. Ce schéma global a été appliqué à des données discrètes de la cohorte STANISLAS. La conclusion finale de cette étude après validation statistique a apporté une connaissance nouvelle à l’expert ayant une réelle valeur en biologie. En conclusion, nos expérimentations soulignent le rôle primordial de l’expert dans le processus de fouille de données. Les arbres de décision permettent de déterminer les paramètres qui discriminent au mieux les individus selon la classe SM. Quant aux motifs et aux règles, en suivant une méthodologie globale, ils permettent de mettre en évidence des profils et de générer de nouvelles hypothèses en biologie qui peuvent ensuite être validées, par les statistiques par exemple. Alors que ces deux méthodes de fouille ont ici été évaluées séparément, pour la suite de notre travail, nous souhaitons réaliser leur combinaison et étudier l’intérêt des résultats qui seront générés. Références SIEST G., VISVIKIS S., HERBETH B., GUEGUEN R., VINCENT-VIRY, M., SASS C. , BEAUD B., LECOMTE E., STEINMETZ J., LOCUTY J. & CHEVRIER P. (1998). Objectives, design and recruitment of a familial and longitudinal cohort for studying gene-environment interactions in the field of cardiovascular risk: the Stanislas cohort. Clin. Chem. and Lab. Med. 36, p. 35-42. SZATHMARY L. & NAPOLI A. (2005). CORON: A Framework for Levelwise Itemset Mining Algorithms. In Supplementary Proceedings of the Third International Conference on Formal Concept Analysis (ICFCA '05), p. 110-113, Lens, France. WITTEN I.H. & FRANK E. (2000). Data Mining: Practical machine learning tools with Java implementations. Morgan Kaufmann, San Francisco. 362 Index des auteurs Doug Aberdeen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Sylvain Baillet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Nicolas Baskiotis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Sabri Bayoudh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Yoshua Bengio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 Sadok Ben Yahia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 Jérémy Besson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 Juliette Blanchet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Toufik Boudellal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 Jean-François Boulicaut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 Nicolas Bredeche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Laurent Bréhélin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 Nicolas Bredeche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 Olivier Buffet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Jérôme Callut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Marine Campedel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Stéphane Canu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 111 Cécile Capponi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 Boris Chidlovskii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Matthieu Cord . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Antoine Cornuéjols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Arnaud Delhay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Florence Duchêne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Pierre Dupont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Gwennaele Fichant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 Florence Forbes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Jérôme Fuselier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Catherine Garbay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Gh. Gasmi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 Sylvain Gelly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 147 163 183 Philippe Henri Gosselin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Yves Grandvalet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 Vincent Guigue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Blaise Hanczar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 Stéphanie Jacquemont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 François Jacquenet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 363 CAP 2005 Baptiste Jeudy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Arnaud Lallouet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Sans-Goog Lee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Julien Lefevre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Andrei Legtchenko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Loı̈ck Lhote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 Gaëlle Loosli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Christophe Magnan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 Jeremie Mary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 Sandy Maumus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 Engelbert Mephu Nguifo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 Laurent Miclet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Eric Moulines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Rémi Munos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 David W. Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 Nicolas Pernot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Yves Quentin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 Alain Rakotomamonjy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Vincent Rialle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 François Rioult . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 345 Céline Robardet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 Cordelia Schmid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Marc Schoenauer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 Michèle Sebag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 143 145 217 Marc Sebban . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Yahya Slimani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 Arnaud Soulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 Laszlo Szathmary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 Nicolas Stroppa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Nicolas Tarrisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Isabelle Tellier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Olivier Teytaud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 147 163 183 217 Sophie Visvikis-Siest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 François Yvon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Jean-Daniel Zucker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 364