Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
THÈSE Présentée devant l’Université Paul Sabatier de Toulouse en vue de l’obtention du Doctorat de l’Université Paul Sabatier Spécialité : INFORMATIQUE P ar Lobna HLAOUA Reformulation de Requêtes par Réinjection de Pertinence dans les Documents Semi-Structurés Soutenue le 14 Décembre 2007, devant le jury composé de : M. M. BOUGHANEM M. C. CHRISMENT M. P. GALLINARI M. M. S. HACID Mme. M. LALMAS Mme. K. PINEL-SAUVAGNAT Mme. F. SEDES Professeur à l’Université Paul Sabatier, Toulouse III Professeur à l’Université Paul Sabatier, Toulouse III Professeur à l’Université Pierre et Marie Curie, Paris VI Professeur à Université Claude Bernard Lyon 1 Professeur à l’Université de Queen Mary, Londres Maitre de Conférence à l’Université Paul Sabatier, Toulouse III Professeur à l’Université Paul Sabatier, Toulouse III INSTITUT DE RECHERCHE EN INFORMATIQUE DE TOULOUSE Centre National de la Recherche Scientifique - Institut National Polytechnique - Université Paul Sabatier Université Paul Sabatier, 118 Route de Narbonne, 31062 Toulouse Cedex 04. Tel : 05.61.55.66.11 Directeur de thèse Examinateur Rapporteur Examinateur Rapporteur Invitée Examinateur ii Résumé En raison de la diversité des masses d’informations, l’utilisateur a en général de plus en plus de difficultés pour accéder aux informations qui répondent à son besoin. XML est aujourd’hui présenté comme un nouveau standard permettant de mieux décrire l’information. L’accès à ce type de document soulève de nouvelles problématiques liées à la co-existence de l’information structurelle et de l’information de contenu. L’objectif des systèmes de Recherche d’Information Structurée n’est plus de renvoyer le document répondant à la requête, mais plutôt l’unité documentaire, la partie du document répondant au mieux à la requête. Afin de mieux préciser le besoin de l’utilisateur, les requêtes peuvent être améliorées via la stratégie de reformulation de requêtes. Les travaux décrits dans cette thèse s’intéressent à la reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés de type XML. Nous proposons de nouvelles approches de réinjection de pertinence en utilisant différentes sources d’évidences (le contenu et la structure). Nous proposons dans une première approche d’enrichir le contenu de la requête initiale par des termes pertinents sélectionnés selon leur distribution dans les éléments pertinents et non pertinents ainsi que leur proximité vis-à-vis des termes de la requête initiale. Nous avons aussi proposé d’appliquer la réinjection de la pertinence négative en introduisant le facteur bruit pour la sélection des termes pertinents. Une autre source d’évidence que nous avons aussi utilisée est l’information structurelle. Nous traduisons ainsi la notion de structure pertinente, dont l’existence est prouvée grâce à une étude empirique. Nous proposons l’algorithme Smallest Common Ancestor (SCA) pour l’extraction des structures pertinentes. Cette approche a d’abord été appliquée pour des collections homogènes. Nous proposons aussi un processus permettant d’extraire des structures pertinentes dans le cas des collections hétérogènes. Nous proposons également de faire cohabiter les deux sources d’évidence (contenu et structure) dans une approche combinée. Nous proposons plusieurs méthodes de combinaison. L’approche ”naı̈ve” consiste à regrouper les termes pertinents et les structures pertinentes au niveau de la réécriture des requêtes. Une deuxième méthode prend en compte la sémantique des éléments pertinents pour l’extraction des termes pertinents. Enfin une méthode flexible permet de distribuer les termes pertinents en fonction des structures pertinentes. Quelle que soit l’approche de reformulation proposée, la réécriture de la requête est formalisée au sein d’une grammaire. L’ensemble de ces méthodes a été appliqué pour les deux types de requêtes structurées et non structurées. Les résultats montrent l’intérêt des deux approches proposées (réinjection de contenu et réinjection de structures), la combinaison des deux sources d’évidence permettant également d’améliorer les performances. Mots Clés : Réinjection de pertinence, Recherche d’Information Structurée, XML, termes pertinents, structure pertinente, combinaison de sources d’évidence. iv Remerciements Cette thèse est le fruit de trois années d’efforts incessants, mais aussi d’échanges bénéfiques et de collaborations fructueuses. Ce travail n’aurait pas pu aboutir sans le concours précieux et généreux de personnes qui partagent la même passion pour la recherche scientifique. C’est avec un énorme plaisir que je remercie aujourd’hui toutes les personnes qui m’ont soutenue durant ces trois années de travail pour faire réussir cette thèse. J’adresse mes sincères remerciements à Monsieur Claude Chrisment, Professeur à l’Université Paul Sabatier, à Monsieur Gilles Zurfluh, Professeur à l’Université des sciences sociales de Toulouse, qui m’ont accueillie au sein de l’équipe SIG. Je tiens à remercier mon Directeur de thèse et encadrant, Monsieur Mohand Boughanem, Professeur à l’Université Toulouse III, pour avoir accepté de diriger mes travaux de recherches. Je le remercie pour la patience, la gentillesse et la disponibilité dont il a fait preuve. Si j’arrive aujourd’hui au bout c’est grâce à ses conseils et ses remarques constructives. Enfin, je n’oublierai jamais les moments où il était le seul à pouvoir me réalimenter de force et de volonté, qu’il trouve ici l’expression de ma très grande gratitude. Je tiens à exprimer ma reconnaissance à Mme Karen Pinel-Sauvagnat, Maı̂tre de conférence à l’Université Paul Sabatier de Toulouse de m’avoir fait profiter de sa propre expérience, pour ses précieux conseils et sa ferme volonté de collaboration. Un très grand merci à mes rapporteurs, dont la lecture approfondie de ce mémoire a permis d’en améliorer la qualité : Madame Mounia Lalmas, Professeur de l’Université de Queen Mary de Londres et Monsieur Patrick Gallinari, Professeur à l’université de Marie Curie de Paris. Je tiens également à remercier Mme Florence Sèdes, Professeur à l’Université Toulouse III, Monsieur Mohand Saı̈d Hacid, Professeur à l’Université Claude Bernard de Lyon et Monsieur Claude Chrisment, Professeur à l’Université Toulouse III pour l’intérêt qu’ils ont porté à mes travaux en examinant ce mémoire et pour l’honneur qu’ils me font en participant à ce jury. Mes remerciements vont de même à tous les membres de l’équipe SIG de l’IRIT pour leur aide et leur gentillesse. Merci aussi au personnel du laboratoire (Annie, Brigitte, Aghathe, Françoise, Jean-Pierre, ...) pour sa gentillesse ainsi que pour son aide. Je tiens également à remercier tous les thésards qui sont présents (Mouna, Meriam, Desiré, Mohamed, Karim,...) avec qui j’ai partagé de bons moments à la salle machine, aux pauses café, au RU,.... Je n’oublie pas non plus les docteurs qui ont été des anciens thésards (Hamid, Kais,...) et qui m’ont encouragé, leurs conseils m’ont toujours servi. Bouchra, Dana, les filles les plus adorables qui m’ont toujours supportée et soutenue. Vous avez fait preuve d’une sincère amitié, j’ai vécu des moments inoubliables avec vous, GRAND merci. Merci aussi à tous les amis que j’ai connus à Toulouse, ainsi que mon amie Wafa que j’ai connue en Tunisie, et avec laquelle j’ai partagé également de bons moments à Toulouse. Enfin, je remercie du fond du cœur et avec un grand amour mes parents qui n’ont jamais cessé de croire en moi pendant toutes mes années d’études. Merci aussi à mes sœurs et frère, à mes oncles (Mahmoud, Mohamed,...), mes tantes et à toute la famille qui m’ont toujours encouragée. vi Table des matières Introduction Générale Contexte du travail . . Problématique . . . . Contribution . . . . . Organisation . . . . . I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Etat de l’Art 1 Recherche d’Information Structurée 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Processus de Recherche d’Information Classique . . . . . . . . . . . . 1.2.1 Indexation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Appariement document-requête . . . . . . . . . . . . . . . . . 1.2.2.1 Le modèle booléen . . . . . . . . . . . . . . . . . . . 1.2.2.2 Le modèle vectoriel . . . . . . . . . . . . . . . . . . 1.2.2.3 Le modèle probabiliste . . . . . . . . . . . . . . . . 1.2.2.4 Le modèle inférentiel bayésien . . . . . . . . . . . . 1.2.2.5 Les modèles de langage . . . . . . . . . . . . . . . . 1.2.3 Reformulation de requêtes . . . . . . . . . . . . . . . . . . . . 1.2.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.4.1 Mesures d’évaluation . . . . . . . . . . . . . . . . . 1.2.5 Collections de référence . . . . . . . . . . . . . . . . . . . . . 1.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Documents semi-structurés et enjeux de la Recherche d’Information Structurée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Documents semi-structurés . . . . . . . . . . . . . . . . . . . 1.3.2 Enjeux de la Recherche d’Information Structurée . . . . . . . 1.3.2.1 Unité d’information recherchée . . . . . . . . . . . . 1.3.2.2 Problématiques spécifiques de la RI structurée . . . 1.3.3 Principales stratégies en recherche d’information structurée . 1.4 Indexation et langages de requêtes . . . . . . . . . . . . . . . . . . . 1.4.1 Indexation de documents semi-structurés . . . . . . . . . . . 1.4.1.1 Indexation de l’information textuelle . . . . . . . . . 1.4.1.2 Indexation de l’information structurelle . . . . . . . 1 1 2 4 6 8 . . . . . . . . . . . . . . 9 9 10 11 13 13 13 14 15 17 18 19 19 22 22 . . . . . . . . . . 23 23 24 24 27 28 30 30 31 32 1.4.2 1.5 1.6 1.7 Langages de requêtes . . . . . . . . . . . . . . . . . . . . . . . 1.4.2.1 XQuery . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2.2 XQL . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2.3 NEXI . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2.4 XOR . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2.5 Autres langages d’interrogation . . . . . . . . . . . . Appariement élément-requête . . . . . . . . . . . . . . . . . . . . . . 1.5.1 Modèle vectoriel étendu . . . . . . . . . . . . . . . . . . . . . 1.5.2 Modèle booléen pondéré . . . . . . . . . . . . . . . . . . . . . 1.5.3 Modèle probabiliste . . . . . . . . . . . . . . . . . . . . . . . 1.5.4 Modèle inférentiel . . . . . . . . . . . . . . . . . . . . . . . . 1.5.5 Modèles de langage . . . . . . . . . . . . . . . . . . . . . . . . 1.5.6 Autres modèles de recherche . . . . . . . . . . . . . . . . . . 1.5.7 Modèles spécifiques aux collections de documents hétérogènes Évaluation de la RIS : La campagne INEX . . . . . . . . . . . . . . . 1.6.1 Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.2 Requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.3 La tâche ad-hoc . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.3.1 Tâche CO . . . . . . . . . . . . . . . . . . . . . . . 1.6.3.2 Tâche CAS . . . . . . . . . . . . . . . . . . . . . . . 1.6.3.3 Stratégies de recherche . . . . . . . . . . . . . . . . 1.6.4 Autres tâches . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.4.1 Traitement automatique du langage naturel . . . . . 1.6.4.2 Tâche Reformulation par réinjection de pertinence (Relevance Feedback) . . . . . . . . . . . . . . . . . 1.6.4.3 Tâche Hétérogène . . . . . . . . . . . . . . . . . . . 1.6.4.4 Fouille de données (Data mining) . . . . . . . . . . 1.6.4.5 Tâche interactive . . . . . . . . . . . . . . . . . . . . 1.6.4.6 Tâche multimedia . . . . . . . . . . . . . . . . . . . 1.6.5 Jugements de pertinence . . . . . . . . . . . . . . . . . . . . . 1.6.6 Mesures d’évaluation . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Reformulation de Requêtes 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . 2.2 Techniques pour l’amélioration des performances des cherche . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Expansion et combinaison de requêtes . . . . 2.2.2 Combinaison de requêtes . . . . . . . . . . . 2.3 Réinjection de pertinence . . . . . . . . . . . . . . . 2.3.1 Motivation . . . . . . . . . . . . . . . . . . . 2.3.2 Processus général de RF . . . . . . . . . . . . 2.3.3 Méthodes d’extraction des termes . . . . . . . viii . . . . . . . systèmes de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 34 34 35 35 36 36 37 39 39 41 42 43 43 45 45 45 48 48 49 49 50 50 . . . . . . . . 50 50 51 51 51 51 52 54 55 . . . 55 re. . . 56 . . . 57 . . . 58 . . . 59 . . . 59 . . . 59 . . . 61 2.3.4 2.4 2.5 2.6 Principales approches de réinjection de pertinence en RI . . . . 2.3.4.1 Approche de Rocchio . . . . . . . . . . . . . . . . . . 2.3.4.2 Réinjection de pertinence dans le modèle probabiliste 2.3.4.3 Réinjection de pertinence dans le modèle inférentiel . 2.3.4.4 Autres propositions . . . . . . . . . . . . . . . . . . . 2.3.5 Reformulation par réinjection de pertinence négative . . . . . . 2.3.6 Autres formes de Réinjection de pertinence . . . . . . . . . . . 2.3.6.1 Réinjection automatique de pertinence . . . . . . . . 2.3.6.2 Réinjection de pertinence à itérations multiples . . . . 2.3.6.3 Extension interactive de requêtes . . . . . . . . . . . . 2.3.6.4 Combinaison d’algorithmes de réinjection de pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . . Réinjection de pertinence en RIS . . . . . . . . . . . . . . . . . . . . . 2.4.1 Problématiques de la réinjection de pertinence en RIS . . . . . 2.4.2 Principales approches de la réinjection de pertinence en RIS . . 2.4.2.1 Approches orientées contenu . . . . . . . . . . . . . . 2.4.2.2 Approches orientées contexte . . . . . . . . . . . . . . 2.4.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Évaluation de la reformulation de requêtes . . . . . . . . . . . . . . . . 2.5.1 Différentes stratégies d’évaluation de la reformulation . . . . . 2.5.2 Évaluation selon la campagne d’évaluation INEX . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 64 65 67 68 70 71 71 73 73 73 74 74 75 75 77 80 81 81 83 84 II Nouvelles Approches pour la Reformulation de requêtes 86 en Recherche d’Information Structurée 3 Reformulation de requêtes par réinjection de contenu et de struc87 tures 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.3 Approche orientée Contenu . . . . . . . . . . . . . . . . . . . . . . . . 90 3.3.1 Extraction et Sélection des termes pertinents . . . . . . . . . . 90 3.3.1.1 Stratégie de base : Sélection par probabilité de pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 3.3.1.2 Stratégie basée sur le contexte . . . . . . . . . . . . . 91 3.3.1.3 Prise en compte de la pertinence négative . . . . . . . 94 3.3.2 Pondération des termes de la requête . . . . . . . . . . . . . . . 96 3.3.3 Réécriture de la requête . . . . . . . . . . . . . . . . . . . . . . 97 3.3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3.4 Réinjection de la structure . . . . . . . . . . . . . . . . . . . . . . . . 99 3.4.1 La notion de structure pertinente . . . . . . . . . . . . . . . . . 100 3.4.2 Extraction de la structure pertinente . . . . . . . . . . . . . . . 102 ix 3.4.3 3.5 3.6 Extraction de structures pertinentes dans des documents homogènes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 3.4.3.1 Algorithmes de recherche des ancêtres communs . . . 103 3.4.3.2 L’algorithme SCA (Smallest Common Ancestor) . . . 104 3.4.3.3 Exemple d’application de l’algorithme SCA . . . . . . 105 3.4.4 Extraction des structures pertinentes dans des documents hétérogènes108 3.4.5 Réécriture de la requête . . . . . . . . . . . . . . . . . . . . . . 111 Approche Combinée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 3.5.1 Combinaison naı̈ve . . . . . . . . . . . . . . . . . . . . . . . . . 114 3.5.2 Combinaison avec dépendance contextuelle . . . . . . . . . . . 116 3.5.3 Combinaison flexible . . . . . . . . . . . . . . . . . . . . . . . . 118 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 4 Evaluations & Expérimentations 123 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.2 Plateforme pour l’évaluation . . . . . . . . . . . . . . . . . . . . . . . . 124 4.2.1 Le système de recherche XFIRM . . . . . . . . . . . . . . . . . 124 4.2.1.1 Évaluation de pertinence des noeuds feuilles . . . . . 124 4.2.1.2 Propagation de pertinence dans une requête non structurée . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.2.1.3 Propagation de pertinence dans une requête structurée125 4.2.2 Rappel sur les collections de test . . . . . . . . . . . . . . . . . 127 4.2.2.1 Collection de documents . . . . . . . . . . . . . . . . 127 4.2.2.2 Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.2.2.3 Jugements de pertinence . . . . . . . . . . . . . . . . 128 4.2.2.4 Mesures d’évaluation . . . . . . . . . . . . . . . . . . 129 4.2.3 Stratégies d’évaluation . . . . . . . . . . . . . . . . . . . . . . . 130 4.2.4 Résultats de base . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.2.5 Démarche d’évaluation . . . . . . . . . . . . . . . . . . . . . . . 131 4.3 Échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 4.3.1 Choix du nombre d’éléments jugés . . . . . . . . . . . . . . . . 132 4.3.1.1 Tâche CO . . . . . . . . . . . . . . . . . . . . . . . . 133 4.3.1.2 Tâche CO+S . . . . . . . . . . . . . . . . . . . . . . . 135 4.3.1.3 Tâche VVCAS . . . . . . . . . . . . . . . . . . . . . 136 4.3.1.4 Discussion et bilan . . . . . . . . . . . . . . . . . . . . 137 4.3.2 Choix du nombre d’éléments jugés pertinents dans un échantillon139 4.3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 4.4 Évaluation de la RF Orientée Contenu . . . . . . . . . . . . . . . . . . 145 4.4.1 Nombre de termes réinjectés . . . . . . . . . . . . . . . . . . . . 146 4.4.1.1 Tâche CO . . . . . . . . . . . . . . . . . . . . . . . . 146 4.4.1.2 Tâche CO+S . . . . . . . . . . . . . . . . . . . . . . . 147 4.4.1.3 Tâche VVCAS de la collection 2005 . . . . . . . . . . 148 4.4.1.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . 148 x 4.4.2 4.5 4.6 4.7 4.8 4.9 Impact des stratégies de sélection et de pondération des termes de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2.1 Tâche CO . . . . . . . . . . . . . . . . . . . . . . . 4.4.2.2 Tâche CO+S . . . . . . . . . . . . . . . . . . . . . 4.4.2.3 Tâche VVCAS . . . . . . . . . . . . . . . . . . . . 4.4.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Évaluation de la reformulation Orientée-Structure . . . . . . . . . . . 4.5.1 Nombre adéquat de structures à réinjecter . . . . . . . . . . . 4.5.2 Réinjection de la balise ou du chemin . . . . . . . . . . . . . 4.5.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Évaluation de la reformulation Orientée-Contenu & Structure . . . . 4.6.1 Tâche CO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6.2 Tâche CO+S . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6.2.1 Tâche VVCAS . . . . . . . . . . . . . . . . . . . . . 4.6.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . Autres études qualitatives . . . . . . . . . . . . . . . . . . . . . . . . 4.7.1 Impact des jugements de pertinence . . . . . . . . . . . . . . Autres applications de la Réinjection de pertinence . . . . . . . . . . 4.8.1 Application de plusieurs itérations de réinjection . . . . . . . 4.8.2 Utilisation de la réinjection de pertinence ”aveugle” . . . . . Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.2 Étude comparative . . . . . . . . . . . . . . . . . . . . . . . . 4.9.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 151 152 153 153 154 154 156 157 158 159 159 161 161 162 162 163 163 165 166 166 167 169 Conclusion Générale 171 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 A Les A.1 A.2 A.3 Documents XML 175 Structure du document XML . . . . . . . . . . . . . . . . . . . . . . . 175 Les DOMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 XPath . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 xi Liste des tableaux 3.1 3.2 Propriétés des jugement de pertinence . . . . . . . . . . . . . . . . . Répartition des éléments pertinents en fonction des types de structures - INEX 2005-2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Récapitulation des différences de distance entre les structures . . . . 3.4 Algorithme d’extraction de la structure générique. . . . . . . . . . . 3.5 Grammaire de la réécriture des requêtes par injection de structure. . 3.6 Grammaire de la réécriture des requêtes par injection des structures et des mots clés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Distribution des termes dans les structures génériques. . . . . . . . . 3.8 Les relations termes pertinents-structures génériques. . . . . . . . . . 3.9 Grammaire de la réécriture des requêtes par injection flexible des structures et des mots clés. . . . . . . . . . . . . . . . . . . . . . . . 3.10 Distribution des termes dans les structures génériques. . . . . . . . . 4.1 4.2 Résultats de base des collections 2005 et 2006. . . . . . . . . . . . . Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la tâche CO de la collection 2005 . . . . . . . . . . . . . . . . . . . . . 4.3 Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la tâche CO de la collection 2006 . . . . . . . . . . . . . . . . . . . . . 4.4 Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la tâche CO+S de la collection 2005 . . . . . . . . . . . . . . . . . . . . 4.5 Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la tâche CO+S de la collection 2006 . . . . . . . . . . . . . . . . . . . . 4.6 Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la tâche VVCAS de la collection 2005 . . . . . . . . . . . . . . . . . . . 4.7 Moyennes des éléments jugés pertinents dans les échantillons . . . . 4.8 Impact du nombre d’éléments jugés pertinents sur l’échantillon dans le cas de la tâche CO de la collection 2005 . . . . . . . . . . . . . . . 4.9 Impact du nombre d’éléments jugés pertinents sur l’échantillon dans le cas de la tâche CO+S de la collection 2005 . . . . . . . . . . . . . 4.10 Impact du nombre d’éléments jugés pertinents sur l’échantillon dans le cas de la tâche CO+S de la collection 2006 . . . . . . . . . . . . . 4.11 Impact du nombre d’éléments jugés pertinents sur l’échantillon dans le cas de la tâche VVCAS de la collection 2005 . . . . . . . . . . . . 4.12 Moyennes des éléments jugés dans les échantillons . . . . . . . . . . . 101 . . . . 101 103 105 113 . 115 . 118 . 119 . 120 . 121 . 131 . 134 . 134 . 135 . 136 . 137 . 138 . 139 . 140 . 140 . 141 . 142 4.13 Résultats selon le nouvel échantillon de test pour les différentes tâches de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 4.14 Comparaison des résultats du nouvel échantillon et l’échantillon fixe . 144 4.15 Impact du nombre de termes pertinents à réinjecter dans le cas de la tâche CO de la collection 2005 . . . . . . . . . . . . . . . . . . . . . . 146 4.16 Impact du nombre de termes pertinents à réinjecter dans le cas de la tâche CO+S de la collection 2005 . . . . . . . . . . . . . . . . . . . . . 147 4.17 Impact du nombre de termes pertinents à réinjecter dans le cas de la tâche CO+S de la collection 2006 . . . . . . . . . . . . . . . . . . . . . 148 4.18 Impact du nombre de termes pertinents à réinjecter dans le cas des requêtes VVCAS de la collection 2005 . . . . . . . . . . . . . . . . . . 149 4.19 Impact des stratégies de sélection et pondération des termes dans le cas des requêtes CO de la collection 2005 . . . . . . . . . . . . . . . . 151 4.20 Impact des stratégies de sélection et pondération des termes dans le cas de la tâche CO+S de la collection 2005 . . . . . . . . . . . . . . . 152 4.21 Impact des stratégies de sélection et pondération des termes dans le cas de la tâche CO+S de la collection 2006 . . . . . . . . . . . . . . . 152 4.22 Impact des stratégies de sélection et pondération des termes dans le cas de la tâche VVCAS de la collection 2005 . . . . . . . . . . . . . . . 153 4.23 Impact du nombre de structures pertinentes à réinjecter dans le cas des tâches CO, CO+S et VVCAS de la collection 2005 et la tâche CO+S de la collection 2006 . . . . . . . . . . . . . . . . . . . . . . . . 155 4.24 Réinjection de structure (Element cible, Chemin spécifique et Chemin générique) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 4.25 Reformulation de requêtes par combinaison dans le cas de la tâche CO de la collection 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 4.26 Reformulation de requêtes par combinaison dans le cas de la tâche CO+S de la collection 2005 . . . . . . . . . . . . . . . . . . . . . . . . 160 4.27 reformulation de requêtes par combinaison dans le cas de la tâche CO+S de la collection 2006 . . . . . . . . . . . . . . . . . . . . . . . . 160 4.28 Reformulation de requêtes par combinaison dans le cas de la tâche VVCAS de la collection 2005 . . . . . . . . . . . . . . . . . . . . . . . 161 4.29 Réinjection de pertinence basée sur un jugement de pertinence généralisé163 4.30 Réinjection de pertinence en 2 itérations . . . . . . . . . . . . . . . . . 164 4.31 Réinjection de pertinence en 3 itérations . . . . . . . . . . . . . . . . . 164 4.32 Réinjection de pertinence ”aveugle” . . . . . . . . . . . . . . . . . . . 165 4.33 Evaluation selon le protocole d’INEX . . . . . . . . . . . . . . . . . . . 167 4.34 Classement de notre système parmi les résultats officiels de la campagne d’évaluation INEX 2005 dans le cas de la tâche CO . . . . . . . 168 4.35 Classement de notre système parmi les résultats officiels de la campagne d’évaluation INEX 2005 dans le cas de la tâche CO+S . . . . . 168 4.36 Classement de notre système parmi les résultats officiels de la campagne d’évaluation INEX 2006 dans le cas de la tâche CO+S . . . . . 169 xiii Table des figures 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 Le Processus en U de la Recherche d’Information . . . . . . . . . Modèle de réseau inférentiel bayésien simple . . . . . . . . . . . . Définition du rappel et de la précision . . . . . . . . . . . . . . . Courbes de rappel-précision pour deux requêtes R1 et R2 . . . . Exemple d’un document XML . . . . . . . . . . . . . . . . . . . . Modèle d’augmentation [61] . . . . . . . . . . . . . . . . . . . . . Exemple d’un article de la collection IEEE au format XML . . . Exemple d’un article de la collection Wikipédia au format XML . Exemple de requête CO de la collection 2005 . . . . . . . . . . . Exemple de requête de la collection 2006 . . . . . . . . . . . . . . 2.1 2.2 Le Processus général de l’amélioration de la recherche . . . . . . . . . 57 Le Processus général de la réinjection de pertinence . . . . . . . . . . . 60 3.1 3.2 3.3 3.4 3.5 3.6 3.7 Mécanisme de reformulation . . . . . . . . . . . . . Variation du bruit en fonction de fréquences . . . . Recherche d’une structure générique :A . . . . . . Recherche d’une structure générique : C . . . . . . Recherche d’une structure générique : B . . . . . . Recherche d’une structure générique : C . . . . . . Présentation des structures dans un graphe orienté 4.1 Nombre de termes à réinjecter en fonction de la taille des requêtes. . . 150 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 16 20 21 25 40 46 46 47 47 89 95 106 106 107 107 111 A.1 Exemple d’un document XML . . . . . . . . . . . . . . . . . . . . . . . 176 A.2 L’arbre DOM d’un document XML . . . . . . . . . . . . . . . . . . . . 178 A.3 Axes de navigation XPath . . . . . . . . . . . . . . . . . . . . . . . . . 179 Introduction Générale Contexte du travail Chercher une information sur le web devient un geste quotidien que font des utilisateurs diversifiés en âge, en culture, en spécialité, et ayant des domaines d’intérêt variés. De nos jours, la richesse documentaire augmente, et ce essentiellement grâce à la croissance massive des documents numériques, souvent hétérogènes dans leur forme et leur contenu. En raison de la diversité des masses d’informations, l’utilisateur a en général de plus en plus de difficultés pour accéder aux informations qui répondent à son besoin. C’est cette diversité qui a conduit le W3C (World Wide Web Consortium) à mettre en œuvre de nombreux chantiers permettant de mieux décrire l’information. Les premiers résultats en sont les langages XML (eXtensible Markup Language) [196] et RDF (Resource Description Framework ) [113]. XML est aujourd’hui présenté comme un nouveau standard dont la vocation n’est rien de moins que de standardiser le formatage des données indépendamment d’un quelconque format propriétaire, quel que soit le type de données. Ce langage présente une véritable révolution dans la manière de traiter ces données. Les documents XML, outre les données elles mêmes, intègrent des méta-informations et des informations structurelles. On parle ainsi de documents semistructurés. L’accès à ce type de document soulève de nouvelles problématiques liées à la co-existence de l’information structurelle et de l’information de contenu. Les Systèmes de Recherche d’Information (SRI ) conçus en Recherche d’information (RI ) traditionnelle, traitent les documents comme des unités atomiques d’information et ne répondent pas à la nature des documents structurés et semi-structurés. Introduction Générale 2 Afin de valoriser au mieux l’ensemble des informations disponibles, les méthodes existantes de RI doivent être adaptées ou de nouvelles méthodes doivent être proposées. C’est dans ce contexte de Recherche d’Information Structurée (RIS ) que se situent nos travaux. L’objectif des systèmes de RIS n’est plus de renvoyer le document répondant à la requête, mais plutôt l’unité documentaire, la partie du document répondant au mieux à la requête. Pour répondre à ce challenge, plusieurs modèles de recherche ont été proposés dans la littérature [60, 62, 63, 65, 64]. Nous nous intéressons dans nos travaux à l’application de la reformulation de requêtes en RIS afin de satisfaire l’utilisateur en lui restituant les meilleurs granules documentaires (parties de documents) répondant à son besoin. Problématique La recherche d’information est un processus qui se base essentiellement sur la requête exprimée par l’utilisateur pour répondre à ses besoins. En effet, quel que soit le système de recherche utilisé, le résultat d’une recherche ne peut être pertinent si la requête ne décrit pas explicitement et clairement les besoins de l’utilisateur. Or, il est généralement reconnu que l’utilisateur se contente de donner quelques mots clés. Ces derniers sont issus d’une connaissance générale sur le sujet recherché. Par conséquent, les documents renvoyés par le système de recherche peuvent ne pas satisfaire les besoins de l’utilisateur. La reformulation de requêtes est une des stratégies qui permet d’améliorer la construction d’une requête. Elle consiste de manière générale à enrichir la requête de l’utilisateur en ajoutant des termes permettant de mieux exprimer son besoin [52]. Une des techniques les plus répandues en RI est la reformulation par réinjection de la pertinence, communément appelée Relevance Feedback (RF). Elle consiste à extraire à partir d’un échantillon de documents jugés pertinents par l’utilisateur les mots clés les plus pertinents, et à les ajouter à la requête. Les travaux décrits dans cette thèse s’intéressent à la reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés de type XML. La nature des documents manipulés dans ce contexte, comportant du texte et des informations structurelles sous forme de balises, réactualise la problématique de la RI classique (plein texte) en général et de la reformulation de requêtes en particulier. Introduction Générale 3 – Tout d’abord au niveau de l’expression des requêtes, l’utilisateur peut exprimer ses besoins de deux manières, soit en n’utilisant que des mots clés (on parle alors de requêtes orientée contenu), ou bien en utilisant des requêtes comportant des mots clés et des contraintes structurelles (on parle alors de requêtes orientées contenu et structure). En pratique, la plupart des utilisateurs se contentent de formuler leurs requêtes par de simples mots clés qui représentent le langage de requêtes le plus simple. Leurs requêtes peuvent également contenir des contraintes structurelles au sens large, c’est à dire des contraintes structurelles assez vagues. En effet, la formulation d’une requête bien structurée nécessite d’une part une connaissance de la structure des documents, d’autre part une certaine compétence dans le langage de requête. – Ensuite au niveau de la recherche, contrairement à la RI traditionnelle qui considère le document comme une unité d’information atomique, la RI structurée a pour but d’identifier de manière automatique la partie du document (l’élément du document XML), répondant à la fois de manière exhaustive et spécifique à la requête de l’utilisateur. Une information est dite exhaustive si elle contient toute information répondant aux besoins de l’utilisateur et spécifique si elle ne contient que l’information répondant aux besoins de l’utilisateur. – Enfin, au niveau du processus de Relevance Feedback (RF ), il est nécessaire de tenir compte de l’information structurelle des documents, à la fois dans la requête initiale, les documents jugés par l’utilisateur et la requête reformulée. Nous nous intéressons dans le cadre de cette thèse à la réinjection de pertinence en Recherche d’Information Structurée. Plusieurs questions se posent dans ce contexte, elles portent en général sur la manière de prendre en compte l’information structurelle. Plus précisément : – En RI classique, l’unité documentaire jugée et donc à partir de laquelle les termes sont extraits, est le document entier. Les méthodes proposées ont montré leur intérêt en termes de rappel-précision [154], [152]. Or dans le contexte de la RIS, l’unité documentaire peut avoir différentes formes. Elle peut être le document entier ou tout élément du document. Une adaptation simpliste des méthodes de la RI classique à la RI structurée consisterait à extraire les termes pertinents à partir des éléments de différentes granularités jugés pertinents par l’utilisateur. Cette adaptation simpliste est-elle en adéquation avec la RI structurée ? Comment tenir compte du fait que les éléments peuvent être imbriqués les uns dans les autres ? Permet-elle effectivement d’améliorer les performances de la Introduction Générale 4 recherche ? Au lieu de sélectionner indifféremment tous les éléments pertinents pour l’extraction des termes, doit-on au contraire prendre en compte les sémantiques différentes des éléments (par exemple, paragraphe, titre, section) ? – La reformulation de requêtes s’est intéressée à enrichir la requête initiale par extraction et réinjection des termes pertinents, mais qu’en est-il de la dimension structurelle ? Est-il intéressant d’enrichir une requête avec des contraintes structurelles ? Avant de répondre à ces questions il faut tout d’abord répondre à celle-ci : Existe-t-il des structures pertinentes et comment sont-elles définies ? – Comme nous l’avons signalé, en RI structurée, la pertinence des éléments dépend de deux dimensions : la spécificité et l’exhaustivité. Ainsi, la pertinence ne peut plus être évaluée d’une façon booléenne (pertinent/ non pertinent). La problématique considérée à ce niveau est : comment prendre en compte cette graduation de la pertinence dans la reformulation de requêtes ? – Une dernière question concernant le processus de la reformulation est la réécriture de la requête. D’une manière générale, on aura à rajouter des termes pertinents et/ou des structures pertinentes à des requêtes structurées et non structurées. La question est comment intégrer ces deux évidences dans la requête initiale ? Comment pondérer les termes ? Doiton re-pondérer les termes originaux ? Comment rajouter des structures à des requêtes déjà structurées ? A quels groupes de mots-clés doit-on ajouter des conditions structurelles ? Contribution Afin de répondre aux questions listées précédemment, nous avons proposé un mécanisme complet et flexible de reformulation partant de la sélection de l’échantillon des éléments jugés jusqu’au renvoi d’un ensemble d’éléments répondant à la requête reformulée. Les approches proposées se basent sur l’extraction et la réinjection de différentes évidences (mots clés et structures) dans la nouvelle requête. Nous avons proposé deux principales approches : l’approche orientée contenu et l’approche orientée structure. Introduction Générale 5 Plus précisément, au niveau de l’approche orientée contenu, nous avons procédé de manière à extraire et sélectionner des termes pertinents, au sein des éléments jugés pertinents en fonction de leur probabilité de pertinence et de leur contexte. Dans notre approche, nous estimons le contexte en fonction de la position d’un terme pertinent vis à vis des termes de la requête initiale. Ces termes sont ensuite pondérés soit en se basant directement sur le score ayant permis leur sélection ou selon une formule prenant en compte leur importance dans la collection d’éléments et la collection de documents. Nous avons aussi proposé d’appliquer la réinjection de la pertinence négative en introduisant le facteur bruit pour la sélection des termes pertinents. Cette approche est évaluée pour les requêtes structurées et non structurées en utilisant deux collections provenant d’INEX1 . Au niveau de l’approche orientée structure, nous avons tout d’abord effectué une étude empirique qui nous a permis de conclure qu’il existe une ou plusieurs structures pertinentes pour une requête donnée. Nous avons ramené la notion de structure pertinente à la notion de structure générique que nous avons définie en fonction de son apparition dans les structures des éléments jugés pertinents. Nous avons ensuite proposé un algorithme appelé Smallest Common Ancestor (SCA) pour l’extraction de cette dernière. Cette approche a d’abord été appliquée pour des collections homogènes (c’est à dire possédant des documents aux structures similaires), puis nous avons proposé d’étendre l’algorithme pour supporter les collections hétérogènes (c’est à dire ayant des documents aux structures différentes). Cette approche a également été appliquée pour les deux types de requêtes orientées contenu et orientées contenu et structure. Nous avons également proposé une approche combinée utilisant les deux approches précédentes. Elle considère les deux sources d’évidence contenu et structure. Nous avons proposé plusieurs méthodes de combinaison, dont la plus simple, appelée ”naı̈ve”, consiste à regrouper les termes pertinents et les structures pertinentes au niveau de la réécriture des requêtes. Une deuxième méthode prend en compte la sémantique des éléments pertinents pour l’extraction des termes pertinents. Enfin une méthode flexible permet de distribuer les termes pertinents en fonction des structures pertinentes. L’ensemble de ces méthodes a été appliqué pour les deux types de requêtes. Quelle que soit l’approche de reformulation proposée la réécriture de la requête est formalisée au sein d’une grammaire. De plus, toutes les méthodes sont évaluées sur le système de recherche d’information structurée XFIRM [166] 1 INEX : INiative for the Evaluation of XML REtrieval, est une campagne d’évaluation de la recherche d’information dans les documents XML Introduction Générale 6 élaboré au sein de notre équipe. Enfin, toutes nos propositions ont été évaluées sur des collections standards issues des campagnes d’évaluation INEX (INiative for the Evaluation of XML REtrieval ) 2005 et INEX 2006. Nous proposons également d’appliquer les différentes approches en mode aveugle, dans lequel l’utilisateur n’intervient pas sur le jugement des éléments pertinents. Les résultats montrent l’intérêt des deux approches proposées (réinjection de contenu et réinjection de structures). La combinaison des deux sources d’évidence permet également d’améliorer les performances de manière significative. Organisation Ce mémoire de thèse est composé de la présente introduction générale, de deux principales parties (état de l’art et contribution) et d’une conclusion générale dans laquelle nous présentons les principales conclusions ainsi que les perspectives de nos travaux. Les deux principales parties sont organisées comme suit : – La première partie, composée de deux chapitres présente un état de l’art. Dans le premier chapitre nous introduisons le cadre général de notre contribution. Nous présentons brièvement le processus de recherche d’information traditionnelle (section 1.2). Ensuite, nous détaillons les enjeux de la recherche d’information structurée (section 1.3) ainsi que les approches d’indexation et d’appariement développées dans ce cadre (section 1.4 et section 1.5). Enfin, nous présentons l’évaluation des systèmes de recherche en RIS dans la section 1.6. Dans le deuxième chapitre, nous présentons les différentes méthodes et approches proposées pour l’amélioration des performances des systèmes de recherche en général (section 2.2). Nous décrivons ensuite les différentes propositions développées pour la reformulation des requêtes par réinjection de pertinence appliquées aux systèmes de recherche classique (section 2.3) et structuré (section 2.4). Nous présentons également les différentes méthodes d’évaluation de la réinjection de pertinence dans la section 2.5. – La deuxième partie concerne notre contribution. Dans le premier chapitre nous détaillons nos trois propositions (l’approche orientée contenu, l’approche orientée structure, et l’approche combinée). Pour la première approche (section 3.3), nous décrivons les trois étapes sous-jacentes : l’extraction et la sélection des termes (section 3.3.1), la pondération de termes (section 3.3.2) et la réécriture de la requête (section 3.3.3). Nous Introduction Générale 7 présentons également la réinjection de pertinence négative dans la section 3.3.1.3. Pour l’approche orientée structure (section 3.4), nous montrons statistiquement l’intérêt du concept de structure pertinente (section 3.4.1). Nous définissons ensuite la notion de structure générative et nous détaillons le processus d’extraction dans les sections 3.4.2 et 3.4.3. Puis nous proposons l’extension de cette approche à des collections hétérogènes dans la section 3.4.4. Enfin, nous définissons la grammaire de réécriture pour les deux types de requêtes structurées et non structurées dans la section 3.4.5. L’approche combinée propose trois combinaisons différentes de l’approche orientée contenu et l’approche orientée structure. Elles sont détaillées respectivement dans les sections 3.5.1, 3.5.2 et 3.5.3. Dans le second chapitre, après avoir décrit notre plateforme d’évaluation dans la section 4.2, nous étudions dans la section 4.3 l’échantillonnage pour l’évaluation de nos approches. Les impacts des approches orientée contenu, orientée structure et combinée sont détaillés dans les sections 4.4, 4.5 et 4.6. Nous réalisons d’autres études expérimentales dans la section 4.7 pour évaluer l’impact de la nature du jugement de pertinence (section 4.7.1). Enfin (section 4.8), nous testons l’application de la reformulation en plusieurs itérations (section 4.8.1) et de la réinjection aveugle (section 4.8.2). Première partie Etat de l’Art 8 Chapitre 1 Recherche d’Information Structurée 1.1 Introduction Un Système de Recherche d’Information (SRI) permet de retrouver à partir d’une collection de documents les documents pertinents répondant à une requête d’utilisateur. Trois notions clés caractérisent un SRI : document, requête et pertinence. Un document désigne toute unité qui peut présenter une réponse à une requête donnée. En effet, un document peut être un morceau de texte, une page Web, une image, une séquence vidéo, etc. En outre, les documents textuels peuvent avoir plusieurs spécifications ; un document peut être un texte sans aucune structuration (appelé plein texte), mais peut aussi contenir des balises descriptives on parle alors de documents semi-structurés de type XML par exemple. Les documents peuvent aussi être complètement structurés, c’est à dire qu’ils possèdent une structure fixe comme par exemple des formulaires. Une requête exprime le besoin d’information d’un utilisateur. Elle peut être exprimée selon différents langages. Le langage le plus utilisé est le langage naturel. La pertinence est une notion fondamentale en RI. Elle est l’objet de tout système de recherche d’information. Elle peut être définie comme la correspondance entre un document et une requête selon le système ou l’utilisateur. La recherche d’Information (RI) est un domaine apparu en même temps que les ordinateurs. Au début, la RI se concentrait sur les applications dans les bibliothèques. A la fin des années 1960 et au début des années 1970, G. Salton a développé le système SMART [154], qui a grandement influencé le domaine Chapitre 1. Recherche d’Information Structurée 10 de la RI. Depuis les années 1990, marquées par l’apparition d’Internet, le champ d’application de la RI s’est accru, et ce à cause de la nature des documents disponibles sur le web. En particulier, les documents semi-structurés ont donné naissance à une nouveau domaine de la RI : la Recherche d’Information structurée (RIS). Ce domaine, bien qu’il présente de nouvelles problématiques, s’est servi des notions et des approches déjà développées en RI classique. Dans ce chapitre, nous commençons par présenter brièvement le processus de RI traditionnelle (section 1.2), puis nous détaillons les enjeux de la recherche d’information structurée (section 1.3) ainsi que les différentes techniques développées pour chacune des étapes suivantes : l’indexation et l’interrogation (section 1.4) ainsi que l’appariement éléments-requêtes (section 1.5). L’évaluation des approches de RIS est enfin présentée dans la section 1.6. 1.2 Processus de Recherche d’Information Classique Un système de recherche d’information a pour but la mise en relation des informations contenues dans le corpus documentaire d’une part, et les besoins de l’utilisateur d’autre part. Le besoin d’information d’un utilisateur est formulé à travers une requête. Le système doit retourner à l’utilisateur le maximum de documents pertinents à la requête (et le minimum de documents nonpertinents). Un SRI est composé de trois fonctions principales, représentées schématiquement par le processus U de recherche d’information [17]. Cette architecture générale est représentée sur la figure 1.1. On distingue trois modules principaux : – Le module d’indexation, qui permet une représentation des documents et des requêtes – Le module d’appariement requête-document, qui permet de répondre à l’interrogation – Le module de reformulation de la requête. Ces trois modules sont détaillés ci-après. Chapitre 1. Recherche d’Information Structurée 11 Fig. 1.1 – Le Processus en U de la Recherche d’Information 1.2.1 Indexation Pour que le coût de la recherche soit acceptable, il convient d’effectuer une étape primordiale sur la collection de documents. Cette étape consiste à analyser les documents afin de créer un ensemble de mots-clés : on parle de l’étape d’indexation. Ces mots-clés seront plus facilement exploitables par le système lors du processus ultérieur de recherche. L’indexation permet de créer une vue logique du document. On entend par vue logique la représentation des documents dans le système. L’indexation peut être : – Manuelle : chaque document est analysé par un spécialiste du domaine ou par un documentaliste – Automatique : le processus d’indexation est entièrement informatisé – Semi-automatique : l’indexeur intervient souvent pour choisir d’autres termes significatifs (synonymes, etc.) à partir de thésaurus ou d’une ontologie. De manière générale, l’indexation automatique est réalisée selon les étapes suivantes : analyse lexicale : L’analyse lexicale (tokenization en anglais) est le processus qui permet de convertir le texte d’un document en un ensemble de termes. Un terme est un groupe de caractères constituant un mot significatif [58]. L’analyse lexicale permet de reconnaı̂tre les espaces de séparation des mots, des chiffres, les ponctuations, etc. Chapitre 1. Recherche d’Information Structurée 12 L’élimination des mots vides : Un des problèmes majeurs de l’indexation consiste à extraire les termes significatifs des mots vides (pronoms personnels, prépositions, ...). Les mots vides peuvent aussi être des mots athématiques (les mots qui peuvent se retrouver dans n’importe quel document parce qu’ils exposent le sujet mais ne le traitent pas, comme par exemple contenir, appartenir ). On distingue deux techniques pour éliminer les mots vides : – L’utilisation d’une liste de mots vides (aussi appelée anti-dictionnaire, stoplist en anglais), – L’élimination des mots dépassant un certain nombre d’occurrences dans la collection. Lemmatisation : Un mot donné peut avoir différentes formes dans un texte. On peut par exemple citer économie, économiquement, économétrie, économétrique, etc. Il n’est pas forcément nécessaire d’indexer tous ces mots et un seul suffirait à représenter le concept véhiculé. Pour résoudre le problème, une substitution des termes par leur racine ou lemme est utilisée. Frakes et Baeza-Yates [59] distinguent cinq types stratégiques de lemmatisation : la table de consultation (dictionnaire), l’élimination des affixes (on peut citer le très connu algorithme de Porter [144]), la troncature, les variétés de successeur et la méthode des n-grammes. Pondération des termes : La pondération permet d’assigner aux termes leurs degré d’importance dans les documents. Un terme peut être expressif s’il apparaı̂t suffisamment fréquemment pour être statistiquement important sans toutefois excéder une certaine limite qui le classerait dans la catégorie des mots outils (vides). La plupart des techniques de pondération sont basées sur les facteurs TF et IDF : – TF (Term Frequency) : cette mesure est proportionnelle à la fréquence du terme dans le document. Elle peut être utilisée telle quelle ou selon plusieurs déclinaisons (log(TF), présence/absence,...) – IDF (Inverse of Document Frequency) : ce facteur mesure l’importance d’un terme dans toute la collection. Un terme qui apparaı̂t souvent dans la base documentaire ne doit pas avoir le même impact qu’un terme moins fréquent. Il est généralement exprimé comme suit : log(N/df ), où df est le nombre de documents contenant le terme et N est le nombre total de documents de la base documentaire La mesure TF*IDF donne une bonne approximation de l’importance du terme dans le document, particulièrement dans les corpus de documents de taille homogène. Chapitre 1. Recherche d’Information Structurée 1.2.2 13 Appariement document-requête La comparaison entre le document et la requête permet de calculer une mesure appelée pertinence système, supposée représenter la pertinence du document vis-à-vis de la requête. Cette valeur est calculée à partir d’une fonction de similarité notée RSV(Q,D) (Retrieval Status Value), où Q est une requête et D un document. Cette mesure tient compte du poids des termes dans les documents. D’une façon générale, l’appariement document-requête et le modèle d’indexation permettent de caractériser et d’identifier un modèle de recherche d’information. L’ordre dans lequel les documents susceptibles de répondre à la requête sont retournés est important. En effet, l’utilisateur se contente généralement d’examiner les premiers documents renvoyés (les 10 ou 20 premiers). Si les documents recherchés ne sont pas présents dans cette tranche, l’utilisateur considérera le SRI comme mauvais vis-à-vis de sa requête. De nombreux modèles de recherche ont été proposés dans la littérature [11]. Dans ce qui suit, nous présentons les principaux, qui ont par la suite été repris dans le cadre de la recherche d’information structurée. 1.2.2.1 Le modèle booléen Le modèle booléen [160] est historiquement le premier modèle de RI, et est basé sur la théorie des ensembles. Un document est représenté par une liste de termes (termes d’indexation). Une requête est représentée sous forme d’une équation logique. Les termes d’indexation sont reliés par des connecteurs logiques ET, OU et NON. Le processus de recherche mis en œuvre consiste à effectuer des opérations sur l’ensemble de documents afin de réaliser un appariement exact avec l’équation de la requête. L’appariement exact est basé sur la présence ou l’absence des termes de la requête dans les documents. La décision binaire sur laquelle est basée la sélection d’un document ne permet pas d’ordonner les documents renvoyés à l’utilisateur selon un degré de pertinence. 1.2.2.2 Le modèle vectoriel C’est un modèle qui préconise la représentation des requêtes utilisateurs et des documents sous forme de vecteurs, dans l’espace engendré par tous les termes d’indexation [161]. D’une manière formelle, les documents (Dj ) et les requêtes Q sont des vecteurs dans un espace vectoriel des termes d’indexation (t1 , t2 , ..., tT ) de dimension T et représentés comme suit : Chapitre 1. Recherche d’Information Structurée 14 Dj = [dj1 , dj2 , ..., djT ], Q = [q1 , q2 , ..., qT ] où dji et qi sont respectivement les poids des termes ti dans le document Dj et la requête Q. D’après ce modèle, le degré de pertinence d’un document relativement à une requête est perçu comme le degré de corrélation entre les vecteurs associés. Ceci nécessite alors la spécification d’une fonction de calcul de similarité entre vecteurs mais également d’une fonction de pondération des termes. La plus répandue est celle de Sparck et Needham [179] qui définit le poids d’un terme ti dans un document dj comme suit : dji = tfji ∗ idfi Où : tfji : est la fréquence relative du terme ti dans le document Dj . idfi : est l’inverse de la fréquence absolue du terme ti dans la collection. idfi = log nNi ; avec ni le nombre de documents contenant le terme ti et N est le nombre total de documents dans la collection. La fonction de similarité permet de mesurer la ressemblance des documents et de la requête. La mesure la plus répandue est celle du cosinus [160] : PT qi dji RSV (Q, Dj ) = qP i=1qP T T 2 2 i=1 qi i=1 dji Le modèle vectoriel suppose l’indépendance entre termes. En effet, la représentation vectorielle considère chaque terme séparément alors qu’on peut avoir des termes qui sont en relation sémantique entre eux. 1.2.2.3 Le modèle probabiliste Le modèle probabiliste aborde le problème de la recherche d’information dans un cadre probabiliste. Le premier modèle probabiliste a été proposé par Maron et Kuhns [124] au début des années 1960. Le principe de base consiste à présenter les résultats de recherche d’un SRI dans un ordre basé sur la probabilité de pertinence d’un document vis-à-vis d’une requête. Robertson [151] résume ce critère d’ordre par le ”principe de classement probabiliste”, aussi désigné par PRP (Probability Ranking Principle). Etant donnés une requête utilisateur notée Q et un document D, formellement, le modèle P RP peut être traduit de la manière suivante : pour chaque document D et chaque requête Q, Quelle est la probabilité que ce document soit pertinent pour cette requête ? Deux évènements sont alors possibles : Chapitre 1. Recherche d’Information Structurée 15 – R, D est pertinent pour Q ; – R, D est non pertinent pour Q. Selon PRP, le score d’appariement entre le document D et la requête, noté RSV (Q, D) [149], est donné par : P (R/D) (1.1) P (R/D) En utilisant la règle de Bayes et en simplifiant, cela revient à ordonner les documents selon : P (D/R) (1.2) P (D/R) RSV (Q, D) = Plusieurs solutions ont été proposées pour représenter le document D et pour estimer les paramètres du modèle. Parmi elles citons BIR (Binary Independance Retrieval) [152]. Un des inconvénients de ce modèle est l’impossibilité d’estimer ses paramètres si des collections d’apprentissage ne sont pas disponibles. Pour pallier cet inconvénient, Roberston a proposé le modèle 2-poisson basé notamment sur la notion de termes élites [149], [197]. Le résultat de ces travaux est la fameuse formule BM 25, largement discutée dans les travaux actuels de RI. La formule est la suivante : i +0.5 X qtf × (k2 + 1) tfij (k1 + 1) × log N n−n i +0.5 × (1.3) RSV (Q, D) = ldj k 2 × qtf k1 × ((1 − b) + b avg dl ) + tfij t∈Q avec : qtf : la fréquence du P terme t dans la requête, ldj : la longueur du document dj ; ldj = i∈dj tfij , les auteurs ont aussi proposé de mesurer en octets les longueurs des documents ; documents avg dl : la longueur moyenne des P P detfijla collection. Elle est calculée comme suit : avg dl = j∈N i∈T N , N le nombre de documents de la collection ; ni le nombre de documents contenant le terme ti , T le nombre de termes de la collection. k1 , k2 et b sont des constantes. Les expérimentations ont montré que k1 = 1.2, k2 = 0.8, b = 0.75 ont donné les meilleurs résultats, en termes de performances, sur les collections TREC considérées. 1.2.2.4 Le modèle inférentiel bayésien Les réseaux inférentiels bayésiens [192] considèrent le problème de la recherche d’information d’un point de vue épistémologique. Ils associent des variables aléatoires avec les termes de l’index, les documents et les requêtes de Chapitre 1. Recherche d’Information Structurée 16 l’utilisateur. Les termes de l’index et les documents sont représentés comme des nœuds. Une variable aléatoire associée avec un document dj représente l’événement d’observer ce document. Les arcs sont dirigés du noeud document vers ses nœuds termes : ainsi, l’observation d’un document est la cause d’une augmentation de la valeur des variables associées avec ses termes d’index. La variable aléatoire associée à la requête de l’utilisateur modélise l’événement que la requête d’information spécifiée dans la requête a été vérifiée. La valeur de ce noeud requête est une fonction des valeurs des nœuds associés aux termes de la requête. Ainsi, les arcs sont orientés des nœuds des termes de l’index vers le noeud de la requête. La figure 1.2, issue de [192], illustre un réseau inférentiel bayésien simple de pertinence d’un document vis à vis d’une requête composée de trois termes. L’événement ”la requête est accomplie” (Q=1) est réalisé si le sujet lié à un Fig. 1.2 – Modèle de réseau inférentiel bayésien simple terme est vrai (T1=1, T2=1 ou T3=1), ou une combinaison de ces événements. Les trois sujets sont inférés par l’événement ”le document est pertinent” (D=1). Par l’enchaı̂nement de règles de probabilités, la probabilité jointe des autres nœuds du graphe est : P (D, T 1, T 2, T 3, Q) = P (D) P (T 1|D) P (T 2|D, T 1) P (T 3|D, T 1, T 2) P (Q|D, T 1, T 2, T 3) La direction des arcs indiquant les relations de dépendance entre les variables aléatoires, l’équation devient : P (D, T 1, T 2, T 3, Q) = P (D)P (T 1|D)P (T 2|D)(T 3|D)P (Q|T 1, T 2, T 3) La probabilité de réalisation de la requête P (Q = 1|D = 1) peut être utilisée comme score d’ordonnancement des documents : Chapitre 1. Recherche d’Information Structurée 17 P (Q = 1, D = 1) P (D = 1) P P (D = 1, T 1 = t1 , T 2 = t2 , T 3 = t3 , Q = 1) (1.4) = P (D = 1) P (Q = 1|D = 1) = Le modèle nécessite la connaissance de P (D = [0|1]), P (T i = [0|1]|D = [0|1]), P (Q = [0|1]| (T 1, T 2, . . . , T n) ∈ {0, 1}n ), cette dernière étant la plus difficile à trouver car le nombre de probabilités à spécifier augmente exponentiellement avec le nombre de termes de la requête. Pour résoudre ce problème, Turtle [191] a identifié quatre formes canoniques de P (Q|T 1, T 2, . . . T n) : and, or , sum et wsum. Le modèle inférentiel bayésien a été mis en oeuvre dans le système Inquery [7]. Le cadre probabiliste dans lequel se situe Inquery peut être utilisé pour formuler des requêtes simples basées sur des mots clés, des requêtes booléennes, des requêtes basées sur des expressions ou bien une combinaison des trois types [42]. D’autres travaux ont été basés sur les réseaux bayésiens. Citons par exemple les ”belief networks” introduits par Ribeiro-Neto et Muntz [146], les travaux de Vogues [193] et ceux de Turtle [191]. 1.2.2.5 Les modèles de langage Dans les modèles de recherche classique, on cherche à mesurer la similarité entre un document Dj et une requête Q ou à estimer la probabilité que le document réponde à la requête (P (Dj /Q)). L’hypothèse de base dans ces modèles est qu’un document n’est pertinent que s’il ressemble à la requête. Les modèles de langage sont basés sur une hypothèse différente : un utilisateur en interaction avec un système de recherche fournit une requête en pensant à un ou plusieurs documents qu’il souhaite retrouver. La requête est alors inférée par l’utilisateur à partir de ces documents. Un document n’est pertinent que si la requête utilisateur ressemble à celle inférée par le document. On cherche alors à estimer la probabilité que la requête soit inférée par le document P (Q/Dj ) . En se basant sur ce principe d’indépendance des termes (l’apparition d’un terme n’influe pas la probabilité d’existence d’un autre terme dans le document ou dans la requête), P (Q/Dj ) peut être réécrite de manière simple en [143] : P (Q/Dj ) = n Y P (Ti /Dj ) i=1 Où n est le nombre de termes dans la requête et Ti est un terme de la Chapitre 1. Recherche d’Information Structurée 18 requête, (1 ≤ i ≤ n). Afin de pallier le problème des termes de la requête absents des documents, (ceci conduirait systématiquement à P (Q/Dj )=0), on combine deux modèles de langage : celui du document et celui de la collection. Etant donné une requête composée des termes T1 , T2 , ..., Tn , les documents sont ordonnés selon la mesure suivante [143] : n Y P (T1 , T2 , ..., Tn /Dj ) = (1 − λi )P (Ti ) + λi P (Ti /D) i=1 Cette mesure est une combinaison linéaire du modèle de document et du modèle de contexte du document (la collection), où : P (Ti /D) est la probabilité d’un terme important dans le modèle de document, P (Ti ) est la probabilité d’un terme dans le modèle de la collection et λi est une constante. 1.2.3 Reformulation de requêtes Il est souvent difficile, pour l’utilisateur, de formuler son besoin exact en information. Par conséquent, les résultats que lui fournit le SRI ne lui conviennent parfois pas. Retrouver des informations pertinentes en utilisant la seule requête initiale de l’utilisateur est toujours difficile, et ce à cause de l’imprécision de la requête. Afin de faire correspondre au mieux la pertinence utilisateur et la pertinence du système, une étape de reformulation de la requête est souvent utilisée. La requête initiale est traitée comme un essai (naı̈f) pour retrouver de l’information. Les documents initialement présentés sont examinés et une formulation améliorée de la requête est construite, dans l’espoir de retrouver plus de documents pertinents. La reformulation de la requête se fait en deux étapes principales : trouver des termes d’extension à la requête initiale, et repondérer les termes dans la nouvelle requête. La reformulation de la requête peut être interactive ou automatique. La reformulation interactive de la requête est la stratégie de reformulation de la requête la plus populaire [154] [21]. On la nomme communément réinjection de la pertinence ou ”relevance feedback” en anglais. Dans un cycle de réinjection de pertinence, on présente à l’utilisateur une liste de documents jugés pertinents par le système comme réponse à la requête initiale. Après les avoir Chapitre 1. Recherche d’Information Structurée 19 examinés, l’utilisateur indique ceux qu’il considère pertinents. L’idée principale de la réinjection de pertinence est de sélectionner les termes importants appartenant aux documents jugés pertinents par l’utilisateur, et de renforcer l’importance de ces termes dans la nouvelle formulation de la requête. Cette méthode a pour double avantage une simplicité d’exécution pour l’utilisateur qui ne s’occupe pas des détails de la reformulation, et un meilleur contrôle du processus de recherche en augmentant le poids des termes importants et en diminuant celui des termes non importants. Dans le cas de la reformulation automatique, l’utilisateur n’intervient pas. L’extension de la requête peut être effectuée à partir d’un thesaurus, qui définit les relations entre les différents termes de l’index et permet de sélectionner de nouveaux termes à ajouter à la requête initiale. Le thesaurus regroupe plusieurs informations de type linguistique (équivalence, association, hiérarchie) et statistique (pondération des termes). La construction du thesaurus se fait généralement pendant le processus d’indexation, et peut être automatique ou interactive. Parmi les thesaurus construits automatiquement, on peut citer un thesaurus basé sur les similarités [145], un thesaurus statistique [45], ou bien des mini-thesaurus construits seulement d’après la requête et à partir de techniques de clustering [10]. Enfin, dans le cadre de la reformulation automatique, on peut citer également la réinjection de pertinence automatique : c’est aussi ce qu’on appelle la réinjection de pertinence aveugle. Dans ce cas, on applique le même principe de la réinjection de pertinence mais en considérant les n premiers documents renvoyés par le système comme pertinents [41], [134]. On trouvera plus de détails sur la reformulation de requêtes dans le chapitre 2. 1.2.4 Evaluation L’évaluation constitue une étape importante lors de la mise en oeuvre d’un modèle de recherche d’information puisqu’elle permet de paramétrer le modèle, d’estimer l’impact de chacune de ses caractéristiques et enfin de fournir des éléments de comparaison entre modèles. 1.2.4.1 Mesures d’évaluation L’évaluation nécessite la définition d’un ensemble de mesures et de méthodes d’évaluation, ainsi que de collections de test assurant l’objectivité de l’évaluation. Chapitre 1. Recherche d’Information Structurée 20 Fig. 1.3 – Définition du rappel et de la précision Nous présentons dans ce qui suit les deux principales mesures d’évaluation : le rappel et la précision. Rappel et précision : Les taux de rappel et de précision sont les mesures les plus utilisées pour l’évaluation d’une recherche. Soient, comme illustré dans la figure 1.3 : – – – – P l’ensemble des documents pertinents pour une requête Q, S l’ensemble des documents retrouvés par le système, Sp l’ensemble des documents pertinents sélectionnés par le système et |X| le cardinal de l’ensemble X. Les taux de rappel et de précision sont définis comme suit : – Le taux de rappel est la proportion de documents pertinents qui ont été retrouvés : |Sp| (1.5) rappel = |P | – Le taux de précision est la proportion de documents retrouvés qui sont effectivement pertinents par rapport à l’ensemble des documents pertinents selon le système : precision = |Sp| |S| (1.6) Chapitre 1. Recherche d’Information Structurée 21 1,2 Précision 1 0,8 R1 R2 R1 (simplifiée) R2 (simplifiée) 0,6 0,4 0,2 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Rappel Fig. 1.4 – Courbes de rappel-précision pour deux requêtes R1 et R2 Courbe de Rappel-Précision On observe les performances des systèmes de recherche à travers des courbes de variation de la précision en fonction des points de rappel appelées courbes de Rappel-Précision. La figure 1.4 illustre des calculs de précision et de rappel sur deux requêtes différentes. Pour avoir une évaluation de la performance du système sur toutes les requêtes et non pas sur une seule, on calcule une précision moyenne à chaque niveau de rappel appelé MAP (Mean Average Precision). Pour ce faire, il faut unifier les niveaux de rappel pour l’ensemble des requêtes. On retient généralement 11 points de rappel standards, de 0 à 1 à pas de 0.1. Les valeurs de précision non obtenues à partir des valeurs de rappel sont calculées comme suit, par interpolation linéaire. Pour deux points de rappel, i et j, i < j, si la précision au point i est inférieure à celle au point j, on dit que la précision interpolée à i égale la précision à j. Formellement : p′i = max(pi , pj ), ∀i < j (1.7) où p′i est la précision interpolée au point de rappel i, et pi est la vraie précision au point de rappel i. Cette interpolation est encore discutable, mais présente un intérêt dans l’évaluation de SRI [163]. Le système parfait trouverait seulement les documents pertinents, avec une précision et un rappel de 100%. En pratique, les mesures de rappel et précision Chapitre 1. Recherche d’Information Structurée 22 évoluent inversement, ce qui signifie que le courbe interpolée de précision en fonction du rappel est décroissante. Plus la courbe est élevée, plus le système est performant. D’autres mesures ont été définies dans le cadre de TREC [194] afin d’évaluer les requêtes aux faibles performances : – (%n) le pourcentage des requêtes n’ayant pas de documents pertinents dans les 10 premiers documents retournés par le système. – area la surface au-dessous de la courbe de MAP. 1.2.5 Collections de référence Les mesures d’évaluation des SRI permettent certes de les comparer, mais encore faut-il que les évaluations soient faites sur les mêmes bases documentaires. De nombreux projets basés sur des corpus d’évaluation se multiplient depuis des années. On peut par exemple citer la Collection CACM ou la Collection ISI. La campagne d’évaluation TREC (Text Retrieval Conference), co-organisée par le NIST et la DARPA, a commencé en 1992. Elle a pour but d’encourager le recherche documentaire basée sur de grandes collections de test, tout en fournissant l’infrastructure nécessaire pour l’évaluation des méthodologies de recherche et de filtrage d’information. De plus amples informations sont disponibles sur le site : http ://trec.nist.gov . Pour chaque session de TREC, un ensemble de documents et de requêtes est fourni. Les participants exploitent leurs propres systèmes de recherche sur les données et renvoient à NIST une liste ordonnée de documents. NIST évalue ensuite les résultats. 1.2.6 Conclusion Dans cette section, nous avons présenté le processus de la Recherche d’Information dans le cadre de la RI traditionnelle. Cette dernière, comme nous l’avons vu, a pour but de restituer des documents pertinents dans leur totalité. L’utilisateur se trouve alors obligé de les parcourir pour trouver l’information souhaitée. L’apparition des documents structurés, de type XML par exemple, a apporté une nouvelle problématique et a conduit à de nouveaux objectifs liés à la manière d’exploiter les différentes caractéristiques de ce type de document. Le but des systèmes de recherche traitant des documents structurés ou semistructurés est de retourner les parties de documents qui satisfont les besoins de l’utilisateur. Grâce aux informations structurelles contenues dans les do- Chapitre 1. Recherche d’Information Structurée 23 cuments, l’utilisateur peut en outre exprimer ses requêtes en intégrant des contraintes sur le contenu ainsi que sur la structure de l’information recherchée. Avant de présenter les travaux effectués dans ce cadre, nous présentons dans la section suivante une brève description des document semi-structurés et détaillons les problématiques de la Recherche d’Information Structurée (RIS). 1.3 1.3.1 Documents semi-structurés et enjeux de la Recherche d’Information Structurée Documents semi-structurés La structure des documents est définie par des balises encadrant les fragments d’informations. Une balise (ou tag ou label ) est une suite de caractères encadrés par ”<” et ”>”, comme par exemple <nombalise>. Un élément est une unité syntaxique identifiée, délimitée par des balises de début < b > et de fin < /b >, comme par exemple <mabalise> mon texte </mabalise>. Les éléments peuvent être imbriqués comme le montre le document exemple de la figure 1.5, mais ne doivent pas se recouvrir. Les attributs des éléments sont intégrés à la balise de début en utilisant la syntaxe nomattribut=valeur. Par exemple, <mabalise monattribut=’mavaleur’>texte </mabalise>. Les formats SGML (Standard Generalized Markup Language) [70] et XML (eXtensible Markup Language) [1] permettent de produire des documents structurés ou semi-structurés. Les documents structurés possèdent une structure régulière, ne contiennent pas d’éléments mixtes (c’est à dire d’éléments contenant du texte ET d’autres éléments) et l’ordre des différents éléments qu’ils contiennent est généralement non significatif. Les documents semi-structurés quant à eux sont des documents qui possèdent une structure flexible et des contenus hétérogènes. La modification, l’ajout ou la suppression d’une donnée entraı̂ne une modification de la structure de l’ensemble. Dans notre contexte, nous nous intéressons plus particulièrement à la recherche d’information dans des documents semi-structurés, les documents structurés servant plutôt à conserver des données au sens bases de données. Par abus de langage, on parlera cependant de RI structurée. Le format XML nous permettra d’illustrer nos propos. Chapitre 1. Recherche d’Information Structurée 24 XML [1] est un langage standard pour l’échange des données semi-structurées. XML est en quelque sorte un langage HTML (Hyper Text Markup Language) amélioré permettant de définir de nouvelles balises et de structurer des documents. Le langage XML a la capacité de décrire n’importe quel domaine de données grâce à son extensibilité. Il permet de structurer, et de poser le vocabulaire et la syntaxe des données qu’il va contenir. Les balises XML décrivent le contenu plutôt que la présentation (contrairement à HTML). XML a été mis au point par le XML Working Group sous l’égide du Word Wide Web Consortium (W3C) dès 1996. C’est un sous ensemble de SGML, défini par le standard ISO8879 en 1986, utilisé dans le milieu de la Gestion Electronique Documentaire (GED). XML reprend la majeure partie des fonctionnalités de SGML, et il s’agit donc d’une simplification de SGML afin de le rendre utilisable sur le web. La DTD (Document Type Definition) associée au document décrit la structure générique du document : elle contient l’ensemble des balises qu’il est possible d’inclure, ainsi que des relations de composition entre ces balises. Contrairement à SGML, il n’est pas obligatoire d’associer une DTD à un document XML. Notons que l’on assiste aujourd’hui au développement d’une nouvelle forme de grammaire, qui permet de définir des éléments plus complexes et possède un typage des données plus riche, les XML-schémas [55]. Une classe de document possède donc une structure générique définie par la DTD (ou le schéma XML) alors qu’un document instance de cette classe possède une structure spécifique, exprimée par l’imbrication des éléments via leurs balises. On trouvera plus de détails sur le format XML ainsi que sur les technologies DOM et XPath associées en annexe A. Notons simplement que DOM (Document Object Model ) permet une représentation arborescente des documents et que XPath permet de naviguer au sein de la structure des documents. Nous présentons dans les sections suivantes les problématiques et solutions proposées dans la littérature pour la RI structurée. 1.3.2 Enjeux de la Recherche d’Information Structurée 1.3.2.1 Unité d’information recherchée Le but des systèmes de recherche d’information est d’apporter une réponse non nécessairement exacte (au sens base de données) aux besoins en information Chapitre 1. Recherche d’Information Structurée Fig. 1.5 – Exemple d’un document XML 25 Chapitre 1. Recherche d’Information Structurée 26 de leurs utilisateurs. Ces derniers s’intéressent rarement à une représentation ou à une structuration précise des collections consultées. S’ils sont capables de préciser leur requête parce qu’ils connaissent la ou les collections interrogées, les réponses fournies par le système ne devront être que plus précises. En recherche d’information traditionnelle, les SRI, tant dans leur modèle de représentation des données que dans les résultats qu’ils renvoient, traitent les granules des collections (documents) dans leur globalité. Les notions de documents logique et de document physique sont alors confondues. Cependant, un document possède souvent des contenus hétérogènes, et l’utilisateur doit alors aller chercher l’unité d’information pertinente à sa requête au milieu des autres thèmes abordés par le document. Une solution à ce problème serait de dissocier l’unité d’information logique renvoyé à l’utilisateur de l’unité d’information physique de la collection. Les documents semi-structurés, en permettant le balisage des contenus des documents, réactualisent cette problématique, et permettent ainsi de traiter l’information avec une granularité plus fine. Le but des SRI traitant des documents semi-structurés est alors d’identifier des parties des documents les plus pertinentes à une requête donnée. Ceci nous amène à affiner le concept de granule (unité d’information) renvoyée à l’utilisateur. Une unité d’information est un volume d’information auto-explicatif, c’est à dire que l’information contenue ne dépend pas d’une autre pour être comprise. Le but des SRI dans notre contexte est alors de renvoyer des unités d’information auto-explicatives à l’utilisateur, et non des points d’entrée dans les documents : les résultats renvoyés doivent se suffire à eux même. Dans le cadre des documents XML, l’unité d’information correspond à un noeud également appelé élément dans la suite du document. Chaque élément est évalué selon les deux notions suivantes : l’exhaustivité et la spécificité [36], [110]. On dit qu’une unité d’information est exhaustive à une requête si elle contient toutes les informations requises par la requête et qu’elle est spécifique si tout son contenu concerne la requête. Dans [36], on trouve ”le principe recherche dans les documents structurés” : un système devrait toujours renvoyer la partie la plus spécifique d’un document répondant à une requête. Cette définition suppose que le système sélectionne d’abord des documents entiers répondant de manière exhaustive à une requête, puis extrait de ces documents les unités d’informations les plus spécifiques. La plupart des SRI traitant des documents semi-structurés permettent une recherche directe des unités d’information sans passer au niveau de granularité document entier. Le principe de la recherche dans les documents semi-structurés pourrait donc être étendu ainsi : un système devrait toujours retrouver l’unité d’information exhaustive et spécifique répondant à une requête. Dans des cor- Chapitre 1. Recherche d’Information Structurée 27 pus de documents XML, chercher les nœuds les plus exhaustifs et spécifiques pour une requête revient donc à trouver les sous-arbres de taille minimale pertinents à la requête. De part leur structure, l’utilisateur interrogeant les corpus de documents XML peut formuler deux types de requêtes, selon sa connaissance du corpus : – des requêtes portant sur le contenu seul des unités d’information : ces requêtes sont composées de simples mots clés, et l’utilisateur laisse le SRI décider de la granularité de l’information à renvoyer. – des requêtes portant sur la structure et le contenu des unités d’information, dans lesquelles l’utilisateur spécifie des besoins précis sur certains éléments de structure. Dans ce type de requête, l’utilisateur peut utiliser des conditions de structure pour indiquer le type des éléments qu’il désire voir renvoyer, mais aussi plus simplement pour préciser ses besoins. Afin de permettre ces différentes recherches, les techniques de la recherche d’information traditionnelle doivent être adaptées ou de nouvelles méthodes doivent être proposées pour l’indexation, l’interrogation ou encore la recherche et le tri des unités d’information. Avant de détailler ces différentes problématiques dans la section suivante, citons le travaux effectués dans [80] pour définir les caractéristiques des unités d’information les plus appropriées. Les auteurs se sont basés sur une analyse de structure (nombre d’élément dans un document, chemin des éléments, nombre des mots dans chaque élément,...), une analyse du contenu (fréquence des mots dans des éléments, leurs poids) et des statistiques. Ils ont défini le Ratio du type des mots comme le rapport entre le nombre de types de mots dans un élément et le nombre total de mots. Si le Ratio est élevé, l’unité n’est pas informative. Ils ont également considéré une taille seuil pour définir l’unité informative. Ce problème a été aussi traité au niveau de la recherche dans [83]. L’inconvénient principal de ces travaux est qu’ils peuvent difficilement se généraliser à d’autres collections. 1.3.2.2 Problématiques spécifiques de la RI structurée La problématique dans le cadre de l’indexation se situe essentiellement au niveau de l’information structurelle. Dans le cas des documents plein-texte, le Chapitre 1. Recherche d’Information Structurée 28 contenu textuel est traité afin de trouver les termes les plus représentatifs des documents. Dans ce cas des documents semi-structurés, la dimension structurelle s’ajoute au contenu, et les questions suivantes se posent alors : – quelle unité doit-on indexer de la structure des documents ? – comment relier cette structure au contenu même du document ? – en fonction de quelle dimension (niveau élément, documents, collection) doit-on pondérer les termes d’indexation ? Considérons à présent l’interrogation des documents. Il s’agit ici de permettre à l’utilisateur d’exprimer des besoins diversifiés (concernant le contenu des documents et/ou la structure), et ce de manière simple. La dernière problématique concerne les modèles de recherche et de tri des unités d’information. La problématique traditionnelle liée à l’évaluation de la pertinence d’une information vis-à-vis d’une requête reste d’actualité, mais elle se complique et implique d’autres questions dans le cadre des documents XML, notamment en ce qui concerne la structure. Les requêtes orientées contenu, qui sont de loin les plus simples pour l’utilisateur, imposent au SRI de décider la granularité appropriée de l’information à renvoyer, et donc d’évaluer l’exhaustivité et la spécificité des éléments. Dans le cadre des requêtes orientées contenu et structure, deux cas sont possibles. Tout d’abord, l’utilisateur peut spécifier le type des éléments à renvoyer par le système. Dans ce cas la dimension de spécificité n’a plus réellement de sens, puisque l’utilisateur précise la granularité de l’information qu’il désire. Cependant, le contenu des éléments de structure ainsi que les expressions de chemins présentes dans la requête doivent pouvoir être traitées de manière vague. En d’autres termes, la pertinence des informations structurelles doit pouvoir être évaluée, et l’arbre de la requête et l’arbre du document doivent pouvoir être comparés de façon non stricte. Le second cas concerne les requêtes pour lesquelles l’utilisateur exprime des conditions sur la structure des documents, mais sans préciser ce qu’il cherche exactement. Si le problème de l’évaluation de la pertinence des informations structurelles se pose de nouveau, vient s’y ajouter, comme dans les requêtes orientées contenu, celui de la granularité de l’information à renvoyer. 1.3.3 Principales stratégies en recherche d’information structurée La notion de recherche de granules de documents a été déjà développée dans la recherche de passage [200], [208], [104],[26] dont le but est de retrouver des passages pertinents dans le texte des documents. Ces approches proposent de Chapitre 1. Recherche d’Information Structurée 29 renvoyer une partie de document en se basant sur un découpage physique du document. L’application de la recherche de passage est limitée aux documents texte ayant des tailles homogènes. De nombreuses approches ont été développées pour traiter spécifiquement la recherche d’information dans des corpus de documents semi-structurés. On distingue deux différentes stratégies : 1. Les approches basées sur la modélisation des données. Le but est de développer des modèles de données permettant la représentation et l’interrogation en tenant compte à la fois du contenu et de la structure [5], [125], [189]. Dans ce cas, les documents XML sont considérés comme une base de données, dont les champs correspondraient aux éléments et attributs définis dans la DTD (ou le schéma) des documents. Des modèles de recherche ont été développés par la communauté des Bases de Données (BD). Au niveau de l’indexation, la communauté BD procède de manière à ce que toutes les informations textuelles et structurelles des documents soient stockées au sein de tables de bases de données. Des langages de requêtes associés ont été proposés par la communauté BD. Ils sont généralement liés à la syntaxe du langage SQL tout en permettant de spécifier des contraintes sur la structure des documents. Au niveau de l’appariement, la pertinence est généralement calculée d’une manière booléénne. De ce fait, seuls les éléments qui répondent exactement à la requête sont renvoyés. 2. Les approches basées sur l’agrégation de représentation ou de pertinence. La pertinence des parties de documents est calculée par agrégation des représentations ou de la pertinence de leur propre contenu ou par agrégation des pertinences des parties auxquelles elles sont reliées [110], [106], [107]. Dans ce cas, les documents XML sont considérés comme un ensemble de documents semi-structurés où les balises servent uniquement à décrire la structure logique des documents. Cette approche a été prise en charge par la communauté de la Recherche d’Information. Les mêmes techniques d’extraction des termes et d’indexation que de la RI classique sont maintenues pour l’indexation de l’information textuelle. D’autres approches spécifiques sont développées pour indexer l’information structurelle. Quant aux langages de requêtes, ils restent beaucoup plus simples que ceux proposés en BD en se rapprochant du langage naturel avec une extension pour exprimer les contraintes structurelles. En RI, les résultats renvoyés à l’utilisateur sont triés selon le degré de similarité. Bien que les stratégies orientées BD et orientées RI s’avèrent différentes au niveau de l’indexation, de l’interrogation et de l’appariement requête-élément, Chapitre 1. Recherche d’Information Structurée 30 des modèles hybrides ont été développés [121]. Quelle que soit la manière d’interpréter les documents, les deux communautés, RI et BD doivent résoudre des problématiques liées à l’indexation de l’information textuelle et structurelle, ainsi que fournir des langages d’interrogation permettant l’expression de contraintes sur le contenu et la structure des éléments. 1.4 Indexation et langages de requêtes 1.4.1 Indexation de documents semi-structurés L’indexation permet de représenter les documents de manière à faciliter la recherche et de la rendre plus efficace. En RI structurée, l’objectif de l’indexation n’est plus seulement de stocker l’information textuelle mais aussi l’information structurelle et de pouvoir présenter les relations entre les deux types d’information. De ce fait, un schéma d’indexation de document XML devrait principalement permettre la reconstruction du document XML décomposé dans des structures de stockage et la recherche par mot clé et par expressions de chemin sur la structure XML. L’indexation des documents semi-structurés est caractérisée alors par le schéma de stockage des documents, et les types de transformation possible entre les documents XML et les structures de stockage [73]. Un schéma de stockage peut être conçu soit selon des approches orientées Système de Gestion de Bases de Données soit selon des modèles de stockages XML natifs qui permettent le stockage des documents complets ou des parties de documents dans des fichiers et ne réalisent pas de transformation en tables (cas des SGBD relationnels). Les approches de transformation (mapping) entre les documents XML et les structures de stockage [205] sont généralement basées soit sur un modèle où l’index est fixe et connu à l’avance [115], [57], [75], [118], soit sur la structure logique des documents XML (ou leur schéma) : la structure d’index varie alors selon les collections. Dans ce cas la construction du schéma d’index se fait automatiquement, en prenant en compte la sémantique de l’application [54], [19], [50]. Un index en RI structurée est alors composé d’une part d’une description Chapitre 1. Recherche d’Information Structurée 31 des termes et leurs relations avec les unités structurelles et d’autre part d’une description de l’information structurelle traduite par des relations de hiérarchie. 1.4.1.1 Indexation de l’information textuelle L’indexation de l’information textuelle, c’est-à-dire l’extraction et la pondération des termes, est similaire à la RI classique. Sa spécificité dans les documents semi-structurés et notamment les documents XML, réside dans la description des relations entre les termes et l’information structurelle : c’est ce qu’on appelle la ”portée des termes d’indexation”. Portée des termes d’indexation Pour relier les termes à l’information structurelle, deux solutions ont été proposées dans la littérature : une qui procède de manière à agréger le contenu des nœuds (on parle de sous-arbres imbriqués) et une deuxième qui indexe tous les contenus des nœuds séparément (unités disjointes) : – sous-arbres imbriqués : On considère que le contenu de chaque noeud de l’index est une unité atomique [6], [174], [102]. Les termes des nœuds feuilles sont donc propagés dans l’arbre des documents. Comme les documents XML possèdent une structure hiérarchique, les nœuds de l’index sont imbriqués les uns dans les autres et par conséquent, l’index contient des informations redondantes. Dans [129], Mass et al. ont considéré que seuls quelques types de nœud sont informatifs (dans la collection d’INEX 2005, ils ont par exemple sélectionné : article, paragraphe (p), section (sec), sous-section (ssec)). Un sous-index est ensuite construit pour chaque type de noeud. L’index est l’ensemble des sous index associés. – unité disjointes : Dans ces approches, le document XML est décomposé en unités disjointes, de telle façon que le texte de chaque noeud de l’index est l’union d’une ou plusieurs parties disjointes [135], [61], [66], [107], [155], [9]. Les termes des nœuds feuilles sont uniquement reliés à un et un seul noeud. Une fois les unités d’indexation spécifiées, il reste à pondérer les termes. Cette tâche est une adaptation des fonctions de pondération déjà proposées en RI classique. Pondération des termes d’indexation En réalité, le problème de pondération n’est traité que dans les approches orientées recherche d’information. Les approches orientées BD se contentent de Chapitre 1. Recherche d’Information Structurée 32 stocker le texte des documents sous forme de chaı̂nes de caractères. Des processus similaires à ceux de la RI traditionnelle ont été adaptés dans les approches orientées RI. Par analogie à la mesure idf [207], [71], des auteurs [201], [75] ont proposé d’utiliser la mesure ief (Inverse Element Frequency). Dans [206], Zargayouna et al. ont adapté la mesure tf-idf (Term Frequency- Inverse Document Frequency) pour l’appliquer au niveau des unités d’indexation de manière à ce que le calcul des poids des termes tienne compte du contexte (élément) dans lequel ils apparaissent. Les auteurs ont défini ainsi tf-itdf (Term Frequency- Inverse Tag and Document Frequency), qui permet de calculer la force discriminatoire d’un terme dans un élément (caractérisé par une balise) relatif à un document. Le calcul du poids d’un terme peut tenir compte non seulement de son importance dans l’élément dans lequel il apparait mais en outre de son importance dans le contenu du noeud même, dans le contenu de ses descendants, dans le contenu de ses voisins directs et dans le contenu des nœuds auquel il est relié [107]. Dans ce dernier article, le calcul est effectué par l’opérateur d’agrégation OWA [204]. Que ce soit pour reconstruire les chemins des éléments ou pour répondre aux contraintes structurelles spécifiées dans une requête, il est nécessaire d’indexer l’information structurelle de manière à avoir une description complète de chaque élément. 1.4.1.2 Indexation de l’information structurelle Différentes approches ont été proposées dans la littérature pour indexer l’information structurelle selon des granularités variées [122]. On distingue trois types d’approches pour l’indexation de l’information structurelle : – Indexation basée sur des champs [76] Il s’agit de la méthode d’indexation semi-structurée prenant en compte la structure la plus simple. Un document est représenté comme un ensemble de champs (par exemple : titre, auteur, abstract) et de contenu associé à ces champs. Pour permettre une recherche restreinte à certains champs, les termes de l’index sont construits en combinant le nom du champ avec les termes du contenu. – Indexation basée sur des chemins Les techniques basées sur les chemins [103], [94] ont pour but de retrouver rapidement des documents ayant des valeurs connues pour certains éléments ou attributs. Il s’agit aussi de faciliter la navigation de façon à résoudre efficacement des expressions XPATH et d’utiliser des index pleins textes sur les contenus. En conséquence les solutions proposées utilisent des index de che- Chapitre 1. Recherche d’Information Structurée 33 mins donnant pour chaque valeur répertoriée d’un chemin de balises la liste des documents contenant un élément atteignable par ce chemin et ayant cette valeur. Dans ces approches, il est difficile de retrouver les relations ancêtresdescendants entre les différents nœuds des documents. – Indexation basée sur des arbres Les nœuds d’un arbre sont numérotés dans l’index de façon à pouvoir reconstruire la structure arborescente des documents. Cette approche a été adaptée dans plusieurs systèmes de recherche, parmi lesquels citons [115], [57], [98], [173], [167]. Dans l’index ANOR (inverted index for All NOdes without Replication)[115], les documents structurés sont agrégés en un seul arbre interprété ensuite comme un k-arbre virtuel : pour chaque noeud, il existe un identifiant unique (UID). Dans le cas du système XFIRM [167], pour chaque document, un noeud est identifié par les 2 valeurs de pré-ordre1 et post-ordre 2 qui permettent de retrouver les relations de hiérarchie entre les différents nœuds. 1.4.2 Langages de requêtes Comme nous l’avons vu précédemment, lorsqu’ils s’interrogent des collections de documents semi-structurés, les utilisateurs devraient pouvoir exprimer leurs besoins selon deux catégories de requêtes : 1. des requêtes composées de simples mots clés comme en RI. C’est le cas lorsque les utilisateurs n’ont pas d’idée précise de ce qu’ils recherchent ou n’ont pas de connaissance concernant la structure des documents. 2. des requêtes composées de contraintes sur le contenu (donc de mots clés) et de contraintes structurelles. C’est le cas lorsque les utilisateurs ont au moins une connaissance partielle de la structure de la collection qu’ils interrogent. La majorité des langages de requêtes proposés dans la littérature sont issus de la communauté des bases de données. D’une manière générale, les langages de requêtes doivent supporter à la fois des contraintes portant sur le contenu et sur la structure. De plus l’intégration de fonctions des systèmes documentaires nécessite la prise en compte de requêtes par liste de mots clés du type : CONTAINS(<élément>, collection de mots clés) 1 Un parcours préfixé permet d’assigner à chaque noeud visité une valeur croissante de préordre avant que ses nœuds descendants ne soient aussi récursivement visités de gauche à droite. 2 D’une manière inverse, la valeur de post-ordre d’un noeud lui est assignée lors d’un parcours postfixé, c’est à dire une fois que tous ses nœuds descendants ont été visités de gauche à droite. Chapitre 1. Recherche d’Information Structurée 34 Dans ce qui suit nous présentons brièvement quelques langages de requêtes adaptés à XML. 1.4.2.1 XQuery XQuery [56] est un langage de requête pour XML proposé par le W3C. Il se base sur XPath pour extraire et travailler sur des fragments de documents XML. Les requêtes basiques de XQuery sont identiques à celles définies par XPath. Si l’on désire faire des requêtes simples, XPath peut donc parfaitement suffire. XQuery est intéressant dès le moment où l’on désire faire des requêtes complexes ou encore faire appel à la récursivité. XQuery peut être perçu comme un sur-ensemble de SQL. Les fonctionnalités de SQL sur les tables (collection de tuples) sont étendues pour supporter des opérations similaires sur les forêts (collection d’arbres). Ces extensions ont conduit à intégrer les fonctions suivantes : projection d’arbres sur des sous-arbres, sélections d’arbres et de sous-arbres en utilisant des prédicats sur les valeurs des feuilles, utilisation des variables dans les requêtes pour mémoriser un arbre ou itérer sur des collections d’arbres extraits de collection en utilisant des jointures d’arbres, ré-ordonnancement des arbres, imbrication de requêtes, calcul d’agrégats, utilisation possible de fonctions utilisateur. De plus, XML étant fait pour gérer des documents, XQuery supporte les fonctions des systèmes documentaires : en particulier, un prédicat CONTAINS est intégré pour la recherche par mots-clés. On trouvera ci-dessous un exemple simple d’une requête XQuery qui retourne les numéros de téléphone de toutes les personnes habitant à Toulouse : For $P in (”annuaire.xml”)//Personne Where $P/Adresse/Ville=”Toulouse” return $P/Téléphone 1.4.2.2 XQL Une motivation importante pour la conception de XQL [2] est la réalisation que XML a son propre modèle implicite de données, qui n’est ni celui des bases de données relationnelles traditionnelles ni de celui des bases de données orientées objet. Le langage XQL est étroitement lié à XPath, et sa formulation originale a été basée complètement sur la structure arborescente des documents XML : hiérarchie, ordre et position. Dans les instruction de XQL, une simple chaı̂ne de caractère est interprétée comme nom d’un élément. Chapitre 1. Recherche d’Information Structurée 35 Les chemins sont toujours décrits à partir de la racine vers le bas et l’élément retourné est celui à l’extrême droite du chemin. Le contenu d’un élément ou d’un attribut peut être décrit en utilisant l’opérateur(=). L’opérateur de descendance (//) indique tous les niveaux intervenants. L’opérateur de filtrage ([ ]) filtre l’ensemble de nœuds vers sa gauche basée sur les conditions à l’intérieur des parenthèses. Plusieurs conditions peuvent être combinées en utilisant les opérateurs booléens. On trouvera ci-dessous un exemple d’une requête XQL qui renvoie tous les restaurants 3 étoiles dont un élément descendant Ville contient pour valeur Paris : //Restaurant ? (@catégorie[text()=”***”])/Ville [text()= ”Paris ”] 1.4.2.3 NEXI NEXI [190] est un langage d’interrogation développé dans le cadre de la campagne d’évaluation pour la recherche dans les documents XML INEX (INiative for the Evaluation of XML REtrieval ). Il a été conçu pour permettre une représentation simple mais efficace des besoins de l’utilisateur. La syntaxe de NEXI est semblable à XPATH. On utilise la syntaxe pour designer le descendant et rajoute une clause ”about” pour fournir l’information en question. NEXI peut également supporter des spécifications plus complexes en utilisant les parenthèses ainsi que les opérateurs booléens. L’exemple de requête ci-dessous renvoie une section (sec) qui est descendant d’un élément article et qui contient un descendant paragraphe (p) qui parle de ”computer” : //article //sec[about(.//p,Computer)] 1.4.2.4 XOR XOR [69] est un langage de requêtes totalement compatible avec les spécifications du langage NEXI. L’avantage majeur qu’il représente est principalement la possibilité de combiner plusieurs requêtes en une seule. Il permet également une meilleure élaboration des spécifications de chemins et des termes ainsi qu’un ensemble plus large de correspondance des informations recherchées. L’exemple ci-dessous renvoie un article dont l’auteur est ”Einstein” de l’année ”1905” qui parle d’”éléctrodynamics”. //article[about(.//year,1905) Chapitre 1. Recherche d’Information Structurée 36 AND about(.//author, Einstein) AND about(.//*, electrodynamics)] 1.4.2.5 Autres langages d’interrogation Il existe de nombreux autres langages d’interrogation. Parmi eux citons XML-QL [117], Quilt [33], XML-GL [32], XIRQL [61], Tequyla-TX [39] ou Tex-Query[8]. Notons simplement que nombreuses sont les spécifications de langages mais rares sont les implémentations. 1.5 Appariement élément-requête Nous nous intéressons dans cette section aux approches orientées RI où une valeur de similarité par rapport à une requête donnée est calculée pour chaque élément. Les modèles classiques de RI ont été adaptés tout en tenant compte de la dimension structurelle. Ces modèles permettent une recherche des composants des documents en partant soit des requêtes structurées soit des requêtes composées de simples mots clés. D’une manière générale, indépendamment des modèles de recherche, nous distinguons deux types d’appariement élément-requête : 1. Un appariement qui s’effectue au niveau des éléments restitués grâce à une propagation de termes qu’ils soient pondérés ou non. 2. Un appariement qui s’effectue au niveau de la plus petite unité d’indexation. Dans ce cas les éléments sont restitués grâce à une propagation de pertinence. Dans ce qui suit nous présentons différents modèles en fonction de modèle de base de la RI qu’ils étendent. Notons simplement à titre d’illustration que : – Dans le cadre du modèle vectoriel étendu, les approches présentées dans [129], [126] et [44] utilisent une propagation de termes et que dans [68], [9] et [93], il s’agit de propagation de pertinence. – Dans le cadre du modèle booléen pondéré, les approches de [188] et [111] utilisent une propagation des termes. – Les adaptations du modèle probabiliste ([110], [67]), du modèle inférentiel ([142] et [109]) et les modèle de langage ([136], [81], [102] et [174]) fonctionnent également grâce à une propagation des termes. Chapitre 1. Recherche d’Information Structurée 37 Enfin, le modèle XFIRM [166] développé dans notre équipe et nous avons étendu pour la réinjection de pertinence utilise la propagation de pertinence. On trouvera une description détaillée du modèle dans le chapitre 4 section 4.2.1. 1.5.1 Modèle vectoriel étendu Le modèle vectoriel étendu est une extension du modèle vectoriel proposé en RI traditionnelle, dans lequel l’information structurelle est séparée du contenu [129, 126, 127]. Mass et al. [129] ont proposé un système de recherche où le score d’un terme ti dans un document D, wD (ti ), est exprimé par le produit tf ∗ idf et la pertinence d’un document pour une requête donnée est calculée selon l’équation suivante : ρ(Q, D) = P ti ∈Q S D wQ (ti ) ∗ wD (ti ) (1.8) ||Q|| ∗ kDk Avec ||Q|| et ||D|| sont respectivement les normes des vecteurs de la requête Q et du document D. Pour chaque terme de la requête (ti , ci ), (ti est le terme, ci est le contexte du terme (i.e. le chemin de l’élément où apparaı̂t le terme ti ) on calcule son poids dans la requête wQ (ti , ci ), son poids dans un contexte similaire dans le document wD (ti , ck ), ainsi que la similarité entre les contextes cr(ci , ck ) où 1 + |ci | (1.9) cr(ci , ck ) = 1 + |ck | avec |ci | est le nombre de balises dans un contexte donné de la requête et |ck | est le nombre des tags dans un contexte donné d’un document. La formule précédente est par la suite étendue pour mesurer les similarités entre les fragments XML et le document. La formule mesurant la pertinence d’un document est la suivante : P P (ti ,ci )∈Q (ti ,ck )∈D wQ (ti , ci ) ∗ wD (ti , ck ) ∗ cr(ci , ck ) ρ(Q, D) = (1.10) ||Q|| ∗ kDk Les auteurs ont considéré par la suite une autre méthode de mesure de similarité entre document et requête en considérant que les différents contextes ck sont d’égale similarité avec le contexte de la requête. La formule appliquée est alors la suivante : P (ti ,ci )∈Q wQ (ti ) ∗ wD (ti ) ∗ w(ci ) ρ(Q, D) = (1.11) ||Q|| ∗ kDk où w(ci ) = 1 + |ci | est le poids du contexte ci . Chapitre 1. Recherche d’Information Structurée 38 En 2003, Mass et al. [126] proposent de distinguer les composants d’un document, ce qui conduit à considérer six différents index (article, sec, ss1, ss2, p, ip1 et abs) et à appliquer sur chacun le processus de recherche tout en adaptant le tf, idf au niveau des composants. Pour éviter la redondance des résultats, les auteurs ont proposé un algorithme de classification basé sur la comparaison des scores des nœuds avec ceux de leurs descendants et selon un seuil déjà fixe, on décide d’éliminer l’un des groupes. De plus, pour surmonter le problème des index de différentes caractéristiques, les auteurs ont proposé la notion de pivot pour avoir un nouveau score au niveau de chaque composant C calculé comme suit : score(Q, C) = DocP ivot ∗ Sa + (1 − DocP ivot) ∗ Sc (1.12) avec DocPivot une constante entre 0 et 1, Sa le score du document auquel appartient le composant et Sc le score propre du Composant. L’algorithme de recherche est alors le suivant : 1. Le système effectue des recherches indépendantes au niveau de chaque sous index i. Le résultat de chaque recherche est l’ensemble Ri . 2. Tous les les résultats issus des différentes recherches sont normalisés dans [0,1]. 3. Le score final de différents résultats est calculé en fonction du score de l’article. La liste des résultats finale est la combinaison de tous les résultats Ri Une autre extension du modèle vectoriel est développée par Crouch et al. dans [44] en considérant un ensemble de sous vecteurs repésentant de différents niveaux de granularité. Dans le cas des requêtes comportant plusieurs contraintes structurelles, le résultat final est l’intersection des résultats issus des recherches effectuées au niveau des sous-index correspondant aux contraintes structurelles. Les requêtes non structurées sont traitées selon Smart [176] en considérant un seul index (article ou paragraphe). Dans [68], Geva a proposé un modèle simple donnant très bons résultats pendant les campagnes d’évaluation INEX 2003 et INEX 2004. Ce modèle est basé sur un fichier inverse pour l’indexation d’un document XML. La recherche est réalisée par propagation des scores des éléments feuilles. Ces derniers sont calculés comme suit : n X ti n−1 L=N (1.13) f i=1 i avec N un entier faible=5 ; n : nombre de termes de la requête qui existent dans le noeud n. Chapitre 1. Recherche d’Information Structurée 39 ti : fréquence du ieme terme de la requête dans le noeud n. fi : fréquence du ieme terme de la requête dans la collection. N n−1 : augmente le score des éléments ayant plusieurs termes de la requête. La pertinence R des nœuds internes est calculée par la somme des différents descendants : n X R = D(n) Li i=1 avec Li est le score du i eme élément retourné et D(n)=0.49 si n=1 et 0.99 sinon. Enfin, on trouvera d’autres approches utilisant le modèle vectoriel étendu dans [9], [31], [44], [101], [125], [127], [129], [126], [170], [185], [198], [93], [72]. 1.5.2 Modèle booléen pondéré Le modèle booléen a été étendu avec un nouvel opérateur binaire non commutatif, appelé ”contains” [188]. La première opérande est de type XPath et la seconde est une expression booléenne. Ce modèle permet aux requêtes d’être complètement spécifiées en termes de contenu et d’information structurée, basée sur XPath. La recherche consiste à extraire le titre et le convertir en requête booléenne, les éléments considérés comme pertinents sont par la suite classés selon la somme OkapiBM25 [149]. Dans [111], Larson et al. utilisent dans une combinaison de méthodes probabilistes utilisant une régression logistique avec une approche basée sur le modèle booléen, pour évaluer la pertinence des documents et des éléments. La valeur de probabilité de pertinence R d’un composant C (élément) est calculée comme étant le produit des probabilités de la pertinence de C vis-à-vis la requête Qbool présentée par un modèle booléen et de la pertinence de C vis-à-vis la requête Qprob présentée par un modèle probabiliste. La formule est présentée ci-dessous : p(R|Q, C) = P (R|Qbool , C)P (R|Qprob , C) Cette combinaison permet de restreindre l’ensemble des documents pertinents aux documents ayant une valeur booléenne égale à 1 tout en leur attribuant un rang basé sur un calcul probabiliste. Ces deux types d’extension permettent de surmonter les limites des modèles booléens au niveau du tri des résultats. 1.5.3 Modèle probabiliste Pour étendre le modèle probabiliste inférentiel aux documents XML, les probabilités doivent tenir compte de l’information structurelle. Une approche Chapitre 1. Recherche d’Information Structurée 40 est d’utiliser des probabilités conditionnelles sur les chemins des documents, avec par exemple P (d|t) devenant P (d|p contains t), où d représente un document ou une partie de document, t est un terme et p est un chemin dans l’arbre structurel de d. Une méthode d’augmentation basée sur le modèle probabiliste est proposée par Fuhr et al. dans [61, 67]. Cette méthode est basée sur le langage de requêtes XIRQL, et a été implémentée au sein du moteur de recherche HyRex. Dans cette approche, les noeuds sont considérés comme des unités disjointes (section 1.4.1.1). Tous les noeuds feuilles ne sont cependant pas indexés (car d’une granularité trop fine). Dans ce cas-là les termes sont propagés jusqu’au noeud indexable le plus proche. Afin de préserver des unités disjointes, on ne peut associer à un noeud que des termes non reliés à ses noeuds descendants. Le poids de pertinence des noeuds dans le cas de requêtes orientées contenu est calculé grâce à la propagation des poids des termes les plus spécifiques dans l’arbre du document. Les poids sont cependant diminués par multiplication par un facteur, nommé facteur ”d’augmentation”. Par exemple, considérons la structure de document de la figure 1.6, contenant un certain nombre de termes pondérés (par leur probabilité d’apparition dans l’élément), et la requête ”XML”. Fig. 1.6 – Modèle d’augmentation [61] Le poids de pertinence de l’élément section est calculé comme suit, en utilisant un facteur d’augmentation égal à 0.7 : P([section, XML])+ P([paragraphe[2]]). P([paragraphe[2], XML) - P([section, XML]).P([paragraphe[2]]).P([paragraphe[2], XML) = 0.5 + 0.7*0.8 - 0.5*0.7*0.8=0.68 . Le noeud paragraphe (ayant une pertinence de 0.8 à la requête) sera donc mieux classé que le noeud section. Pour les requêtes orientées contenu et structure, des probabilités d’apparition de chaque terme de la condition de contenu dans les éléments répondant aux conditions de structure sont calculées, et des sommes pondérées de ces probabilités sont ensuite effectués. Chapitre 1. Recherche d’Information Structurée 41 On trouvera une autre application du modèle probabiliste dans [110], avec une application de la théorie de Dempster-Shafer [172]. La théorie de l’évidence de Dempster-Shafer est utilisée principalement parce qu’elle possède une règle de combinaison permettant d’effectuer une agrégation du score de pertinence des éléments en respectant la théorie de l’incertain. 1.5.4 Modèle inférentiel Dans la recherche d’information dans des documents XML, les diagrammes d’inférence ont été adaptés pour exprimer les relations de causalité entre termes et structures. Parmi les travaux les plus récents, citons celui Piworwarski et al. [142]. Les auteurs ont proposé un modèle probabiliste basé sur les réseaux bayésiens où les dépendances de hiérarchisation sont exprimées par des probabilités conditionnelles. La probabilité de pertinence d’un élément e sachant son parent p pour une requête q est P (e|p, q) est la suivante : P (e = a|p = b, q) ≃ 1 1 + eFe,a,b(q) (1.14) où, Fe,a,b(q) est la pertinence de l’élément e selon le modèle Okapi. Une requête q structurée est décomposée en un ensemble de n sous-requêtes élémentaires qi . Chacune de ces sous-requêtes reflète une entité structurelle et un besoin d’information. Le score final est donné par la formule suivante : RSV (ei , q) = RSVq1 (ei , q) ∗ ...RSVqn (ei , q) De Compos, Fernandez et Huete [109] ont également proposé un modèle de recherche basé sur les réseaux bayésiens où le diagramme d’inférence est basé sur la probabilité conditionnelle. Deux types de diagrammes sont proposés : SID (Simple Inference Diagram) et CID (Context based Inference Diagram). Un diagramme se compose de deux parties : une partie qualitative et une partie quantitative. – Le composant qualitatif est la représentation des variables et des influences. Ceci est réalisé par les différents types de nœud : noeud de chance, noeud de décision et noeud d’utilité. Dans ce modèle les arcs pointent vers les nœuds de chance et d’utilité seulement. Dans SID, les nœuds de chance et de décision sont liés aux nœuds de l’utilité qui seront additionnés à la fin. Dans CID, on rajoute par rapport à SID des arcs provenant des nœuds de chance vers les nœuds d’utilité qui leurs sont au dessus par rapport à l’arborescence. Chapitre 1. Recherche d’Information Structurée 42 – Le composant quantitatif est la probabilité des nœuds de chance et des nœuds d’utilité variant entre 0 et 1. 1.5.5 Modèles de langage Un modèle de langage en recherche d’information dans des documents XML est proposé dans [135]. L’idée est de combiner différents modèles de langage en appliquant l’interpolation linéaire. Sigurbjornsson et al. ont proposé dans [174] un modèle combinant des modèles de langage de l’élément, du document et de la collection. Pour estimer les modèles de langage, les auteurs ont utilisé deux types d’index : un index pour les éléments du document XML qui assure la même fonction qu’un fichier inverse en RI classique et un autre (index article) pour tout le document utilisé pour des calculs statistiques. L’arbre XML est indexé en se basant sur le post et le pre-ordre des nœuds. Pour chaque élément e, on estime le modèle de langage (score) pour une requête donnée q selon la formule suivante : P (e|q) ∝ P (e).P (q|e) (1.15) Les auteurs considèrent l’indépendance entre les termes de la requête et la formule précédente devient alors : P (e|q) ∝ P (e). k Y P (ti |e) (1.16) i=1 avec ti terme de la requête. La probabilité de P (ti |e) est une interpolation linéaire des trois modèles de langage (élément, article et collection) : P (ti |e) = λe .Pmle (ti |e) + λd .Pmle (ti |d) + (1 − λe − λd ).Pmle (ti ) (1.17) avec Pmle (ti |e) est la probabilité de ti dans le modèle de langage de l’élément estimée par les statistiques à partir de l’index des éléments, Pmle (ti |d) est la probabilité de ti dans le modèle de langage du document estimée par les statistiques à partir de l’index article et Pmle (ti ) est la probabilité de ti dans le modèle de langage de la collection. λe et λd sont des constantes. On trouvera d’autres applications des modèles de langages à la RI structurée dans [143], [22], [81], [102]. Chapitre 1. Recherche d’Information Structurée 1.5.6 43 Autres modèles de recherche D’autres modèles ont été proposés pour la recherche dans des documents XML. Ils ont été conçu de manière à calculer la pertinence d’un élément en tenant compte à la fois de la pertinence du contenu et celle de la structure des éléments à renvoyer. Dans [186], Trotman a proposé d’attribuer des degrés d’importance pour chaque structure du document et de remplacer le tf par la fréquence du terme en tenant compte du poids de la structure. Dans le modèle vectoriel une telle approche se traduit dans le calcul de fréquence d’un terme en remplaçant la formule tfid = n X tfipd p=1 par la formule tfid′ = n X (Cp ∗ tfipd ) p=1 où tfipd est le nombre d’occurrences du terme t à la position p du document d. Cp est le poids de chaque structure du document qui doit être fixé. Cette méthode d’indexation et de recherche des données structurées permet de donner un poids aux structures. Un algorithme génétique est employé pour l’apprentissage des poids. Une approche d’agrégation est appliquée dans [106] pour déterminer le poids d’un composant tout en respectant à la fois la représentation d’un document et ses composants. Elle suit la structure hiérarchique et la structure linéaire des documents. L’agrégation est aussi appliquée au niveau de l’indexation et du calcul d’incertitude de la représentation des nœuds. Le résultat est une liste de composants de documents représentant des meilleurs points d’entrée dans les documents. 1.5.7 Modèles spécifiques aux collections de documents hétérogènes L’hétérogénéité représente un des principaux challenges de la RI structurée. Plusieurs modèles ont été proposés en particulier dans le cadre de la tâche hétérogène d’INEX. La majorité des solutions proposées s’orientent vers la Chapitre 1. Recherche d’Information Structurée 44 classification de documents [116], [112], [130]. La recherche se fait alors au niveau des classes de documents. – Denoyer et al. [48] ont conçu un format intermédiaire qui permet de classifier les documents en suivant un calcul basé sur la probabilité conditionnelle. – Denoyer et Gallinari [46] ont également modélisé le problème sous forme de réseaux bayésiens. Chaque noeud du réseau comporte un libellé et des informations contextuelles. Deux sortes de variables sont envisagées : 1. une variable structurelle sid (d : document) qui dépend de ses ascendants. 2. une variable contextuelle tid qui ne dépend que de ses variables structurelles. La probabilité de jointure d’un document d à un modèle C est calculée comme suit : P (d, C) = P (c) |d| Y P (sid /pa(sid , C)P (tid /sid , C) i=1 avec tid est une séquence de mots et pa(s) présente le parent d’un noeud. Ce modèle génératif permet de considérer des documents hétérogènes (texte + image), où l’image est considérée comme un ensemble de pixels. Il est par la suite transformé en classifieur discriminant en utilisant la méthode Fisher Kernel. – Le problème de classification a été également traité par Lee et al. [100]. Les auteurs ont proposé un algorithme permettant un matching entre deux documents grâce une séquence d’opérations de transformations. – Lian et Cheung [120] ont aussi proposé un algorithme de classification. L’algorithme (S GRACE) a été proposé pour classifier les documents en se basant sur le paramètre distance et la notion de sous-graphe qui sont codés par des chaı̂nes de bits. La distance entre deux documents C1 et C2 est calculée comme suit : dist(C1 , C2 ) = 1 − |sg(C1 ) ∩ sg(C2 )| max {|sg(C1 | , |sg(C2 |} avec sg(Ci ) est l’ensemble de graphes et de sous-graphes structurels de Ci (i=1,2), |sg(Ci )| est le nombre de d’arcs dans sg(Ci ) et |sg(C1 ) ∩ sg(C2 )| est le nombre d’arcs communs de sg(C1 ) et sg(C2 ). Chapitre 1. Recherche d’Information Structurée 1.6 45 Évaluation de la RIS : La campagne INEX INEX (INitiative for the Evaluation of XML Retrieval ) est la seule campagne d’évaluation des différents SRI pour la recherche d’information sur les documents XML. Elle est mise en place chaque année depuis 2002. Elle offre un forum international non seulement pour permettre aux différentes organisations participantes d’évaluer et de comparer leurs résultats, mais aussi pour discuter les différentes problématiques qui se présentent. La collection de test consiste en un ensemble de documents XML, requêtes, tâches de recherche et jugements de pertinence. 1.6.1 Collection Les collections de test préparées dans le cadre d’INEX ne cessent d’évoluer dans le but d’améliorer la qualité de l’évaluation. De 2002 à 2004, la collection de documents était composée d’articles scientifiques provenant de la IEEE Computer Society, balisés au format XML. La collection, d’environ 500 Mo, contenait plus de 12000 articles, publiés de 1995 à 2002, et provenant de 18 magazines ou revues différents. En 2005, cette collection a été étendue pour comporter environ 17000 articles publiés entre 1995 et 2004 provenant de 21 magazines ou revues différents pour une taille d’environ 750 Mo. En 2006, la collection est composée de 659388 documents en anglais extraits de l’encyclopédie en ligne Wikipedia [47] avec une taille totale d’environ 5 GigaOctets. Dans la collection IEEE, un article est composé d’environ 1500 éléments et la collection contient au total 8 millions de nœuds et 180 balises différentes. Dans la collection Wikipédia, un article est composé d’environ 70 éléments, la collection contient au total plus que 460 millions de nœuds et 5000 balises différentes. Les figures 1.7 et 1.8 présentent deux exemples de documents des collections 2005 et 2006. 1.6.2 Requêtes Les requêtes (ou Topics) sont créées par les différents participants et doivent être représentatives des demandes de l’utilisateur moyen. Les topics se divisent en deux catégories principales : – Les CO (Content Only) : ce sont les requêtes composées de simples mots clés. Les mots clés de la requête peuvent être éventuellement groupés sous forme d’expressions et précédés par les opérateurs ’+’ (signifiant que le terme est obligatoire) ou ’-’ (signifiant que le terme ne doit pas apparaı̂tre Chapitre 1. Recherche d’Information Structurée 46 Fig. 1.7 – Exemple d’un article de la collection IEEE au format XML Fig. 1.8 – Exemple d’un article de la collection Wikipédia au format XML Chapitre 1. Recherche d’Information Structurée Fig. 1.9 – Exemple de requête CO de la collection 2005 Fig. 1.10 – Exemple de requête de la collection 2006 47 Chapitre 1. Recherche d’Information Structurée 48 dans les éléments renvoyés à l’utilisateur). – Les CAS (Content And Structure) : ces requêtes contiennent des contraintes sur la structure des documents. Pour chaque Topic, différents champs permettent d’expliciter le besoin de l’utilisateur : le champ Title donne la définition simplifiée de la requête, le champ Keywords contient un ensemble de mots clés qui ont permis l’exploration du corpus avant la reformulation définitive de la requête, et les champs Description et Narrative, explicités en langage naturel, indiquent les intentions de l’auteur [63]. La formulation des requêtes est étroitement liée à la tâche de recherche associée. En 2006, ces types de requêtes ont été regroupés dans le seul type CO+S en rajoutant un nouveau champ castitle, donnant la forme structurée de la requête. Les deux figures 1.9 et 1.10 présentent respectivement un exemple de requête de type CO et un exemple de requête de type CAS. 1.6.3 La tâche ad-hoc INEX propose plusieurs tâches d’évaluation dont la principale est la tâche de recherche ad-hoc. Elle est considérée comme une simulation de l’utilisation d’une bibliothèque, où un ensemble statique de documents est interrogé avec des besoins utilisateurs. La tâche ad-hoc est à son tour composée de sous-tâches divisées selon soit : – le type de requêtes : les requêtes peuvent à la fois contenir des conditions structurelles et d’autres portant sur le contenu. En réponse à la requête, des éléments peuvent être retrouvés à partir de la collection. La tâche ad-hoc a été divisée en 3 sous tâches en 2004 (CO, SCAS et VCAS), en 2005 elle est divisée en 5 sous-tâches (CO, SSCAS, VSCAS, SVCAS et VVCAS) et en 2006, les tâches se sont limitées à CO et CO+S. – la stratégie de recherche , c’est à dire le critère sur lequel est jugée la performance d’un système. On distingue trois sous-tâches : ”Fetch and Browse”, ”Thorough” et ”Focused ”. En 2006, une nouvelle tâche appelée ”Best in Context” a été définie. 1.6.3.1 Tâche CO La tâche CO (Content Only Task ) a pour but de répondre avec des éléments/ documents XML à des requêtes utilisateurs CO. Aucune indication de structure Chapitre 1. Recherche d’Information Structurée 49 dans la requête ne peut aider les SRI à déterminer la granularité de l’information à renvoyer. 1.6.3.2 Tâche CAS On distingue plusieurs sous-tâches : – La tâche SCAS (Strict Content And Structure task ) consiste à répondre avec des éléments/documents XML aux topics CAS de manière stricte, c’est à dire respectant toutes les conditions sur la structure et le contenu énoncés dans la requête. Le champ Title de la requête SCAS est basé sur une syntaxe XPath. – La tâche VCAS (Vague Content And Structure Task ) utilise elle aussi des requêtes CAS, mais pour lesquelles les participants peuvent répondre de manière vague, c’est à dire avec des éléments/documents qui satisfont globalement les requêtes. Le champ Title des requêtes VCAS est basé sur le langage NEXI [190]. – Dans la tâche VVCAS, les éléments supports3 et les éléments recherchés spécifiés dans la requête sont interprétés de manière vague. Les jugements de pertinence sont fait selon le champ Narrative de la requête. – Dans la tâche SVCAS, le type d’élément recherché spécifié dans la requête doit être respecté dans l’ensemble des éléments pertinents. – Dans la tâche VSCAS, les éléments pertinents doivent respecter les éléments supports spécifiés dans la requête. – Dans la tâche SSCAS, les éléments pertinents doivent satisfaire strictement les éléments supports ainsi que l’élément recherché spécifié dans la requête. 1.6.3.3 – – – – 3 Stratégies de recherche Parmi les stratégies de recherche, on distingue : La tâche Thorough dans laquelle on suppose qu’un utilisateur préfère retrouver tous les élément fortement pertinents. La tâche Focused dans laquelle on suppose qu’un utilisateur préfère ne pas avoir d’éléments imbriqués dans ses réponses. La tâche Fetch and Browse appelée aussi All in Context, qui consiste à classer les résultats par article ou document. L’évaluation concerne alors d’une part les documents et d’autre part le classement des éléments dans un document donné. La tâche Best in Context qui permet d’évaluer les meilleurs points d’entrée dans un article donné. Les éléments supports sont les éléments qui décrivent la structure de l’élément que l’utilisateur désire retrouver Chapitre 1. Recherche d’Information Structurée 1.6.4 50 Autres tâches La campagne d’évaluation INEX ne cesse d’intégrer des tâches autres que la tâche Ad-hoc. Dans ce qui suit, nous présentons les différentes tâches proposées au fil des années. 1.6.4.1 Traitement automatique du langage naturel Dans cette tâche, les utilisateurs formulent leurs requêtes en langage naturel, sans avoir besoin d’apprendre un langage complexe. Les systèmes ne doivent exploiter que le champs description spécifié dans la requête [65]. 1.6.4.2 Tâche Reformulation par réinjection de pertinence (Relevance Feedback) La tâche Relevance Feedback a pour but de reformuler la requête initiale de l’utilisateur en se basant sur des jugements de pertinence afin d’améliorer des performances des systèmes de recherche [3]. Nous détaillons cette tâche à laquelle nous participons dans le chapitre suivant. 1.6.4.3 Tâche Hétérogène La collection d’évaluation utilisée dans les différentes tâches d’INEX est composée de documents homogènes ayant la même DTD. Dans la réalité, les documents proviennent souvent de différentes collections ne possédant pas la même DTD. Notamment avec l’apparition et l’utilisation des systèmes distribués, la tâche hétérogène s’avère un véritable challenge qui pose un certain nombre de défis : – dans le cas d’une recherche orientée contenu, les approches utilisées utilise une DTD pour retourner des éléments formant des réponses raisonnables. Dans des collections hétérogènes, des nouvelles approches doivent être développées indépendamment des DTDs. – dans le cas des requêtes de type CAS, s’ajoute le problème de faire correspondre des conditions structurelles appartenant à de différentes DTDs. Chapitre 1. Recherche d’Information Structurée 1.6.4.4 51 Fouille de données (Data mining) Le but de la recherche d’information dans des documents XML est de renvoyer les éléments (partie de document) répondant aux besoins de l’utilisateur. Cependant avec la masse croissante d’informations disponibles, un nouveau challenge est défini qui permet de classifier et de regrouper les informations afin de permettre un accès direct aux besoins de chaque utilisateur. 1.6.4.5 Tâche interactive Cette tâche définie en 2005 a pour but d’étudier le comportement utilisateur lors d’une recherche dans les documents XML et de développer des systèmes qui tiennent compte de l’environnement de l’utilisateur [65]. 1.6.4.6 Tâche multimedia Dans cette tâche, on s’intéresse à développer des systèmes de recherche non seulement dans les documents textes mais aussi contenant des images et des vidéos. 1.6.5 Jugements de pertinence L’évaluation de pertinence des SRI passe par une première phase de validation des documents renvoyés par les SRI. Chaque élément/document est jugé à la main par les participants pour chaque requête en utilisant le système de jugement en ligne [140]. En 2002, une première échelle de pertinence à deux dimensions a été proposée, basée sur le degré de pertinence et la couverture des éléments. Depuis 2003, ces deux dimensions ont été remplacées par la spécificité et l’exhaustivité. Pour chacune une échelle de 4 niveaux a été définie : pas exhaustif (resp. pas spécifique), marginalement exhaustif (resp. marginalement spécifique), assez exhaustif (resp. assez spécifique) et très exhaustif (resp. très spécifique). En 2005 et 2006, l’exhaustivité est mesurée selon une échelle à 4 niveaux : exhaustivité { e=2 exhaustivité élevée e=1 exhaustivité moyenne e=0 pas d’exhaustivité e= ? élement trop petit Chapitre 1. Recherche d’Information Structurée 52 La spécificité quant à elle est mesurée dans un intervalle continu [0,1] où s=1 représente un élément totalement spécifique. Les mesures d’évaluation utilisées durant la campagne 2005 sont basées sur les mesures XCG et ep/gr [105]. Ces mesures sont calculées en tenant compte des 2 dimensions de pertinence (exhaustivité et spécificité) agrégées en une seule valeur. Deux types de fonction d’agrégation sont utilisées : – une agrégation ”stricte” pour évaluer si un SRI est capable de retrouver des éléments très spécifiques et très exhaustifs ½ 1 si e = 2 et s = 1 (1.18) fstrict (e, s) = 0 sinon – une agrégation ”généralisée” pour évaluer les éléments selon leur degré de pertinence fgeneralisee (e, s) = e ∗ s (1.19) L’utilisation d’une échelle à deux dimensions est motivée par le besoin de refléter la pertinence relative d’un élément par rapport à ses descendants. Par exemple, un élément peut être plus exhaustif que chacun de ses descendants pris séparément puisqu’il couvre l’union des aspects discutés dans chacun. De la même manière, des éléments peuvent être plus spécifiques que leurs parents, car ces derniers couvrent plus de sujets, y compris des sujets non pertinents. 1.6.6 Mesures d’évaluation Jusqu’à 2004, l’évaluation de pertinence des différents systèmes proposés par les participants utilise des méthodes basées sur les mesures de rappel et précision en tenant compte de la structure des documents XML et de la possible imbrication des résultats. Depuis INEX 2005, d’autres mesures ont été définies pour permettre une évaluation plus appropriée des performances des systèmes de recherche en RI structurée [105] : le gain cumulé (xCG) et l’effort précision (ep). La mesure xCG cumule les scores de pertinences des éléments de la liste des résultats. Etant donnée une liste triée d’éléments xCG dans laquelle les identifiants des éléments sont remplacés par leur score de pertinence, le gain cumulé au rang i, noté xCG[i], est calculé comme la somme des pertinences jusqu’à ce rang : i X xCG[i] = xG[j] (1.20) j=1 Chapitre 1. Recherche d’Information Structurée 53 Par exemple, soit xGi =< 2, 1, 0, 1, 0, 0 > un vecteur de gain jusqu’au rang i. Le vecteur de gain cumulé sera < 2, 3, 3, 4, 4, 4 >. Pour chaque requête, on calcule un vecteur de gain idéal xCI à partir de la base de rappel, en cumulant les scores de pertinences des éléments triés par ordre décroissant. Le xCG peut alors être comparé au gain idéal. Le xCG normalisé (nxCG) est obtenu par : xCG[i] nxCG[i] = (1.21) xCI[i] Pour un rang donné i, le gain cumulé nxCG[i] reflète le gain relatif de l’utilisateur accumulé jusqu’à ce rang, comparé à ce qu’il aurait du atteindre si le système avait produit une liste triée optimale. Par analogie au gain cumulé, on définit l’effort-précision (ep(r)) ep(r) = eideal erun (1.22) où eideal est le rang pour lequel le gain cumulé est atteint par la courbe idéale. erun est le rang pour lequel le gain cumulé est atteint par le système. La valeur 1 correspond à une performance idéale, pour laquelle l’utilisateur effectue un minimum d’effort pour atteindre un niveau de gain donné. L’effort-précision est calculé à des points de gain-rappel arbitraires, où le gainrappel gr est la valeur du gain cumulé divisé par la valeur totale atteignable du gain cumulé : xCG[i] gr[i] = (1.23) xCI[n] avec n le nombre total de document pertinents. L’effort-précision à une valeur donnée de gain-rappel mesure l’effort d’un utilisateur pour atteindre un gain relatif au gain total qu’il peut obtenir. La moyenne non interpolée MAep (Mean Average Effort Precision) d’effortprecision est utilisée pour moyenner les valeurs d’effort-précision pour chaque rang auquel un élément pertinent est renvoyé. D’autre mesures ont été proposées mais ne sont pas utilisés pour l’évaluation officielle d’INEX. Citons par exemple : – EPRUM (The Expected Precision Recall with User Model ) : c’est une extension de la mesure Rappel-Précision. Cette mesure définie par Piwowarski [141] est utilisée en général pour mesurer les tâches Focused et Fetch and Browse. En effet elle permet de mettre en évidence le comportement de l’utilisateur en définissant un modèle probabiliste d’utilisateur. La précision est définie comme le ratio du nombre minimal des rangs consultés par l’utilisateur dans une liste retournée par un système idéal et de celui d’un système évalué. – BEDP utilisée pour l’évaluation de la tâche Best In Context. C’est la somme des scores de tous éléments excédant le point X divisée par le nombre de meilleurs points d’entrée. Chapitre 1. Recherche d’Information Structurée 54 – Les Fscore (combinaison des taux de rappel et de précision) utilisés pour évaluer la tâche All In Context au niveau d’un document. – La précision généralisée (resp. rappel généralisé) : ces mesures sont elles aussi utilisées dans la tâche All In Context. C’est la somme de Fscores (resp. nombre d’articles ayant une pertinence) qui précèdent un article divisé par le rang de cet article (resp. le nombre des articles ayant une pertinence) 1.7 Conclusion Les documents semi-structurés, en permettant le balisage des contenus des documents, réactualisent la problématique de recherche d’information classique, et permettent ainsi de traiter l’information avec une granularité plus fine. Le but des SRI traitant des documents semi-structurés est alors d’identifier des parties des documents les plus pertinentes à une requête donnée. Nous avons ainsi présenté les principales approches d’indexation et d’appariement développées en RIS. Nous avons également détaillé les nouveaux concepts d’évaluation des systèmes de recherche en RIS. Nous avons de plus indiqué que la reformulation de requêtes est une phase importante en RI classique permettant l’amélioration des performances des SRI. Parmi les techniques les plus efficaces citons la reformulation de requêtes par réinjection de pertinence. Avant de détailler notre contribution en réinjection de pertinence en RI structurée, nous allons présenter dans le chapitre suivant les principales approches développées en reformulation de requêtes, et plus particulièrement en réinjection de pertinence. Chapitre 2 Reformulation de Requêtes 2.1 Introduction Les performances d’un SRI, mesurées en général par la double mesure rappel-précision, dépendent d’une part de l’efficacité du modèle de recherche mis en œuvre pour l’appariement des requêtes documents, et d’autre part des requêtes formulées par l’utilisateur. En effet, l’utilisateur formule son besoin en information par une requête composée de ses propres mots clés et le choix de chaque terme a une influence directe sur l’ensemble des documents restitués par le système. Le plus souvent, l’utilisateur formule ses requêtes avec des termes qui lui sont propres, mais qui ne correspondent pas forcément à ceux utilisés pour indexer les documents pertinents des collections interrogées. Pour sélectionner le maximum de documents pertinents tout en limitant le bruit1 , il faudrait alors que l’utilisateur puisse choisir les termes utilisés comme index. Cette tâche s’avère difficile dans la mesure où il est impossible de connaı̂tre le langage d’indexation utilisé et où le nombre de termes indexés est généralement très grand. De plus, l’indexation et en particulier son exhaustivité, a également une incidence directe sur la qualité des réponses du système de recherche. De ce fait, retrouver les informations pertinentes en utilisant seulement la requête initiale de l’utilisateur est une opération quasi-impossible. De nombreux travaux visent à concevoir des SRI capables de s’adapter aux besoins de l’utilisateur. La reformulation de la requête est sans doute la piste la plus investie dans ce contexte. La reformulation de requêtes, comme nous l’avons signalé dans le chapitre précédent, est un processus ayant pour objectif de générer une nouvelle requête 1 Le bruit est défini par les documents non pertinents retrouvés par le système de recherche. Chapitre 2. Reformulation de Requêtes 56 plus adéquate que celle initialement formulée par l’utilisateur. Elle représente une forme de personnalisation à court terme. Cette reformulation permet de coordonner le langage de recherche, utilisé par l’utilisateur dans sa requête et le langage d’indexation. Par conséquent, elle limite le bruit et le silence2 dus à un mauvais choix des termes d’indexation dans l’expression de la requête d’une part, et les lacunes du processus d’indexation d’autre part. L’apparition des documents semi-structurés a, comme nous l’avons signalé dans le chapitre précèdent, apporté la dimension structurelle qui remet à plat la reformulation classique. En effet les techniques de reformulation en RIS doivent tenir compte de la co-habitation des deux sources d’évidences, le contenu et la structure qui apparaissent aussi bien dans les collections de documents que dans les requêtes de l’utilisateur. Dans ce chapitre, nous présentons quelques techniques utilisées pour l’amélioration des performances des SRI dans la section 2.2. Dans la section 2.3, nous présentons le processus général de la réinjection de pertinence ainsi que ses différentes applications. Nous présentons ensuite les nouveaux enjeux de la réinjection de pertinence en Recherche d’Information structurée ainsi que les modèles proposés dans la littérature dans la section 2.4. Nous finissons par présenter le mécanisme d’évaluation de la réinjection de pertinence dans la section 2.5. 2.2 Techniques pour l’amélioration des performances des systèmes de recherche Comme nous l’avons mentionné dans l’introduction, la requête initiale seule est souvent insuffisante pour permettre la sélection de document répondant au besoin de l’utilisateur. De ce fait, plusieurs techniques ont été proposées pour améliorer les performances des SRI. Ces méthodes apportent des solutions aux deux principales questions : 1. Comment peut-on retrouver plus de documents pertinents vis à vis d’une requête donnée ? 2. Comment peut-on mieux exprimer la requête de l’utilisateur de manière à mieux répondre à son besoin ? Les principales techniques d’amélioration des systèmes de recherche se divisent en deux principales voies (voir figure 2.1) : 2 Le silence est défini par les documents pertinents non retrouvés. Chapitre 2. Reformulation de Requêtes 57 Fig. 2.1 – Le Processus général de l’amélioration de la recherche – La première voie propose de réordonner les documents sans modifier la requête, soit en utilisant les jugements de pertinence des résultats déjà restitués [137] et en calculant de nouveaux scores pour les documents, soit en fusionnant les résultats de différents systèmes de recherche. Dans le premier cas, on parle de réinjection de pertinence pour le réordonnencement et dans le second, on parle d’algorithmes multiples de recherche souvent utilisés dans les moteurs de recherche sur le web [175]. – La seconde voie propose de reformuler la requête initiale en y ajoutant de nouveaux termes. La reformulation peut se faire par expansion automatique de la requête, par combinaison de différentes présentations de la requête ou par réinjection de pertinence. Nous présentons dans ce qui suit les principales techniques de reformulation de requêtes : la réinjection de pertinence sera détaillée dans la section 2.3. 2.2.1 Expansion et combinaison de requêtes L’expansion directe de la requête consiste à rajouter à la requête initiale des termes issus de ressources linguistiques existantes ou bien de ressources construites à partir des collections. Plus précisément, Chapitre 2. Reformulation de Requêtes 58 – au niveau des ressources linguistiques, le but est d’utiliser un vocabulaire contrôlé issu de ressources externes. On peut alors utiliser des ontologies linguistiques (citons par exemple Wordnet [133]). On peut également ajouter à la requête des variantes morphologiques des termes employés par l’utilisateur. Le but de ce mécanisme est d’assurer la restitution des documents indexés par des variantes des termes composant la requête. Les associations établies manuellement traduisent généralement des relations de synonymie et de hiérarchie. Les thésaurus construits manuellement sont un moyen efficace pour l’expansion de requête. Cependant, leur construction et la maintenance des informations sémantiques qu’ils contiennent sont coûteuses en temps et nécessitent le recours à des experts des domaines considérés. Pour cette raison, ils restent peu utilisés par les SRI. – En ce qui concerne la seconde catégorie de ressources, elles sont construites en s’appuyant sur une analyse statistique des collections. Il s’agit de chercher des associations de termes afin d’ajouter des termes voisins à la requête. Il existe aussi d’autres méthodes entièrement automatiques telles que le calcul des liens contextuels entre termes [38] et la classification automatique de documents [35]. Les associations créées automatiquement sont généralement basées sur la cooccurrence des termes dans les documents. Les liens inter-termes renforcent la notion de pertinence des documents par rapport aux requêtes. 2.2.2 Combinaison de requêtes Plusieurs approches de RI [175] utilisent une seule représentation de requête comparée à plusieurs représentations de document (algorithmes multiples de recherche). Il a été montré dans [114] qu’une recherche plus efficace peut être atteinte en exploitant des représentations multiples de requêtes ou d’algorithmes de recherche différents ou encore en utilisant différentes techniques de réinjection. Une combinaison des représentations de requêtes peut augmenter le rappel d’une requête, tandis que la combinaison des algorithmes de recherche peut augmenter la précision. La base théorique de la combinaison des évidences a été présentée par Ingwersen [96, 97]. Il a en particulier montré que des représentations multiples du même objet, par exemple une requête, permettent une meilleure perception de l’objet qu’une seule bonne représentation. Cependant, il est important que chacune des sources d’évidences utilisées fournisse non seulement un point de vue différent sur l’objet, mais que ces points de vue aient différentes bases cognitives. Les représentations multiples d’une requête peuvent fournir différentes interprétations du besoin en information. Chapitre 2. Reformulation de Requêtes 59 Une des approches de combinaison de multiples représentations de requêtes est par exemple proposée dans [15]. Elle consiste à calculer les scores des documents directement depuis la fonction d’appariement document-requête en utilisant le même système de recherche mais différentes versions de la requête. Ensuite, les résultats obtenus par chacune des versions sont combinés pour avoir une seule liste finale. Ces versions sont issues soit des expressions d’une même requête par des chercheurs différents, soit des présentations d’une même requête dans des langages différents. Tamine et al. proposent dans [184] une technique de recherche d’information basée sur les algorithmes génétiques, plus précisément, elle propose d’utiliser une population de requêtes qui évolue à chaque étape de la recherche et tente de récupérer le maximum de documents pertinents. 2.3 2.3.1 Réinjection de pertinence Motivation Plusieurs travaux en RI ont été développés en considérant que les besoins de l’utilisateur sont fixes au cours d’une recherche d’information. Si cela peut être vrai dans certains cas, des études [108, 53, 181] prouvent que les besoins d’information devraient être considérés comme des entités passagères et évolutives plutôt que comme des demandes fixes. L’intervention de l’utilisateur au niveau de jugement de pertinence joue alors un rôle intéressant pour la reformulation de requêtes afin d’affiner la recherche. 2.3.2 Processus général de RF Le processus de réinjection de pertinence, comme schématisé sur la figure 2.2, comporte principalement trois étapes : l’échantillonnage, l’extraction des évidences et la réécriture de la requête. – L’échantillonnage : cette étape permet de construire un échantillon de documents à partir des éléments jugés par l’utilisateur. Cet échantillon est caractérisé par le nombre d’éléments jugés et le nombre d’éléments jugés pertinents. – L’extraction des évidences est l’étape la plus importante, elle consiste en général à extraire les termes pertinents qui serviront à l’enrichissement de la requête initiale. Plusieurs approches ont été développées, la plus reconnue est celle de Rocchio [154] adaptée au modèle vectoriel. Chapitre 2. Reformulation de Requêtes Fig. 2.2 – Le Processus général de la réinjection de pertinence 60 Chapitre 2. Reformulation de Requêtes 61 – La réécriture de la requête consiste à construire une nouvelle requête en combinant la requête initiale avec les informations extraites dans l’étape précédente. Le processus général de la réinjection de pertinence peut être renouvelé plusieurs fois pour une même séance de recherche : on parle alors de la réinjection de pertinence à itérations multiples, dont les approches représentatives sont détaillées dans la section 2.3.6.2. Considérons maintenant en détail les différentes phases du processus de réinjection de pertinence. La phase d’échantillonnage ne présente pas de problématique spécifique. Le seul point abordé à ce niveau concerne le nombre d’éléments à évaluer pour pouvoir effectivement constituer un échantillon représentatif. La problématique principale de la réinjection de pertinence réside dans les deux autres phases : l’extraction des termes (ils sont alors pondérés pour sélectionner les plus pertinents) et la réécriture de la requête avec repondération des termes. Dans la plupart des approches de la littérature, les deux phases sont effectuées avec des méthodes de pondération des termes similaires. Cependant certaines méthodes et particulièrement celles basées sur le modèle probabiliste, utilisent des méthodes de pondération différentes. Dans la prochaine section nous proposons donc de détailler les méthodes d’extraction des termes. La reformulation de requêtes appliquée aux différents modèles de RI est ensuite décrite dans la section 2.3.4. 2.3.3 Méthodes d’extraction des termes La reformulation de requête telle qu’elle a été initialement utilisée par Wu et Salton [202] consistait à ajouter tous les termes des documents pertinents retrouvés en réponse à la requête lors du processus de recherche. Cette méthode de sélection des termes peut être à l’origine de beaucoup de bruit (restitution de document non pertinents). En effet, les termes dans les premiers documents pertinents restitués ne sont pas tous significatifs. L’idée d’utiliser seulement une sélection de termes a été proposée par Harman [78]. La question est de savoir quels termes utiliser pour étendre la requête initiale de façon à améliorer le rappel et la précision du système. L’approche présentée par Harman [78] consiste à sélectionner les dix pre- Chapitre 2. Reformulation de Requêtes 62 miers documents et à identifier parmi ceux-ci les documents pertinents. Harman a utilisé différentes techniques pour ordonner les termes afin de choisir les vingt meilleurs termes de la liste. Il a été démontré que la technique utilisée pour le tri des termes pertinents a un large impact sur la performance. Dans plusieurs techniques de tri que l’auteur a définies, il utilise une mesure de bruit nk calculée comme suit : nk = N X tfik i=1 fk log2 fk tfik (2.1) Avec : tfik le nombre d’apparition du terme k dans le document i, fk le nombre d’apparition du terme k dans la collection et N le nombre de termes dans la collection. La technique a été étendue pour tenir compte du nombre de documents dans l’ensemble des documents pertinents contenant le terme k (pk ) et du nombre d’apparition du terme k dans l’ensemble des documents pertinents (rtfk ). Harman a défini ainsi une autre mesure de bruit par rapport à l’ensemble des documents pertinents. Cette mesure est calculée comme suit : rnk = N X pk i=1 fk tfik log2 rtfk tfik (2.2) Dans [79], Harman a défini d’autres techniques de tri des termes. La technique qui conduit à de meilleurs résultats est basée sur une formule de pondération définie par Sparck-Jones et Robertson [152] : Wij = log2 pij (1 − qij ) qij (1 − pij ) (2.3) Avec : Wij poids du terme i dans la requête j, pij la probabilité que le terme i apparaisse dans les documents pertinents pour la requête j, qij la probabilité que le terme i apparaisse dans les documents non pertinents pour la requête j. La sélection des termes ayant une valeur de poids importante revient à sélectionner les termes caractéristiques des documents pertinents avec une faible probabilité d’apparition dans les documents non pertinents. Harman [79] a également démontré que la meilleure méthode de sélection des termes issus des documents pertinents devient inefficace au-delà de 20 à 40 termes ajoutés. Chapitre 2. Reformulation de Requêtes 63 Croft et al. [77] et Robertson et al. [153] ont adopté une méthode de sélection de nouveaux termes sur la base d’une fonction qui consiste à attribuer à chaque terme un nombre traduisant sa valeur. Robertson propose la formule suivante pour calculer la valeur de sélection d’un terme : selV alue(i) = Wij × (Pi − Ui ) (2.4) Avec : Wij défini dans l’équation 2.3, Pi la probabilité (di = 1/D est pertinent) ; et Ui la probabilité (di =0/D est non pertinent). Les termes sont alors triés en fonction de leurs valeurs de pertinence puis sélectionnés en utilisant un seuil prédéfini. Lundquist et al. ont étudié dans [123] une autre technique de tri des termes. Pour un terme k, les auteurs associent une valeur pk × nidf où pk est le nombre de documents dans l’ensemble des documents pertinents contenant le terme k, et nidf est une fréquence absolue inverse normalisée utilisant la normalisation telle que définie par Singhal [177]. En utilisant la collection TIPSTER, Lundquist et al. [123] ont démontré que cette formule conduit à de bonnes performances. Par ailleurs, ils ont aussi démontré que l’utilisation des dix premiers termes (termes simples ou expressions) conduit à une amélioration de la précision moyenne de 31% par rapport à l’utilisation des cinquante premiers termes et vingt premières expressions. Boughanem et al. [21] [20] ont quant à eux étudié la reformulation de requête sur un SRI basé sur l’approche connexionniste fondée sur les réseaux de neurones. Les termes ajoutés à la requête sont sélectionnés sur la base d’un seuil de cooccurrence avec les termes de la requête initiale. Ils ont conclu que la valeur idéale du seuil (c’est à dire la valeur permettant d’améliorer les résultats) varie de façon inversement proportionnelle à la taille de la base et à la taille moyenne des documents. Buckley et al. ont démontré dans [24], que le taux de performance (RappelPrécision) est davantage corrélé avec le nombre de termes ajoutés à la requête qu’avec le nombre de documents initialement retrouvés. Cette idée est traduite par l’équation suivante RP (N ) = A.log(N ) + B.log(X) + C Avec : RP (N ) la performance du système pour N documents restitués, N le nombre de documents restitués, et (2.5) Chapitre 2. Reformulation de Requêtes 64 X le nombre de termes ajoutés à la requête. A, B, et C sont des constantes telles que B >> A > C. 2.3.4 Principales approches de réinjection de pertinence en RI 2.3.4.1 Approche de Rocchio La reformulation de requête a été introduite par Rocchio [154] dans le modèle vectoriel. Rocchio considère que la restitution des documents pertinents est liée à la notion de ”requête optimale”. Cette dernière est censée maximiser la différence entre le vecteur des documents pertinents et celui des documents non-pertinents. Comme l’utilisateur n’est pas en mesure de soumettre une requête optimale, la réinjection de pertinence doit permettre de rapprocher le vecteur de la requête initiale du vecteur moyen des documents pertinents et de l’éloigner du vecteur moyen des documents non pertinents. Ceci est mis en œuvre par repondération des termes initiaux et ajout de nouveaux termes pondérés à la requête initiale. Les poids servent à la discrimination des documents pertinents des documents non pertinents. La formule originale de Rocchio est définie comme suit : Q1 = Q0 + 1/nr nr X i=1 Ri − 1/ns ns X Si (2.6) i=1 où Q0 est le vecteur de la requête initiale, Q1 est le vecteur de la nouvelle requête, nr est le nombre de documents pertinents, ns le nombre de documents non pertinents, Ri est le vecteur du ieme document pertinent et Si le vecteur du ieme document non pertinent. Le nouveau vecteur de requête est le vecteur de la requête initiale plus les termes qui différencient au mieux les documents pertinents des documents nonpertinents. Une requête reformulée contient de nouveaux termes (extraits des documents jugés pertinents) associés à de nouveaux poids. Si le poids d’un terme de la requête décroı̂t vers zéro ou au dessous de zéro, il est éliminé de l’ensemble des termes de la requête. Une variante de cette formule a été examinée expérimentalement avec des résultats positifs sur le système de recherche SMART [154]. La petite taille de la collection de documents utilisée dans les expériences de Rocchio a engendré Chapitre 2. Reformulation de Requêtes 65 certaines modifications dans la formule. Par exemple, un terme est seulement considéré s’il appartient à la requête initiale ou s’il apparaı̂t plus dans les documents pertinents que dans les documents non-pertinents et dans plus que la moitié des documents pertinents. Ces modifications accentuent la difficulté d’aligner la théorie avec la pratique expérimentale. Une autre modification apportée à cette formule qui permet de pondérer la contribution relative de la requête initiale, des documents pertinents et des documents non-pertinents dans le processus de RF. C’est la variante la plus répandue aujourd’hui (standard), elle est décrite dans l’équation suivante : Q1 = αQ0 + β/nr nr X Ri − γ/ns i=1 ns X Si (2.7) i=1 où α, β et γ indiquent le degré d’effet de chaque composant sur le processus de réinjection de pertinence. Ide [95] a étendu les expériences de réinjection de pertinence de SMART, en examinant différents aspects de RF. Il a par exemple étudié la restriction sur les documents jugés pertinents pour la réinjection de pertinence, en changeant le nombre de documents utilisés pour le processus de RF, et utilisé les documents non-pertinents. Il a également proposé une variante de la formule originale de Rocchio, en utilisant seulement le premier document non pertinent trouvé S1 . La formule utilisée est la suivante : nr X Ri − S1 (2.8) Q1 = Q0 + i=1 Cette formule a été comparée à la formule originale de Rocchio. Bien que cette technique n’ait pas amélioré considérablement les résultats, elle était plus robuste, en permettant l’amélioration pour plus de requêtes. 2.3.4.2 Réinjection de pertinence dans le modèle probabiliste Dans le modèle probabiliste développé par Robertson, Sparck Jones [152] et Van Rijsbergen [147], les documents et les requêtes questions sont également vu comme des vecteurs mais la mesure vectorielle de similarité est remplacée par une fonction probabiliste. On rappelle que le modèle probabiliste est basé sur la probabilité qu’un document soit pertinent à un utilisateur pour une requête donnée. Ce modèle est par essence même lié à la réinjection de pertinence, puisque ses paramètres sont estimés sur la base de la présence/absence des termes dans les documents pertinents et non pertinents. Chapitre 2. Reformulation de Requêtes 66 Robertson et Sparck-Jones [152] utilisent la formule de pondération des termes suivante : Wi = log pi (1 − qi ) qi (1 − pi ) (2.9) Wi le poids du terme i, avec pi = P (ti = 1/D est pertinent)= rRi , qi = P (ti = 1/D est non pertini −ri nent) = N −ni où ti = 1 si le terme i indexe le document, ti = 0 sinon. ri le nombre de documents pertinents contenant le terme ti , R le nombre de de documents pertinents pour la requête, ni le nombre de documents contenant le terme ti et N le nombre de documents dans le collection. Les poids des termes ajoutés à la requête sont alors calculés selon la formule suivante : Wi = log ri /R − ri ni − ri /(N − ni ) − (R − ri ) (2.10) Harman [79] a montré que l’utilisation de la formule de Sparck-Jones pour la repondération des termes, permet une augmentation de la précision de 25% sur la base Cranfield. Croft [40] a défini une méthodologie de re-pondération en utilisant une version révisée de la formule de pondération de Sparck-Jones. Plus précisément, la recherche initiale suit la fonction de pondération des termes suivante : Wijk = (C + idfi ).fik (2.11) Avec C une constante, fik la fréquence du terme ti dans le document k, idfi la fréquence absolue du terme ti dans la collection et j la requête. Pour re-pondérer des termes par réinjection de pertinence, Croft se base sur la formule de Robertson. La formule de re-pondération est la suivante : · ¸ pij (1 − qij ) Wijk = C + log .fik (2.12) qij (1 − pij Avec Chapitre 2. Reformulation de Requêtes 67 Wijk le poids du terme ti dans la requête j et le document k, pij = ri +0.5 R+1.0 qij = ni −ri +0.5 N −R+1.0 si ri > 0, pij = 0.01 si ri = 0, si ri > 0, pij = 0.01 si ri = 0, f reqik fik = K + (1 − K). max(f reqk ) où f reqik est la fréquence du terme ti dans le document k, max(f reqk ) est le maximum des fréquences des termes dans le document k et C, K sont des constantes. 2.3.4.3 Réinjection de pertinence dans le modèle inférentiel De Compos et al. ont utilisé dans [30] les réseaux bayésiens pour la recherche d’information. Les relations d’inférence traduisent soit les relations terme-document soit les relations terme-terme. La réinjection de pertinence est basée sur la propagation des messages de type λ(T ) = {0, 1} (resp.λ(T ) = {1, 0}) des nœuds des documents vers les termes pour exprimer la relation de pertinence (resp. de non pertinence) du terme. La pertinence d’un terme est ensuite calculée par la combinaison des messages provenant de différents documents. Les auteurs ont proposé 4 types de message : 1. un message de type λ(T ) = {0, 1} vers tous les termes ti qui indexent les documents pertinents. Cette approche n’a pas donné d’amélioration puisque tous les termes des documents Dj pertinents sont considérés comme les termes de la requête initiale. 2. un message de type λDj (Ti ) = {p(Dj |t¯i ), p(Dj |ti )} est propagé vers les termes, avec la probabilité de ti |tj égale à 1 si ti = tj sinon égale à 0. X p(Dj |ti ) = αj tfjk .idfk2 .p(Tk |ti ) Tk ∈Dj αj est une constante de normalisation calculée comme suit : sX tfji .idfi2 αj = 1/ Ti ∈Dj 3. un troisième type de message qui tient compte de la requête initiale Q est de type λDj (Ti ) = {p(Dj /t¯i , Q), p(Dj /ti , Q)} 4. Dans un quatrième type de message, la requête initiale joue le rôle d’un document pertinent : λDj (Ti ) = {p(Dj , Q|t¯i ), p(Dj , Q|ti )} Les auteurs ont proposé deux méthodes pour la combinaison des messages reçus par un terme Ti provenant de S documents pertinents : Chapitre 2. Reformulation de Requêtes 68 1. Une première qui est le produit direct des valeurs de λ(Ti ) : λ(Ti ) = S Y λDj (Ti ) (2.13) j=1 2. Pour mieux tenir compte de la nature de requête la 2eme formule est la suivante : λ′ (Ti ) = α + (1 − α)λ(Ti ) (2.14) Où α est le rapport du nombre des documents pertinents retrouvés sur le nombre de tous les documents pertinents. On trouvera une autre application du modèle inférentiel à la réinjection de pertinence dans [77]. Les auteurs ont estimé la probabilité de pertinence d’un terme en fonction de son occurrence dans les documents pertinents. Les performances obtenues sont comparables à celles observées dans le modèle vectoriel. 2.3.4.4 Autres propositions Chacun des modèles vectoriel et probabiliste suppose l’indépendance entre les termes. En d’autres termes, la présence d’un terme dans un document n’influe pas sur la probabilité de l’existence d’un autre terme dans le même document. Bien que cette hypothèse simplifiée facilite la construction de systèmes de recherche assez performants, l’indépendance des termes n’est pas fondée. En effet, les mots sont reliés par leur utilisation et des expressions, et leurs occurrences dans les documents peuvent refléter des relations sémantiques fondamentales entre les termes. Des auteurs tels que Spiegel et Bennet [180] ont suggéré dès 1964 que cette dépendance de l’information peut être employée pour extraire d’autre termes pour l’extension de la requête. On distingue trois investigations sur la dépendance de l’information : – Van Rijsbergen, et al. [148] ont proposé un arbre (MST) composé de nœuds représentant les termes et reliés par des arcs qui représentent les similarités entre deux termes. Cette similarité est estimée selon la mesure d’association basée sur la distribution des probabilités des deux termes. L’extension de la requête consiste à rajouter tous les termes directement liés aux termes de la requête initiale. L’ensemble des termes sera par la suite pondéré selon la formule de Robertson [152]. Les résultats ont montré une efficacité relative de cette approche. – Smeaton et Van Rijsbergen [178] se sont concentrés sur trois méthodes pour l’extension de la requête : l’approche de MST de Van Rijsbergen Chapitre 2. Reformulation de Requêtes 69 et al., l’approche basée sur les voisins les plus proches (NN) (termes qui sont statistiquement les plus similaires aux termes de la requête) et l’extension d’une liste de termes extraits des documents jugés pertinents. Les résultats de ces expériences sont largement négatifs. Une des causes de la dégradation est le nombre de termes rajoutés à la requête initiale. Smeaton et Van Rijsbergen signalent que la difficulté d’estimer des probabilités est la raison principale de cet échec. – Dans [18], Bhatia a également présenté un modèle d’arbres de dépendance pour l’extension de la requête en intégrant des informations spécifiques de l’utilisateur. Bhatia suggère que l’approche d’arbre de dépendance peut être améliorée non seulement par une sélection plus stricte mais aussi en pondérant les termes de la requête selon les préférences de l’utilisateur. Bien que la construction des arbres soit inspirée de la similitude statistique, elle ne considère pas la similitude conceptuelle. La solution présentée demande d’obtenir de l’utilisateur les relations entre les concepts présents dans les documents. Ceci peut être utilisé pour développer un nouvel arbre qui reflète plus exactement des relations conceptuelles personnalisées selon l’utilisateur. Un arbre de dépendance devrait être construit pour chaque utilisateur. Une approche alternative exploitant la dépendance des termes consiste à grouper des termes reliés avec des termes d’extension de la requête. Ceci peut être réalisé sans information de pertinence (en utilisant seulement l’information statistique sur la similarité des termes) ou avec de l’information de pertinence (en utilisant une combinaison de la dépendance d’information dans une collection et l’information pertinente pour choisir les termes d’extension). Ces deux méthodes se fondent typiquement sur des méthodes de co-occurrence des termes utilisées dans la littérature et n’ont pas généralement fourni de résultats convainquants [138]. Les méthodes décrites précédemment qui intègrent la dépendance des termes n’ont pas permis une amélioration des performances des systèmes de recherche [148], [18], [178]. Ceci peut être dû aux limitations informatiques pour calculer et stocker l’information de la dépendance. Bien que les méthodes d’indépendance des termes telles que celles basées sur le modèle probabiliste semblent simplifiées et n’expriment pas explicitement la dépendance des termes pertinents, elles permettent implicitement d’exprimer un certain degré de co-occurrence des termes. C’est-à-dire, même si les méthodes d’indépendance des termes ne calculent pas de valeurs explicites de co-occurrence, on estime que les termes dans la liste d’extension ont un degré supérieur à la co-occurrence moyenne des termes. Ceci peut être expliqué par le fait que les bons discriminateurs de pertinence sont les termes qui apparaissent plus fréquemment dans les documents pertinents que dans les documents non pertinents. L’utilisation efficace de la Chapitre 2. Reformulation de Requêtes 70 co-occurrence des termes reste une question ouverte en recherche d’information. 2.3.5 Reformulation par réinjection de pertinence négative D’après Ruthven et Lalmas [157], la majorité des techniques proposées en RF est basée sur la différence entre le contenu des documents pertinents et celui des documents non pertinents. Ces derniers se rapportent à deux groupes de documents : 1. ceux qui ont été jugés non pertinents explicitement par l’utilisateur ; 2. ceux qui n’ont pas été jugés par l’utilisateur. Ces documents sont soit non sélectionnés, l’utilisateur ne les a pas jugés, soit l’utilisateur les a rejetés implicitement sans fournir une évaluation de pertinence. La différence entre ces deux groupes de documents non pertinents n’est pas exprimée dans les modèles probabiliste et vectoriel. La RF utilisant le groupe des documents jugés explicitement non pertinents est appelée RF négative. D’après [157], cette dernière est considérée comme problématique pour trois raisons principales : 1. L’implantation : La RF négative présente une difficulté au niveau du traitement des informations négatives par le système. Une pratique courante en RI est de supprimer les termes ayant un poids négatif. Ces termes permettent plutôt la recherche de documents non pertinents que de documents pertinents. La Réinjection de pertinence négative peut être utilisée pour indiquer les termes devant avoir un poids négatif. Dans ce contexte, Belkin et al., dans une étude de la participation de l’utilisateur dans la réinjection de pertinence [14, 12, 13, 16], proposent un modèle alternatif. Leur hypothèse est qu’un terme appartenant à un document pertinent ou à un document non pertinent peut être intéressant puisqu’il permet d’augmenter le nombre de documents pertinents (s’il appartient à un document pertinent) ou de diminuer le nombre de documents non pertinents (dans le cas contraire). Le but de la réinjection de pertinence négative abordé par Sumner et al. [182], était la suppression des documents non pertinents précédemment vus par l’utilisateur mais pouvant réapparaı̂tre dans la liste des résultats s’ils répondent à la nouvelle requête. Les expérimentations dans [14] montrent des résultats comparables pour la réinjection de pertinence positive et la réinjection négative, mais laissent entendre des améliorations potentielles en utilisant une combinaison des deux. Les expérimentations dans [12] ont montré que bien que les utilisateurs puissent utiliser la réinjection de pertinence négative, l’amélioration Chapitre 2. Reformulation de Requêtes 71 des performances n’est pas significative. 2. Clarté : Il est difficile de spécifier les conditions dans lesquelles un utilisateur doit considérer un document non pertinent. En effet, un document est considéré non pertinent s’il ne contient absolument aucune information pertinente, s’il ne contient aucune information liée aux besoins de l’utilisateur, s’il contient l’information liée au thème en question mais pas l’information pertinente, si le document n’est pas assez pertinent, etc. La question est quand un utilisateur devrait-il juger un document non pertinent ? Ce problème existe aussi dans le cas de la réinjection de pertinence positive mais pour deux raisons, la problématique est plus centrale dans le cas de réinjection de pertinence négative. D’abord, comme prouvé par les expérimentations de Belkin et al. [12], les effets de la réinjection de pertinence négative ne sont pas clairs pour les utilisateurs. Dans le cas de la réinjection de pertinence positive, le genre de documents recherchés, ainsi que les changements effectués par le système apparaissent avec plus de clarté, contrairement à la réinjection négative pour laquelle l’utilisateur ne peut pas voir quels documents ont été supprimés. Deuxièmement, le jugement de non pertinence est une tâche plus délicate que le jugement de pertinence [157]. Dans la pratique, la pertinence et la non pertinence ne sont pas des notions opposées. En général, un utilisateur qui juge un document pertinent donne souvent des raisons détaillées, mais les raisons de la non-pertinence sont susceptibles d’être basées sur ce qui manque dans le document, plutôt que sur ce qui est présent. 3. Rentabilité : Bien que les techniques de RF puissent améliorer une recherche, les utilisateurs ne font pas toujours d’évaluation de pertinence. Ceci peut être dû à un manque de conscience de la part de l’utilisateur de l’utilité de la réinjection de pertinence. La rentabilité des évaluations peut avoir un effet sur la façon dont probablement les utilisateurs doivent évaluer. Plus les modalités d’évaluation sont compliquées moins les utilisateurs évaluent la pertinence, ce qui est le cas de l’évaluation de la non pertinence. 2.3.6 2.3.6.1 Autres formes de Réinjection de pertinence Réinjection automatique de pertinence La réinjection de pertinence décrite jusque là est basée sur les jugements de l’utilisateur. Une approche alternative, connue sous le nom de pseudo-réinjection ou blind Relevance Feedback, utilise des techniques de réinjection automatique Chapitre 2. Reformulation de Requêtes 72 à l’aveugle pour construire une nouvelle requête. Plus précisément, le système de recherche restitue un ensemble de documents répondant à la requête initiale. Ainsi au lieu de juger explicitement les documents, on suppose que les k premiers documents comme étant pertinents (documents pseudo-pertinents). On peut également considérer les documents qui sont restitués en fin de liste comme non pertinents. L’idée de base derrière la pseudo réinjection de pertinence est qu’une itération de réinjection basée sur les documents les plus similaires à la requête initiale de l’utilisateur pourrait donner une meilleure restitution des documents. Cette technique a été développée la première fois par Croft & Harper [41], en tant qu’un moyen d’estimation des probabilités dans le modèle probabiliste pour une première recherche. Depuis, cette technique a été largement étudiée pour améliorer les classements des documents en particulier dans le cadre de TREC [197]. Croft Harper ont également indiqué que cette méthode peut avoir des impacts négatifs. En effet si les documents considérés pour la réinjection contiennent peu d’informations pertinentes ou aucune, la réinjection ajoutera des termes à la requête initiale qui sont ”pauvres” à détecter la pertinence, et par conséquent pour la recherche des documents pertinents. La réinjection automatique peut être bénéfique si les requêtes initiales permettent de retrouver des documents pertinents, dans le cas contraire elle provoque une dégradation des performances. Des chercheurs comme Mitra et al. [134] et Buckley et al., [25], ont essayé avec un certain succès de surmonter ce problème en améliorant le taux de précision dans les k meilleurs documents, c’est ce qu’on nomme habituellement la ”haute précision”. D’autres groupes de recherche comme Efthimiadis et Biron, [51], Robertson et al., [150] et Lee [114] se sont concentrés sur l’amélioration des techniques de réinjection afin de détecter les meilleurs termes à ajouter ainsi que sur le calcul de leurs poids. Il est prouvé dans la majorité des travaux que la réinjection automatique présente une solution pratique pour l’amélioration des performances de la recherche en ligne sous un certain nombre de conditions. En particulier, c’est une technique très utile pour améliorer la recherche quand il s’agit de requêtes courtes ou de requêtes qui ne permettent pas de restituer assez de documents pertinents. Les améliorations observées en particulier dans le cadre de TREC sont faibles [99]. Pour répondre aux limites de cette technique, il est nécessaire de faire intervenir l’utilisateur dans le processus de réinjection de pertinence. Dans une section ultérieure, nous détaillons une approche qui permet la modification de la requête utilisateur d’une manière interactive. Chapitre 2. Reformulation de Requêtes 2.3.6.2 73 Réinjection de pertinence à itérations multiples Dans une série d’articles traitant des besoins d’information, Campbell a abordé la notion du besoin dynamique [27, 28, 29] à travers la notion de la ”pertinence ostensive”. L’idée derrière la pertinence ostensive est que des documents jugés pertinents dans une itération courante de RF présentent des indicateurs plus intéressants que ceux retrouvés dans des itérations précédentes. Cependant, les documents pertinents ne sont pas considérés d’égale importance mais d’importance variable. Dans [29], Campbell et Van Rijsbergen ont étendu le modèle probabiliste en intégrant un terme de ” vieillissement ” pour la pondération des termes pertinents. Ce concept permet de savoir si le document auquel appartient le terme est récemment jugé pertinent ou jugé dans des itérations antérieures. Dans [28], des expérimentations préliminaires de cette approche ont montré que la pondération ostensive peut améliorer les résultats en moins d’itérations de recherche que les approches non-ostensives. Ruthven et al. ont montré également que la pondération ostensive est bénéfique pour l’extension de la requête [158]. 2.3.6.3 Extension interactive de requêtes Dans le cas des méthodes d’extension automatique des requêtes décrites précédemment, les termes sont extraits à partir des documents et ajoutés en totalité à la requête. Une alternative est de permettre aux utilisateurs de choisir les termes pouvant être ajoutés : on parle d’Expansion Interactive des Requêtes (EIR) [78]. L’utilisateur qui est le mieux placé pour déterminer la pertinence, a alors plus de contrôle sur les termes qui seront ajoutés à la requête. Cette technique est défendue par le fait que l’utilisateur peut mieux sélectionner les termes pertinents que le système. Bien que les systèmes aient accès à l’information statistique interne qui leur permet de choisir de bons termes discriminatoires, les utilisateurs peuvent prendre une décision plus perspicace de la pertinence. La question est alors comment concevoir un système d’extension de requêtes interactif pour traduire les avantages potentiels de l’EIR afin d’améliorer les performances des systèmes de recherche. Il y a plusieurs problématiques associées à ce problème, qui concernent en général les interfaces dynamiques. 2.3.6.4 Combinaison d’algorithmes de réinjection de pertinence Une autre application de la réinjection de pertinence est la combinaison des résultats de différentes méthodes de réinjection. Ceci pourrait impliquer de combiner les classements donnés par les différentes méthodes de réinjection sur Chapitre 2. Reformulation de Requêtes 74 les mêmes évaluations originales de requête et de pertinence, ou la combinaison des requêtes modifiées selon plusieurs méthodes de réinjection. Cette approche a été expérimentée et validée par Lee dans [114]. D’après Ruthven et Lalmas [157], la combinaison des évidences est une technique puissante pour la réinjection de pertinence, cependant, la majorité de techniques évaluées ont prouvé que cette combinaison est une technique très variable pour la recherche initiale : elle permet d’améliorer la performance pour quelques requêtes mais aussi de la dégrader pour d’autres. En outre, il est également très difficile de prévoir quelles sont les évidences à combiner pour différentes collections ou requêtes. 2.4 2.4.1 Réinjection de pertinence en RIS Problématiques de la réinjection de pertinence en RIS La nature des documents semi-structurés, comportant du texte et des informations structurelles, réactualise la problématique de la RI classique (plein texte) en général et de la reformulation de requêtes en particulier. L’objectif de la RF en RIS est d’enrichir la requête initiale (comme en RI traditionnelle) afin de mieux exprimer les besoins de l’utilisateur. Comme nous l’avons déjà vu dans l’introduction générale, plusieurs questions se posent dans ce contexte. Elles portent principalement sur la manière de prendre en compte le contenu et structure lors de la reformulation de requête. Nous résumons ici les principales : – En RI classique, l’unité documentaire jugée et donc à partir de laquelle les termes sont extraits, est le document entier. Les méthodes proposées ont montré leur intérêt en termes de rappel-précision [154], [152]. Or dans le contexte de la RIS, l’unité documentaire peut avoir différentes formes. Elle peut être le document entier ou tout élément du document. Une adaptation simpliste des méthodes de la RI classique à la RI structurée consisterait à extraire les termes pertinents à partir des éléments de différentes granularités jugés pertinents par l’utilisateur. Cette adaptation simpliste est-elle en adéquation avec la RI structurée ? Comment tenir compte du fait que les éléments peuvent être imbriqués les uns dans les autres ? Permet-elle effectivement d’améliorer les performances de la recherche ? Au lieu de sélectionner indifféremment tous les éléments pertinents pour l’extraction des termes, doit-on au contraire prendre en compte les sémantiques différentes des éléments (par exemple, paragraphe, titre, Chapitre 2. Reformulation de Requêtes 75 section) ? – La reformulation de requêtes s’est intéressée à enrichir la requête initiale par extraction et réinjection des termes pertinents, mais qu’en est-il de la dimension structurelle ? Est-il intéressant d’enrichir une requête avec des contraintes structurelles ? – Une dernière question concernant le processus de la reformulation est la réécriture de la requête. D’une manière générale, on aura à rajouter des termes pertinents et/ou des structures pertinentes à des requêtes structurées et non structurées. La question est comment intégrer ces deux évidences dans la requête initiale ? Comment pondérer les termes ? Doiton re-pondérer les termes originaux ? Comment rajouter des structures à des requêtes déjà structurées ? A quels groupes de mots-clés doit-on ajouter des conditions structurelles ? 2.4.2 Principales approches de la réinjection de pertinence en RIS On classifie les différentes approches développées en RF dans les document structurés selon deux principales voies : – des approches orientées contenu qui se basent sur l’extraction, la pondération et la réinjection des termes pertinents dans la requête initiale, – d’autres approches orientées contexte qui consistent à extraire des informations concernant le contexte des éléments jugés pertinents comme le document dans lequel ils se trouvent, le nom des balises, les balises des ancêtres, des descendants, la taille, etc. 2.4.2.1 Approches orientées contenu La majorité des approches proposées dans ce cadre ont simplement adopté l’algorithme de Rocchio à la recherche d’information structurée. Ceci consiste de manière générale à extraire les termes à partir des éléments jugés pertinents et les pondérer. On trouve ces adaptations dans plusieurs travaux que nous décrivons brièvement dans ce qui suit. Réinjection de pertinence à la Rocchio En 2004, Mass et Mandelbrod ont développé une première approche orienté Chapitre 2. Reformulation de Requêtes 76 contenu [127] appliquée à leur système de recherche basé sur le modèle vectoriel étendu développé en 2002 [129]. La réinjection de pertinence ne concerne que les requêtes composées de simples mots clés. Comme nous l’avons mentionné dans le chapitre précédent leur système de base consiste en une recherche indépendante au niveau de chaque index3 . Les auteurs ont proposé un algorithme [128] basé sur la formule de Rocchio [154], qui est appliqué à chaque type d’éléments. C’est une adaptation exacte de l’algorithme de Rocchio (section 2.3.4.1) : au lieu de considérer le document entier, on considère les éléments. D’après les résultats obtenus dans la campagne d’évaluation INEX 2005 [65], les améliorations ne dépassent pas 5%. Crouch et al. [43] ont eux aussi appliqué l’algorithme de Rocchio sur leur système de recherche basé sur la propagation de pertinence. Ces travaux ont principalement évalué l’intérêt de prendre en compte une seule dimension de pertinence pour sélectionner les éléments pertinents, en l’occurrence l’exhaustivité. Plus précisément, seuls les paragraphes ayant une valeur d’exhaustivité élevée sont utilisés dans le processus de la réinjection. Dans le cadre de INEX 2004 [63], les améliorations n’ont pas dépassé un taux de < 4%. Sigurbjörnsson et al. [174] ont eux aussi utilisé l’algorithme de Rocchio pour la réinjection de pertinence aveugle sur leur modèle de recherche basé sur la combinaison des modèles de langage de l’élément, de document et de la collection (voir chapitre précédent, section 1.2.2.5). Ils ont évalué l’extraction des termes à partir de l’index article ainsi de l’index des éléments. Les résultats obtenus dépendent des requêtes et ne permettent pas de tirer des conclusions claires. Autres propositions pour la réinjection de pertinence On trouve également dans la littérature des stratégies de sélection de termes ad-hoc comme celle proposée par Geva [68]. Elle consiste à d’extraire les dix premiers éléments, d’éliminer ensuite les mots qui occurrent plus de 50000 fois dans la collection et ceux qui ont un taux d’occurrence de moins de 20% dans les éléments retournés. Le reste des mots est classé par ordre décroissant selon leurs fréquences, les 5 premiers sont rajoutés à la requête. Les évaluations ne montrent aucune amélioration des résultats. 3 L’index est composé de plusieurs sous-index où chacun représente l’ensemble des éléments des documents ayant un type unique, comme par exemple paragraphe, section,... Chapitre 2. Reformulation de Requêtes 2.4.2.2 77 Approches orientées contexte On appelle contexte toute information décrivant les éléments pertinents non pas du point de vue contenu (mots clés) mais par rapport au contexte dans lequel ils apparaissent : balise, taille, ancêtre, descendant, etc. On retrouve l’utilisation de cette notion en réinjection de pertinence dans le cadre des travaux de Sigurbjörnsson et al. [131], [132] en particulier dans le système de recherche TIJAH [174] basé sur un modèle de langage. Plus précisément, ces auteurs ont proposé d’utiliser le contexte implicite des éléments jugés pertinents pour améliorer leurs performances. La reformulation est réalisée en deux étapes : – Extraction du contexte des éléments les plus pertinents. – Reformulation de la requête orientée contenu en réinjectant les informations contextuelles déjà extraites. Pour extraire l’information contextuelle, les auteurs ont utilisé les noms des journaux4 auxquels appartiennent les éléments jugés pertinents parmi les 20 premiers retrouvés par le système, les noms de ces éléments ainsi que leur taille. Ils ont considéré que si un élément est évalué comme pertinent pour une requête donnée, le journal auquel il appartient est susceptible de contenir des informations semblables. Le nom de la balise XML dans lequel se trouve l’élément pertinent est également utilisé dans ce processus dans le but de privilégier dans la liste des résultats trouvés, les éléments ayant le même nom de balise. le troisième indicateur utilisé est la taille des éléments. L’idée de tenir compte de la taille d’un élément est basée sur le fait que les éléments ayant une taille rapprochée à celle des éléments pertinents sont probablement désirés davantage par l’utilisateur. La priorité d’un journal est calculée selon la formule suivante : P |J ⊇ top20 | r∈top20 ⊆J Er + (1 − a − b). P (J) = a + b. 3.|{r ∈ top20 |Er > 0|} 20 (2.15) avec Er est la valeur d’exhaustivité de l’élément r appartenant au vingt premiers éléments issu d’un journal J et a, b des poids accordés à l’importance de l’information. Cette équation n’utilise que l’exhaustivité, elle traduit le fait que plus un journal est exhaustif plus il contient d’éléments pertinents. Pour le calcul de priorité d’un élément, on tient compte de l’exhaustivité 4 Les expérimentations sont réalisées sur la base d’INEX 2004 où la collection est composée d’articles de journaux IEEE. Chapitre 2. Reformulation de Requêtes 78 ainsi que de la spécificité pour traduire si l’élément est trop grand ou trop petit. La priorité d’un élément est exprimée par la formule suivante : P |e ∈ top20 | r∈top20 ⊆e Er + Sr P (e) = a + b. + (1 − a − b). (2.16) 6.|{r ∈ top20 |Er .Sr > 0|} 20 avec Sr la valeur de spécificité de l’élément r appartenant au vingt premiers éléments. La taille désirée est estimée selon une combinaison des tailles des 20 meilleurs éléments en fonction de leurs valeurs d’exhaustivité et de spécificité. Pour la réécriture de la requête de type CO, les auteurs ont proposé des requêtes contenant des mots clés et les balises dans lesquelles l’utilisateur souhaite trouver l’information. Un poids P (e) déjà calculé est associé aux contraintes structurelles (balises) qui sont reliées par l’opérateur booléen ”or”. Plusieurs combinaisons de contexte ont été évaluées. Les améliorations sont comparables et ne dépassent pas 6%. Réinjection de pertinence orientée contexte structurel Dans [169], Schenkel et al. ont proposé une technique permettant d’étendre la requête initiale de type CO en requêtes structurées, en intégrant le contexte structurel des éléments. Ce dernier est composé d’un ensemble de champs décrivant l’ancêtre, les descendants ainsi que le contenu de chaque élément. Les auteurs ont alors défini 4 classes de caractéristiques à partir des éléments jugés pertinents : – Les termes composant le contenu de l’élément (classe C), – Le couple balise-terme dans les descendants de l’élément (classe D). – Le couple balise-terme dans les ancêtres de l’élément (classe A). – Le couple balise-terme dans les descendants des ancêtres de l’élément (classe AD). Tous les candidats de chaque classe sont pondérés par un score WRSJ (c) calculé selon la formule de Robertson : WRSJ (c) = log rc + 0.5 E − efc − R + rc + 0.5 + log R − rc + 0.5 efc − rc + 0.5 (2.17) Avec rc est le nombre d’éléments pertinents qui contiennent le terme candidat c, R le nombre d’éléments pertinents, E le nombre d’éléments dans la collection, et efc la fréquence d’élément pour un candidat (nombre d’éléments où le candidat apparaı̂t). Chapitre 2. Reformulation de Requêtes 79 Pour un candidat c, la valeur de RSV est calculée comme suit : RSV (c) = WRSJ (c).(p − q) (2.18) Où p = rc /R est la probabilité d’occurrence d’un candidat dans l’ensemble des éléments pertinents et q est la probabilité d’occurrence d’un candidat dans l’ensemble des éléments non pertinents. Les auteurs ignorent par la suite les candidats qui apparaissent seulement dans les descendants des éléments. Le reste des candidats est trié en fonction de leurs valeurs RSV. Les candidats ayant les meilleurs poids sont par la suite sélectionnés. Les candidats des classes A et AD doivent avoir le même ancêtre pour être sélectionnés. La requête étendue est reformulée comme suit (en langage NEXI [190]) : //balise-ancêtre [contraintes d’A+AD] //* [mots clés initiaux +contraintes de C+D]. Par exemple, si la requête initiale est composée d’un simple mot clé ”XML” et on considère les candidats : A (ancêtre, article,’ IR’), AD (article, bib,’ index’) et D (descendant, p,’ index’), la requête étendue est : //article [about(. ,’ IR’) and about (//bib,’ index’)]//*[about (. ,’ XML’) and about(//p,’ index’)]. Les auteurs ont ensuite procédé de manière à attribuer les meilleurs scores (RSV(c)) aux candidats des classes C et D tout en restant inférieurs aux scores des mots clés initiaux et à pénaliser les scores des candidats des classes A et AD en les multipliant par une constante β =0.2. Les expérimentations montrent que les meilleurs résultats sont obtenus par la combinaison de toutes les caractéristiques et que les évaluations selon le INEX 2006 montrent des améliorations de l’ordre de 25%. On remarque que cette approche permet d’enrichir les requêtes par des couples balise-terme mais n’exprime pas explicitement de relations entre les termes et les structures et que les termes sont extraits de manière indépendante les uns des autres. Une alternative de l’utilisation du contexte est appliquée pour le réordonnancement des résultats [169]. La réinjection de pertinence est alors utilisée pour évaluer le nouveau score des éléments. Ce calcul est effectué en fonction des caractéristiques contextuelles extraites à partir des 20 premiers éléments jugés. Ce score sera par la suite ajouté au score initial de l’élément. Les auteurs ont défini alors des classes descriptives : – Les termes composant le contenu de l’élément (classe C) Chapitre 2. Reformulation de Requêtes 80 – Les couple balise-termes dans le document de l’élément (classe D) qui peut renseigner sur la nature des éléments qui peuvent appartenir au document, et – Les dérivés du chemin des éléments (classe P) : préfixe du chemin, sous chemin, suffixe du chemin, chemin entier ... Pour chaque classe, on calcule le poids des candidats selon la formule de Rocchio. Pour chaque élément du résultat de base, on calcule un score pour chaque classe dans un espace vectoriel où chaque dimension correspond à un candidat qui se produit dans au moins un élément des vingt meilleurs éléments. Les scores correspondant à chaque classe sont alors calculés comme le cosinus du vecteur composé des k meilleurs candidats. Chacun des scores est normalisé dans l’intervalle [-1.0, 1.0]. Le score final de l’élément est la somme de ses scores calculés ajoutée au score initial. Les expérimentations ont montré que les meilleurs résultats sont obtenus en ne considérant que la classe décrivant le document (D) et la classe des dérivés du chemin (P). Cependant, en suivant le protocole d’INEX, les amélioration ne dépassent pas 2%. 2.4.3 Bilan On constate que l’ensemble des approches orientées contenu proposées consistent à enrichir une requête initiale en rajoutant des termes pertinents. Ces termes sont sélectionnés en fonction de mesures statistiques basées sur les fréquences des termes dans les éléments pertinents. Dans le cas du modèle vectoriel étendu, les index correspondent à des types d’éléments prédéfinis, ce qui rend cette approche contraignante puisqu’elle dépend d’un type de DTD bien défini. On remarque également qu’en aucun cas la sémantique des éléments n’a été prise en compte : les termes sont sélectionnés indépendamment du type des éléments pertinents pris en compte. Les approches orientées contexte permettent d’enrichir les requêtes par le contexte des éléments pertinents indépendamment des termes. On rajoute en général des préférences sur le contexte mais en aucun cas on ne spécifie la structure d’élément recherché, c’est-à-dire une structure exacte dans lequel on retrouve tous les éléments pertinents. Enfin, les deux types d’approches (orientée contenu et orientée contexte) sont appliquées indépendamment, alors qu’il serait intéressant de voir ce que donnerait leur combinaison. Chapitre 2. Reformulation de Requêtes 81 2.5 Évaluation de la reformulation de requêtes 2.5.1 Différentes stratégies d’évaluation de la reformulation Dès le début des années 70, Chang et al. [34] ont démontré que l’évaluation des algorithmes de RF pose certains problèmes pour le rappel et la précision. Étant donné que la réinjection de pertinence utilise l’information extraite à partir des documents jugés pertinents, il est évident qu’un des effets principaux de la RF est de pousser les documents jugés pertinents au dessus de leur rangs initiaux. Ce ré-ordonnancement améliorera artificiellement les valeurs de rappel précision. Ceci rend difficile l’examen de l’impact de la réinjection de pertinence sur la restitution des documents pertinents. Chang et al. [34] ont donc étudié trois solutions pour mettre en évidence les impacts invisibles de la réinjection de pertinence. – Rang résiduel : Cette technique consiste à éliminer du résultat final, les documents qui sont utilisés pour le jugement de pertinence. Ceci inclura les documents pertinents et non pertinents. Après la réinjection de pertinence, les taux de rappel précision sont calculés sur le résultat (résiduel) restant. L’avantage de cette méthode est qu’elle considère seulement l’effet de la réinjection sur les documents pertinents restitués. L’inconvénient de cette stratégie est que, à chaque itération de réinjection, les valeurs de Rappel|Précision peuvent être basées sur différents nombres de requêtes. Ceci est dû au fait que des documents pertinents sont éliminés de la collection. Si tous documents pertinents pour une requête donnée sont supprimés, alors la requête ne peut plus être utilisée dans des itérations suivantes puisqu’il n’y a aucun document pertinent pour calculer les valeurs de rappel-précision. Cette méthode est seulement appropriée à un nombre restreint d’itérations de réinjection, autrement le nombre de documents pertinents dans la collection résiduelle peut devenir relativement petit et peu représentatif de l’ensemble des documents pertinents. En outre les performances avant/après reformulation ne sont pas réellement comparables, puisqu’elles sont effectuées sur des collections différentes. Pour avoir deux types d’ordonnancement différents mais directement comparables, Salton [162] a utilisé la collection résiduelle avant et après la réinjection. – ”Freezing” La méthode connue sous le nom de ”freezing” [157] est basée sur les rangs des documents dans la liste des résultats et elle existe sous deux formes : ”blo- Chapitre 2. Reformulation de Requêtes 82 cage entier” et ”blocage modifié”. Dans le cas du blocage entier, les rangs des n meilleurs documents jugés pour la réinjection sont bloqués. Les documents restants sont retirés et les valeurs Rappel/Précision sont calculées pour l’ensemble des documents. Comme les seuls documents à changer de rangs sont ceux qui succèdent les n meilleurs documents, aucun changement de Rappel|Précision ne se produit avant le rang n. Dans le cas du ”blocage modifié”, les rangs sont bloqués au rang du dernier document jugé pertinent. L’inconvénient des approches de ”freezing” est qu’à chaque itération de réinjection une proportion plus intéressante de documents pertinents est bloquée. Ceci signifie que les n meilleurs documents bloqués contribue plus au taux de rappel-précision aux itérations postérieures de la réinjection. Bien que la réinjection puisse fonctionner mieux à ces itérations postérieures, elle peut sembler moyennement efficace à cause d’une contribution plus élevée des documents bloqués (i.e. les améliorations ne concernent qu’une partie de plus en plus petite de l’ensemble des résultats). Dans ce qui précède nous avons mentionné que la méthode du rang résiduel force à éliminer les requêtes pour lesquelles tous les documents pertinents avaient été trouvés. Pour les méthodes de ”freezing”, une fois que tous documents pertinents pour une requête donnée, ont été trouvés, les taux de rappelprécision peuvent encore être calculés. Cependant ces taux ne changeront pas une fois que tous documents pertinents ont été bloqués. Intuitivement ceci semble correct : une fois que nous avons trouvé tous les documents pertinents pour une requête donnée, la réinjection n’améliore pas ou n’empire pas l’efficacité de récupération des documents pertinents. – groupes d’essai et de test. Dans cette technique [157], la collection de documents est aléatoirement coupée en deux collections : le groupe d’essai et le groupe de test. La reformulation de requête est effectuée par réinjection de pertinence sur le groupe d’essai et la nouvelle requête est alors exécutée dans le groupe de test. Les taux de Rappel|précision sont évalués seulement au niveau du groupe de test, il n’y a donc aucun effet de rang. Des requêtes successives peuvent être lancées sur le groupe de test pour évaluer des requêtes reformulées sur une collection de documents qui peut être considérée complète, contrairement de la méthode de rang résiduel. À la différence des méthodes de ”freezing”, tous les documents pertinents dans le groupe de test sont libres de se déplacer dans la liste triée des documents. Ceci signifie que les taux de rappel-précision, avant et après refor- Chapitre 2. Reformulation de Requêtes 83 mulation de requête, sont directement comparables. La difficulté avec cette méthode d’évaluation est de dédoubler la collection. Il est facile de dédoubler aléatoirement une collection de document (par exemple en mettant tous les documents pairs dans le groupe d’essai et tous les documents impairs dans le groupe de test). Cependant, cette distribution n’assurera pas le fait que les documents pertinents sont également dédoublés entre les deux collections. En aucun cas, on ne peut s’assurer que les documents pertinents dans le groupe d’essai sont représentants de ceux dans le groupe de test. D’autres facteurs tels que la longueur des documents ou la distribution des termes d’index peuvent également être importants pour la méthode de réinjection examinée, et on ne peut pas également s’assurer que la distribution des termes est dédoublée entre les deux collections. Chacune de ces méthodes a des avantages et des inconvénients mais toutes sont des méthodes standards pour évaluer des algorithmes de réinjection de pertinence. Cependant, elles comparent seulement l’exécution des algorithmes dans des conditions idéales [108, 53, 181]. Un point final concernant les mesures d’évaluation de la réinjection de pertinence est qu’elles peuvent ne pas être directement comparables : chaque mesure peut donner différents résultats selon la façon dont les résultats sont comparés et sur quels facteurs la recherche est effectuée. En conclusion, les mesures d’évaluation calculent différents aspects de réinjection : la stratégie de ”freezing” mesure l’efficacité cumulative, le rang résiduel mesure l’efficacité de rechercher seulement les documents pertinents restants et le groupe d’essai et de test mesure la performance relative des requêtes reformulées produites à chaque itération. 2.5.2 Évaluation selon la campagne d’évaluation INEX Le protocole de la campagne d’évaluation INEX 2005 et 2006 [4, 64] consiste à considérer le jugement de pertinence des 20 premiers éléments retournés par le système de base pour les requêtes CO et les requêtes de type CAS. Seule la stratégie de recherche ”Thorough” (recherche de tous les éléments pertinents) est utilisée dans la tâche de RF. Le processus de réinjection de pertinence peut être appliqué en plusieurs itérations pour une requête donnée. Il n’y a aucune restriction sur le nombre d’itérations. Un run5 de RF est établi comme suit : on utilise les jugements de pertinence des 20 premiers éléments du résultat de la recherche initiale. Les éléments jugés sont alors bloqués avec leur rang original et le reste des éléments sont triés à la suite des 20 premiers éléments. Si on applique plusieurs itérations de RF, pour 5 Dans le jargon de la RI, on appelle run l’ensemble des résultats d’un système donné pour un jeu de requêtes données. Chapitre 2. Reformulation de Requêtes 84 chaque itération i, les éléments jugés sont ”bloqués” (gardent les mêmes positions que les runs de base) de la position (i-1) *20 jusqu’à ce qu’à la position i ∗ 20 − 1. Le reste des éléments pourvus des éléments jugés est trié à partir de la position n ∗ 20 − 1, avec n le nombre d’ itérations. En 2006, les organisateurs ont proposé de varier les expérimentations avec différentes stratégies de post-réinjection pour éliminer l’influence des éléments dont la pertinence est connue sur les résultats, parmi elles plusieurs variantes de la méthode du rang résiduel ou du ”freezing” sur n éléments, n étant à fixer. Seuls les résultats utilisant la stratégie de ”freezing” à 20 éléments sont évalués officiellement. Afin de pouvoir comparer les requêtes reformulées, on a proposé d’indiquer la requête reformulée utilisée après réinjection de pertinence. Le format pour cette requête reformulée suit le langage de requête NEXI avec les poids additionnels et facultatifs pour les termes, par exemple, //article [about (. , 0.5*XML 0.75*database -0.3*index)] Pour évaluer les améliorations apportées par le processus de réinjection de pertinence on a défini la valeur absolue d’amélioration (AA ou AI (Absolute Improvement)) calculée comme suit : M e(RFrun ) − M e(baserun ) (2.19) et l’amélioration relative (AR ou RI (Relative Improvement)) calculée comme suit : M e(RFrun ) − M e(baserun )/M e(RFrun ) (2.20) où M e(RFrun ) (resp. M e(Baserun )) est la mesure considérée pour les résultats après réinjection (resp. des résultats de base). En 2006, seule la fonction généralisée d’agrégation est considérée. 2.6 Conclusion La reformulation de requêtes est une phase importante du processus de recherche d’information. Elle consiste de manière générale à enrichir la requête de l’utilisateur en ajoutant des termes permettant de mieux exprimer son besoin. Cette technique peut être appliquée automatiquement ou d’une façon interactive, c’est à dire avec l’intervention de l’utilisateur. La nature des documents semi-structurés ainsi que les requêtes a conduit à de nouvelles problématiques spécifiques à la reformulation de requêtes dans la recherche d’information structurée. Les approches proposées dans ce contexte se divisent en deux principaux types : Chapitre 2. Reformulation de Requêtes 85 les approches orientées contenu dont le but est d’enrichir le contenu des requêtes en y ajoutant des termes pertinents comme en RI classique et les approches orientées contexte qui permettent d’enrichir la requête initiale en spécifiant le contexte dans lequel apparaissent les éléments pertinents. Nous avons montré tout au long de ce chapitre que les approches proposées jusque là ne permettent pas d’aboutir à des améliorations significatives des résultats exceptée celle qui considère l’aspect structurel dans le contexte. Plusieurs points peuvent expliquer ces résultats : – dans les approches orientées contenu, les termes sont sélectionnés indépendamment du type des éléments pertinents pris en compte, – les approches orientées contexte ne permettent pas de spécifier la structure des éléments recherchés, – les deux types d’approches sont appliquées séparément, alors que la combinaison d’évidence a souvent montré son intérêt en RI. Dans la suite du document, nous présentons notre contribution pour la réinjection de pertinence ou RIS. Nos propositions visent à répondre aux différentes problématiques de la réinjection de pertinence en recherche d’information structurée, et tentent d’apporter des solutions aux limites énoncées ci-dessus. Deuxième partie Nouvelles Approches pour la Reformulation de requêtes en Recherche d’Information Structurée 86 Chapitre 3 Reformulation de requêtes par réinjection de contenu et de structures 3.1 Introduction La reformulation de requêtes en Recherche d’Information structurée par réinjection de pertinence ne concerne plus que les mots clés (cas de la RI classique) mais aussi d’autres sources d’évidence qui permettent de spécifier l’élément recherché. Comme nous l’avons mentionné dans le chapitre précédent, ces sources peuvent décrire le contexte des éléments pertinents (descendants, ancêtres, taille, ...). Dans ce chapitre, nous proposons de nouvelles approches de réinjection de pertinence en utilisant différentes sources d’évidence. En effet, nous proposons d’enrichir le contenu de la requête initiale par des termes pertinents sélectionnés selon leur distribution dans les éléments pertinents et non pertinents ainsi que leur proximité vis-à-vis des termes de la requête initiale. Une autre source d’évidence que nous allons aussi utiliser est l’information structurelle que nous traduisons par la notion de structure pertinente. Nous proposons également de faire cohabiter les deux sources d’évidence contenu et structure dans une approche combinée. Ce chapitre est structuré de la manière suivante. Nous présentons tout d’abord notre motivation dans la section 3.2, ensuite nous décrivons dans la section 3.3 l’approche orientée contenu. La section 3.4 est consacrée à l’approche orientée structure. Enfin, l’approche combinée sera détaillée dans la section 3.5. Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 3.2 88 Motivation Nous avons présenté dans le chapitre précédent les différentes approches proposées pour la réinjection de pertinence dans la recherche d’information structurée. Certaines permettent d’étendre la requête au niveau du contenu et ont généralement utilisé l’algorithme de Rocchio [154] et d’autres ont proposé d’utiliser le contexte des éléments pertinents. Nous avons également montré qu’une simple adaptation de l’algorithme de Rocchio dans le contexte de la recherche d’information structurée ne conduit pas à une amélioration significative des résultats [91], [168], [43], [128]. De ce fait, nous pensons que les évidences classiques (tf ∗ idf ) utilisées pour l’identification des termes pertinents et leur pondération doivent être revues dans le cas des documents semi-structurés puisqu’on traite non plus des documents entiers mais des parties des documents. Il faudrait trouver et intégrer d’autres indicateurs adéquats aux documents semi-structurés. Dans le cas des approches orientées contexte, la réinjection de pertinence consiste à prendre en compte le contexte dans lequel apparaissent les éléments pertinents. Elles concernent précisément la prise en compte des ancêtres, des descendants, du nom du journal dans lesquels apparaissent des éléments pertinents, ainsi que leurs taille. Les résultats obtenus restent non significatifs (taux d’amélioration < 5%). Seule l’approche de réinjection du contexte structurel a montré son intérêt [169]. Ces approches restent étroitement liées à un type de DTD. De plus, la majorité des approches proposées en réinjection de pertinence, ont abordé une seule source d’évidence à la fois soit contenu soit contexte. Il existe peu voire pas d’approches ayant combiner les deux sources pour identifier des éventuelles relations de pertinences entre termes et structures. De plus, dans aucune des approches proposées on ne retrouve une modélisation des relations directes entre les données textuelles et les données structurelles. Les objectifs de nos travaux sont alors les suivants : – utiliser d’autres sources d’évidence, indicateurs, pour sélectionner et pondérer les termes pertinents [89], – proposer une approche pour la réinjection de la structure [90], [84], [92], – enfin étudier l’impact de la combinaison des deux sources d’évidence (contenu et structure) [86] [87], [88], [85] pour enrichir la requête initiale et répondre en particulier à la question de dépendance contextuelle Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 89 Fig. 3.1 – Mécanisme de reformulation qui peut exister entre les termes pertinents et les structures pertinentes. Nos investigations concernent donc plusieurs points comme ceci est résumé dans la figure 3.1. Le point de départ des approches que nous proposons est évidemment la liste des éléments jugés pertinents par l’utilisateur. En outre, la démarche que nous adoptons pour ce processus de reformulation de requête est composée essentiellement de 3 étapes : 1. La première étape : Echantillonnage. Cette étape est commune à toutes les approches proposées, elle consiste à construire un échantillon d’éléments à partir des résultats de base et des jugements de pertinence. Un échantillon est caractérisé par sa taille, le nombre d’éléments pertinents qu’il contient et la nature de la pertinence considérée (degré d’exhaustivité et de spécificité). Nous n’avons pas effectué d’investigations ni de propositions théoriques particulières dans cette étape. C’est une étape qui a été investie principalement lors de l’expérimentation de nos approches. Nous discuterons donc dans le chapitre consacré à l’expérimentation les critères à considérer pour la construction d’un échantillon. 2. La seconde étape : Extraction des sources d’évidence. Dans cette étape, nous proposons trois types d’approches pour extraire des informations à partir de l’échantillon défini dans l’étape précédente : Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 90 – la première orientée contenu dans laquelle on enrichit le contenu de la requête par des termes pertinents, – la seconde permet d’extraire des structures pertinentes, – la troisième combine les deux sources : termes pertinents et structures pertinentes. 3. La dernière étape : Réécriture de la requête. Cette étape dépend de l’approche utilisée ainsi que du type de requêtes (structurées et non structurées). Elle permet de réinjecter les données sélectionnées de l’étape précédente pour aboutir à une nouvelle requête qui peut être exécutée par le système de recherche. Comme nous l’avons mentionné ci-dessus, les étapes que nous venons de décrire concernent les 3 approches proposées : orientée contenu, orientée structure et combinée. Ainsi, au lieu de présenter chacune de ces étapes d’une manière séparée, nous avons préféré les présenter dans chacune des approches. 3.3 Approche orientée Contenu Notre approche orientée contenu se déroule en trois étapes : l’extraction et la sélection des termes pertinents, la pondération des termes de la requête et enfin la réécriture de la requête. 3.3.1 Extraction et Sélection des termes pertinents Nous avons abordé le problème d’extraction de termes en utilisant différents indicateurs de pertinence. Ceci a conduit à trois stratégies. Nous proposons tout d’abord une stratégie de base utilisant uniquement la distribution des termes dans les éléments pertinents, puis les stratégies intégrant d’autres sources notamment le contexte des termes et l’information issue de la pertinence négative. 3.3.1.1 Stratégie de base : Sélection par probabilité de pertinence Nous avons assimilé le problème d’extraction des termes pertinents à un problème probabiliste. En effet, l’extraction des termes pertinents est conditionnée par leur présence dans les éléments jugés pertinents. L’idée derrière cette approche et que plus un terme figure dans des éléments jugés pertinents plus sa probabilité de pertinence, c’est à dire sa capacité d’exprimer le besoin de l’utilisateur, est importante. Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 91 Une manière simple de mesurer cette probabilité est d’utiliser le maximum de vraisemblance. On considère alors la pertinence d’un terme tj comme un événement probabiliste. Ceci est une traduction simple de la formule de Robertson [152]. Ainsi, la probabilité qu’un terme soit pertinent pour une requête est définie comme suit : P (tj /R) = |pej |/|E p | (3.1) où R est l’évènement pertinence. |pej | est le nombre d’éléments pertinents dans lesquels apparaı̂t le terme tj et |E p | est la taille de l’ensemble le nombre d’éléments pertinents (E p ). Cette équation attribue des probabilités indépendamment des fréquences des termes dans les éléments pertinents. De ce fait, tous les termes des éléments jugés pertinents auront un poids > 0. Cette formule présente des limites dans le cas où les termes occurrent dans le même nombre d’éléments pertinents mais avec des fréquences différentes. Dans ce cas les termes peuvent être de degrés d’importance différents alors qu’ils ont le même poids. Exemple : si considère un terme t1 qui occurre dans 2 éléments jugés pertinents dans un ensemble composé de 3 éléments pertinents, avec des fréquences 3 et 5 et un terme t2 qui occurre également dans 2 éléments jugés pertinents avec des fréquences 1 et 2, bien qu’il nous parait que le terme t1 est plus représentant de l’élément pertinent que le terme t2 , ces derniers ont le même poids = 0,66. Nous essayons alors d’affiner le choix des termes pertinents dans l’étape suivante : sélection basée sur le contexte des termes pertinents. 3.3.1.2 Stratégie basée sur le contexte Comme nous l’avons signalé, l’extraction des termes en considérant uniquement leurs distribution dans les éléments pertinents est insuffisante pour déterminer leur degré de pertinence. En effet, les valeurs de probabilité calculées ne sont pas assez discriminantes. Comme la pertinence est définie selon deux dimensions l’exhaustivité et la spécificité, notre problème revient alors à trouver les termes qui décrivent des éléments à la fois spécifiques et exhaustifs. La notion d’exhaustivité est traduite par la distribution des termes dans les éléments pertinents que nous avons vue dans la stratégie de base. La spécificité peut être traduite en considérant les termes proches de ceux de la requête. En d’autres termes, si un terme se trouve souvent aux alentours des termes de la requête, il y a une forte chance que ce terme soit lié sémantiquement Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 92 à ceux de la requête. Intuitivement, ce terme pourrait être un bon candidat pour l’enrichissement de la requête initiale. Une manière simple de traduire cette proximité surfacique entre les termes des éléments pertinents et ceux de la requête est d’utiliser la notion de contexte d’un terme. Cette notion a été préalablement utilisée en RI classique [159], nous l’avons adapté à notre contexte. C’est une mesure qui tient compte des termes de la requête pour pondérer les termes extraits d’un élément jugé pertinent. Elle est basée sur les distances entre les termes d’un élément et ceux de la requête. Elle est définie dans l’équation suivante : contextei (tj ) = (distributionei (q) − minei (tj ))/distributionei (q) (3.2) minei (tj ) = mintj 6=tk |(positionei (tj ) − positionei (tk ))| (3.3) distributionei (q) = length(ei )/occurrencesei (q) (3.4) où distributionei (q) est la distribution de tous les termes de la requête dans l’élément ei , avec length(ei ) la taille de l’élément ei moins les termes de la requête et occurrenceei (q) le nombre d’occurrences des termes de la requête q dans l’élément ei minei (tj ) est la différence minimale de positions entre n’importe quelle occurrence du terme tj et un autre terme tk de la requête, avec positionei (tj ) la position du terme tj dans ei . Cette notion permet de mesurer le degré d’appartenance d’un terme au contexte d’une requête donnée. Elle sert à mettre en valeur les termes exprimant à la fois l’exhaustivité et la spécificité. En effet, la formule peut être interprétée de deux manières différentes : 1. Une interprétation directe de cette mesure permet de constater qu’on obtient un contexte élevé pour un terme tj dans le cas où minei (tj ) (distance entre tj et le terme tk de la requête) est faible (i.e minei (tj ) tend vers 0). Ce qui traduit la spécificité du terme par rapport à la requête. Exemple : Un utilisateur exprime le besoin suivant : ” recherche d’information ” Soit l’élément suivant jugé pertinent : ” Abrégée en RI ou IR (Information Retrieval en anglais), la recherche d’information est la science qui consiste à rechercher l’information dans des documents - les documents euxmêmes ou les méta données qui décrivent les documents ..., dans des bases de données - ... ...L’informatique a permis le Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 93 développement d’outils pour traiter l’information et établir la représentation des documents au moment de leur indexation, ainsi que pour rechercher l’information ...” La distribution de la requête est le nombre des termes de la requête figurant dans le paragraphe, ici : 7 par lequel on divise la taille du paragraphe excepté des termes de la requête soit 28, pour faciliter les calculs (on ne considère pas les prépositions, les propositions, les articles, etc.). Le minimum est quant à lui égal à 1. Si on calcule le score du terme ”document” par exemple : Context(tj ) = (4 − 1)/4 = 0.75. 2. Une deuxième interprétation vient du fait que si le minei (tj ) est faible, le contexte reste faible tant que distributionei (q) est faible (i.e. se rapproche de la valeur du minei (tj )). Ceci traduit le cas où les termes de l’élément considéré sont en majorité ceux de la requête. Les termes de cet élément n’appartenant pas à la requête ne représentent pas en général une description de l’information recherchée et par conséquent, ils ne peuvent pas être efficaces pour pointer sur des éléments exhaustifs. Exemple : soit la même requête que précédemment : ”recherche d’information” Si on considère l’élément suivant : ” Association francophone en Recherche d’Information et Applications (ARIA) ”. Cet élément bien qu’il ne réponde pas directement au besoin de l’utilisateur, est jugé pertinent puisqu’il renseigne sur l’association du domaine sans présenter aucune information sur le processus le la RI. Si on calcule le score du terme ”francophone” : la distribution de la requête dans cet élément est 3/2=1.5, le minimum =1. Context(tj ) = (1.5 − 1)/1.5 = 0.33. On remarque que ce terme a un poids bien inférieur à celui du terme ”document” dans l’exemple précédent (0.33 < 0.75). En effet, il appartient un élément caractérisé par une faible distribution des termes de la requête initiale. En conclusion la mesure contexte répond à nos besoins pour exprimer la pertinence d’un terme. Nous allons alors combiner le poids déjà calculé par la probabilité conditionnelle avec le contexte du terme calculé dans l’ensemble des éléments pertinents. Le poids d’un terme appelé Poids Contextuel (PC) sera calculé suivant l’équation 3.5 suivante combinant la probabilité et le contexte : Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures p P C(tj ) = P (tj /E ) × |pej | X contextej i 94 (3.5) i=1 où |pej | est l’ensemble des éléments pertinents contenant le terme tj . Cette équation conçue pour la sélection de termes pertinents en considérant la réinjection de pertinence positive. Dans le prochain paragraphe, nous proposons de considérer la pertinence négative pour l’extraction et la sélection des évidences. 3.3.1.3 Prise en compte de la pertinence négative Comme nous l’avons déjà mentionné dans le chapitre précédent, la reformulation de requête peut également prendre en compte des éléments jugés non pertinents [154]. D’une manière générale, l’effet de la réinjection négative est de diminuer l’importance des termes qui ont un effet négatif sur la recherche ou de les supprimer. Ces termes sont extraits des éléments jugés non pertinents. D’après Ruthven et al. [157], les éléments jugés non pertinents ne sont pas bien définis, ce qui explique le fait que la réinjection négative n’a pas d’effet important, en RI en termes de performances (i.e. dans Rocchio, le coefficient γ de la réinjection négative est beaucoup plus faible que le coefficient β de la réinjection positive). Intuitivement, nous croyons que la prise en compte de la réinjection de pertinence négative permettrait un meilleur taux de précision. Nous proposons pour cela de calculer pour chaque terme un facteur bruit [164]. Un terme présente du bruit s’il occurre autant de fois dans les éléments pertinents que dans les éléments non pertinents. Ce facteur bruit est calculé comme suit : Bruit(tj ) = np X tfjei i=1 ttfj log ttfj tfjei où tfjei est la fréquence du terme tj dans l’élément ei , np est le nombre d’éléments non pertinents et ttfj est la fréquence totale du terme tj dans les éléments non pertinents. (3.6) Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 95 Fig. 3.2 – Variation du bruit en fonction de fréquences Le Bruit(tj ) défini dans [164] est basé sur la fréquence du terme dans le document. Dans notre cas nous considérons les fréquences des termes au niveau des éléments jugés non pertinents. Si on étudie la fonction de bruit de plus près, on constate qu’elle ne peut être nulle que s’il s’agit d’un cas particulier. Bruit(tj ) = 0 correspond au cas où le terme n’apparaı̂t que dans un seul élément (ttfj = tfje ). Le reste des cas correspond à des valeurs qui sont soit entre 0 et 1 soit supérieures à 1. Le premier cas (0 < Bruit(tj ) < 1), correspond à une distribution variée dans les différents éléments jugés non pertinents : c’est le cas où le terme présente relativement du bruit. Le deuxième cas est celui où le terme occurre d’une manière régulière dans tous les éléments jugés non pertinents. Les variations du bruit en fonction des fréquences sont illustrées dans la figure 3.2 : plus le nombre d’éléments non pertinents dans lequel apparaı̂t un terme augmente, plus le bruit augmente. Il est au dessus de 1 ce qui correspond à un terme bruité. Remarquons que cette fonction ne peut pas avoir des valeurs strictement négatives puisque ttfj >= tfjei . Selon les valeurs possibles du bruit, ce facteur permet de discriminer davantage les poids des termes pour la sélection. Exemples : 1. soit un terme t1 qui occurre dans 3 éléments jugés non pertinents avec les fréquences suivantes : 2, 4 et 10. Le bruit est calculé comme suit : bruit(t1 ) = 2/16 ∗ log(16/2) + 4/16 ∗ log(16/4) + 10/16 ∗ log(16/10) = 0.38 Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 96 2. soit un terme t2 qui occurre dans 20 éléments jugés non pertinents avec une même fréquence égale à 5. Le bruit est calculé comme suit : bruit(t1 ) = 20 ∗ 5/100 ∗ log(100/5) = 1.3 Nous proposons alors de diminuer les poids des termes qui présentent un bruit élevé (c’est à dire bruit > 1) et d’augmenter ceux des termes moins bruités (ayant un bruit entre 0 et 1). Nous proposons alors d’intégrer le bruit dans le poids contextuel. Ainsi le poids ajusté (PA) combinant le facteur bruit et le poids des termes sélectionnés selon l’équation 3.5. Le poids ajusté permet de prendre en compte à la fois de la pertinence positive exprimée à travers le poids contextuel et la pertinence négative à travers le facteur bruit. P A(tj ) = (Pn C(ti ))Bruit(tj ) (3.7) Nous avons appliqué cette fonction en puissance des poids contextuels déjà calculés normalisés Pn C(tj ) dans l’intervalle [0, 1]. La normalisation est effectuée de la manière suivante : Pn C(tj ) = P C(tj ) max∀ti ∈T S (P C(ti )) (3.8) Où P C(tj ) le poids contextuel du terme tj (équation 3.5), Pn C(tj ) le poids contextuel normalisé du terme tj , T S l’ensemble des termes sélectionnés. Ceci nous conduit à un poids maximal si le terme n’apparaı̂t que dans un seul élément non pertinent ou dans aucun élément, le score final est égal à 1. Un terme bruité (bruit> 1) aura un poids final inférieur à celui déjà calculé. Pour le cas où les valeurs se situent entre 0 et 1, les poids seront élevés tout en restant inférieurs à 1. Les deux équations conçues pour la sélection de termes pertinents (poids contextuel et poids ajusté), peuvent servir également à la pondération des termes de la requête reformulée. Par ailleurs, d’autres sources d’évidence peuvent aussi être utilisées pour la pondération des termes de la nouvelle requête. Ceci fait l’objet de la section suivante. 3.3.2 Pondération des termes de la requête La pondération concerne d’une part les termes sélectionnés et d’autre part les termes de la requête initiale. Nous proposons deux solutions différentes : Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 97 – La première consiste à pondérer les termes de la requête reformulée selon le poids contextuel (avec ou sans prise en compte du bruit). – Dans la seconde hypothèse, nous séparons la phase de la sélection de celle de la pondération. En fait, les termes de la requête finale sont sélectionnés selon le poids contextuel, puis il sont pondérés en utilisant une formule de type tf.idf.ief que nous avons proposée dans le modèle XFIRM que nous dériverons dans le chapitre 4. Cette formule reflète l’importance d’un terme dans les éléments ainsi que dans les documents de la collection. Ainsi les termes de la requête, y compris les termes originaux, seront pondérés selon l’équation suivante : P ds(tj ) = tf (tj ) × idf (tj ) × ief (tj ) (3.9) Nous avons alors considéré la fréquence du terme dans la collection tf (tj ). Pour conserver la dualité de la pertinence (exhaustivité et spécificité), le facteur tf (tj ) est ainsi multiplié par le facteur idf, ainsi que par son analogue ief défini pour exprimer la spécificité d’un terme dans l’ensemble des éléments de la collection : ¶ µ |E| +1 (3.10) ief (tj ) = log |ej | Avec |ej | le nombre d’éléments dans lequel occurre le terme tj et |E| le nombre d’éléments dans la collection. Dans les deux solutions proposées, les poids attribués aux termes à réinjecter seront normalisés entre 0 et 1. 3.3.3 Réécriture de la requête La réécriture de la requête est l’étape finale de la reformulation, elle permet de mettre en place la requête qui sera transmise au système de recherche. La question est comment prendre en compte les termes de la requête initiale Q dans la réécriture de la nouvelle requête Q′ ? D’une manière générale, la nouvelle requête est formulée comme suit : Q′ = α.Q + β.T S (3.11) où : Q est la requête initiale composée d’un ensemble de k couples (tj , wjq ), j ∈ [1, k], wjq est le poids du terme tj de la requête initiale. T S représente l’ensemble des couples (tj , wjT S ) terme pertinent tj Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 98 associé à son poids wjT S , triés selon leurs poids. Les poids sont calculés selon l’équation 3.5, l’equation 3.7 ou l’équation 3.9 Une alternative possible de la réécriture 3.11 est de rajouter uniquement à la requête initiale les nouveaux termes : Q′ = Q + T S ′ (3.12) avec T S ′ = {T S − Q} Exemples : requête orientée contenu Nous considérons la requête 202 de la collection de test INEX 2005 : ”ontologies case study ” Nous supposons que nous sélectionnons 3 termes pertinents dont un existe déjà dans la requête. Les termes sélectionnés avec leurs poids associés sont les suivants : (graph, 1 ) (concept, 0.6 ) et (ontology,0.8 ) Nous supposons que les termes initiaux de la requête on un poids égale à 1. La requête finale sera alors comme suit : ”ontologies,1 case,1 study,1 graph,1 concept,0.6 ontology,0.8 ” avec α = β = 1 Si on considère la seconde alternative, la requête finale sera comme suit où le mot-clé ”ontology” apparaı̂t une seule fois : ”ontologies,1 case,1 study,1 graph,1 concept,0.6 ” Exemples : requête structurée Ce type de requête est composée de sous requêtes dont chacune représente une contrainte structurelle et un ensemble de mots clés. Dans notre approche pour éviter d’une part les redondance dans la requête et pour simplifier d’autre part la recherche, nous allons procéder de manière à enrichir la sous requête cible. La sous requête cible est explicitement identifiée par le terme ec (utilisé dans notre système XFIRM décrit dans le chapitre 4). Le terme ec désigne l’élément désiré par l’utilisateur. Nous appliquons alors le même principe que précédemment. Les termes appartenant aux autres sous requêtes auront une pondération maximale =1. Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 99 Nous considérons comme exemple la requête 202 de la collection de test INEX 2005 : ”article[ontologies] // ec : sec[ontologies case study] ” On cherche une section sur ”ontologies case study” descendante d’un article sur les ”ontologies”. Si on considère les termes de l’exemple précédent à réinjecter, les nouvelles requêtes seront comme suit : seule la sous requête cible (sec[ontologies case study] ) sera modifiée. ” article[ontologies,1] // ec : sec[ontologies,1 case,1 study,1 graph,1 concept,0.6 ontology,0.8] ”. avec α = β = 1. Selon la seconde alternative, la requête finale sera comme suit : ” article[ontologies,1] // ec : sec[ontologies,1 case,1 study,1 graph,1 concept,0.6] ”. 3.3.4 Conclusion L’approche que nous avons proposée pour extraire les termes pertinents à partir des éléments pertinents est différente des approches proposées dans la littérature. Cette différence se situe dans la stratégie proposée pour extraire les termes pertinents. Cette stratégie combine plusieurs indicateurs : la distribution des termes dans les éléments pertinents, la proximité contextuelle de ces termes vis à vis des termes de la requête initiale et enfin le bruit qu’ils peuvent engendrer selon leur présence dans les éléments non pertinents. Nous allons introduire la seconde source d’évidence dans la section suivante. 3.4 Réinjection de la structure Le processus de réinjection de pertinence que nous avons étudié tout au long des chapitres précédents concerne principalement l’ajout des termes dans les requêtes. Notre objectif dans cette section est d’étudier l’intérêt de reformuler une requête en réinjectant une contrainte structurelle. L’intuition que nous avons derrière cette démarche est la suivante : nous pensons que les informations pertinentes recherchées par un utilisateur ont de fortes chances de se retrouver dans des éléments de même type (même type Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 100 de balise). L’idée est alors d’arriver à identifier ces balises à partir des éléments jugés pertinents par l’utilisateur puis reconstruire une nouvelle requête en y injectant ces balises sous forme de contraintes structurelles. Pour simplifier, nous allons commencer par introduire la notion de structure pertinente. Avant de rentrer dans le détail de l’approche et afin de lever toutes les ambiguı̈tés dans notre discours, nous donnons quelques définitions utiles pour la suite. Définitions : Nous rappelons brièvement les notions de l’élément et de chemins : – Un élément toute partie qui représente un sous-arbre de l’arbre d’un document XML. Un élément est représenté par un nœud. Un nœud est caractérisé par le nom d’une balise. – Le chemin (path) de l’élément est l’ensemble des nœuds séparant le nœud de l’élément de la racine. Nous considérons une structure comme une forme simplifiée du chemin, composée d’un ensemble de balises. La distance entre deux balises d’une même structure est le nombre de balises qui les séparent. Si nous considérons une structure S (composée de n balises) : S = B1 /B2 /.../Bn , la distance (d) entre la balise Bi et la balise Bn est calculée comme suit : d(Bn , Bi ) = (n − i), n ≥ i Une séquence de balises est une partie d’une structure. 3.4.1 La notion de structure pertinente La première question qui se pose dans cette approche concerne l’existence même de cette notion de structure pertinente, c’est-à-dire celle susceptible de contenir des informations pertinentes, et qu’est ce qu’elle représente exactement. Pour répondre à cette question, nous avons analysé les collections de test de INEX 2005 et INEX 2006. Cette analyse consiste à regarder de près la nature des réponses pertinentes à une requête donnée. En particulier, nous avons compté le nombre de types de structures dans lesquelles peuvent se retrouver les éléments pertinents pour une requête donnée. Les types de structures correspondent dans ce cas à la dernière balise comme par exemple la balise p de la structure /article/sec/ss1/p. Nous nous sommes Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 101 servis principalement des jugements de pertinence fournis par la campagne d’évaluation pour chaque requête. Nous n’avons considéré que les éléments strictement pertinents puisque le but est de fixer les besoins de l’utilisateur en structures. Le tableau 3.1 présente pour chacune des collections 2005 (composée de 28 requêtes jugée) et 2006 (composée de 114 requêtes jugées), la moyenne du nombre d’éléments strictement pertinents sur l’ensemble des requêtes (MEP), la moyenne du nombre de balises distinctes dans lesquelles se trouvent les éléments pertinents (MSEP) et le nombre total de balises différentes des éléments pertinents (NSEP) pour toutes les requêtes. D’après ce tableau pour une requêtes Tab. 3.1 – Propriétés des jugement de pertinence MEP MSEP NSEP INEX 2005 31.22 4.67 27 INEX 2006 323.86 8.3 37 donnée de la collection 2005, la moyenne d’éléments pertinents est de 31.22. Ces éléments ont en moyenne 4.67 structures différentes parmi les 27 de la collection. Dans le cas de la collection 2006, la moyenne d’éléments pertinents pour une requête donnée est de 323.86. Ces éléments ont en moyenne 8.3 structures différentes parmi les 37 de la collection. Nous avons ensuite compté pour chaque balise le nombre de fois qu’elle apparaı̂t dans les éléments pertinents (#(balisei )q). Ces balises sont ensuite triées par ordre décroissant de ce nombre (#(balisei )q). Afin de mieux rendre compte de ces nombres, le tableau 3.2 liste le ratio (%) entre (#(balisei )q) et le nombre total d’éléments pertinents. Dans a colonne 1 struct, on ne considère qu’une seule balise, 2 struct. On considère les 2 premières pour une requête et 3 struct, les trois premières, etc. Nous avons calculé une moyenne, un min et un max sur l’ensemble des requêtes pour les 2 collections considérées. Tab. 3.2 – Répartition des éléments pertinents en fonction des types de structures - INEX 2005-2006 1 struct 2 struct 3 struct 4 struct 5 struct 2005 Moyenne 64% 85% 93% 96% 98% Min 23% 44% 60% 73% 89% Max 100% 100% 100% 100% 100% 2006 Moyenne 70% 84% 91% 95% 97% Min 31% 56% 73% 84% 89% Max 96% 100% 100% 100% 100% Nous constatons que quelle que soit la collection (INEX 2005 ou INEX 2006) les éléments se partitionnent généralement dans un ensemble bien défini de type Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 102 de structures. Nous notons en examinant la moyenne, que l’on arrive à plus de 90% des éléments pertinents (93% pour la collection INEX 2005 et 91% pour le collection de INEX 2006) en considérant trois balises pour une requête donnée, sachant que le nombre total des types de structures (balises) caractérisant des éléments pertinents est respectivement 27 et 37 dans les collections 2005 et 2006. Nous pouvons donc conclure qu’il existe bien des structures pertinentes pour chaque requête. Nous définissons par la suite la notion de structure générique qui traduit la pertinence des structures. 3.4.2 Extraction de la structure pertinente Une structure pertinente est une structure dans laquelle on retrouve des informations à la fois exhaustives et spécifiques. Nous définissons tout d’abord le concept de structure générique comme suit : On appelle structure générique une structure qui peut être commune à un grand nombre d’éléments pertinents. Exemple : Si l’on considère que pour une requête donnée, nous avons 3 éléments jugés pertinents ayant les structures Sk , Sl et Sm suivantes : Sk /article/bdy/sec/ss1, Sl /article/bdy/sec/ss1/ss2 et Sm /article/bdy. On remarque que Sm est une structure commune aux deux autres structures. Si on considère ces structures sous forme d’un arbre, la distance entre les 2 structures Sm et Sl est de 3. Pour extraire alors la structure générique, nous allons procéder de manière à retrouver une structure qui représente une branche commune entre la majorité des structures auxquelles appartiennent les éléments pertinents tout en tenant compte des distances entre les structures. Nous revenons brièvement sur cette notion de distance définie dans la section précédente. Le tableau 3.3 liste les différentes distances entre les structures de l’exemple. On constate que la structure Sk a la somme des distances la séparant des autres structures, la moins élevée =3 par rapport aux sommes obtenues par Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures Tab. 3.3 – Récapitulation des différences Sk Sl Sk 1 Sl 1 Sm 2 3 103 de distance entre les structures Sm Somme 2 3 3 4 5 Sm (4) et Sl (5) les structures Sm et Sl . La structure générique dans ce cas est Sk . Nous proposons dans ce qui suit l’algorithme d’extraction des structures génériques appelé SCA (Smallest Common Ancestor ). Plusieurs approches en RI structurée orientées bases de données ont utilisé la notion d’ancêtre communs pour répondre à la fois aux contraintes structurelles et textuelles. Nous présentons dans ce qu’il suit quelques algorithmes de recherche d’ancêtre commun ainsi notre algorithme d’extraction des structures génériques dans le cas des documents homogènes, ayant une même DTD. 3.4.3 Extraction de structures pertinentes dans des documents homogènes 3.4.3.1 Algorithmes de recherche des ancêtres communs Il existe une panoplie d’algorithmes permettant la recherche des ancêtres communs on y trouve en particulier : – L’algorithme LCA : Les auteurs de [171] ont proposé l’algorithme LCA (Lowest Common Ancestor ) pour la recherche dans les documents XML par mots clés. Cet algorithme permet de sélectionner le plus petit sous arbre contenant tous les mots clés. Le LCA est utilisé pour la reconstruction des B-Arbres [199]. On retrouves d’autres dérivés de cet algorithme comme le SLCA et le MLCAS. La recherche selon LCA est assez stricte : toutes les contraintes doivent êtres satisfaites ce qui ne convient pas à la définition de structure générique : elle peut ne représenter un tronc commun avec certaines structures. – SLCA : La notion de SLCA (Smallest Lowest Common Ancestor) a été proposée par Xu et Papakonstantinou dans [203] pour pallier le problème de redondance des sous-arbres, de LCA. La fonction SLCA permet au système de recherche et de ne retourner que le nœud le plus spécifique et non pas un ensemble des nœuds redondants. Les auteurs ont alors im- Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 104 planté deux algorithmes de recherche basés sur SLCA : Indexed Lookup Eager (appliqué dans la cas où la fréquence des mots clés varie significativement) et Scan Eager (dans le cas contraire) testés dans le système de recherche X-KSearch (XML Keywords Search). Une autre extension a été proposée par Sun et al. de [183] (Multiway SLCA) pour répondre aux requêtes comportant des opérateurs booléens de type OR et AND. – Le MLCA (Meaningful Lowest Common Ancestor ) [119] est lui aussi un dérivé de LCA. Le MLCA est un plus petit nœud commun de deux autres nœuds de deux types différents. MLCA ne peut pas avoir un descendant pour lequel il peut être un ancêtre commun avec les deux types de nœuds. Le MLCAS est un dérivé de la fonction MLCA qui ne renvoie que les nœuds répondant aux contraintes avec leur plus petit ancêtre commun MLCA. En d’autres termes, c’est une structure qui ne comporte pas d’informations inutiles pour la requête. Ces différents algorithmes sont appliqués au niveau d’un seul arbre d’un document XML. Leur but est d’extraire le plus petit ancêtre commun qui satisfait toutes les contraintes textuelles et structurelles. Nous nous intéressons dans notre cas aux structures qui satisfont le maximum, pas forcément tous les éléments jugés pertinents (dans ce cas on parle de l’ancêtre commun qui peut refléter l’exhaustivité de l’information) mais qui ne perdent pas l’aspect spécifique renseigné par la structure des éléments. Nous allons en fait extraire un ancêtre commun d’une manière plus flexible grâce à un nouveau algorithme appelé SCA (Smallest Common Ancestor) et nous appelons cet ancêtre une structure générique. 3.4.3.2 L’algorithme SCA (Smallest Common Ancestor) Nous considérons les paramètres suivants : – E p l’ensemble des éléments pertinents jugés par l’utilisateur, – epi le ieme élément pertinent ∈ E p , – epi est caractérisé par un chemin XPath simplifié ci (exemple : /article/bdy/section) et un poids wi (initialisé à 1 au début de l’algorithme), – c.f irst et c.last respectivement la première et la dernière balise du chemin c, – head(c) une fonction permettant de réduire le chemin c en lui attribuant celui du parent (c.à.d. supprimant la dernière balise de la structure). Par exemple, head(/article/bdy/section) = /article/bdy. Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 105 Notre algorithme (voir tableau 3.4) consiste à comparer la structure de chaque élément pertinent avec le reste des structures des éléments jugés pertinents. Pour chaque (epi , epj )i6=j ∈ E p × E p , nous appliquons l’algorithme SCA qui permet d’extraire le chemin du plus petit ancêtre commun entre epi et epj . Le chemin sera par la suite ajouté à un ensemble des Structures Communes noté SC. SCA(epi , epj ) Début epi (ci , wi ) ; epj (cj , wj ) SC= si ci .f irst = cj .f irst, alors si ci .last = cj .last, alors sinon si head(cj ) 6= null, alors sinon SCA(epj , epi ) Fin si ∃epk (ck , wk ) ∈ SC ck = ci alors wk ← wk + wj sinon wi ← wi + wj SC ← ci c′j ← head(cj ) wj′ ← wj /2 ′ ′ SCA(epi (ci , wi ), e′p j (cj , wj )) Tab. 3.4 – Algorithme d’extraction de la structure générique. La structure générique choisie est celle ayant le score le plus élevé. 3.4.3.3 Exemple d’application de l’algorithme SCA On considère pour une requête donnée trois éléments jugés pertinents er1 , er2 et er3 auxquels correspondent les structures (nous traitons dans ce cas les structures comme des chemins) : S1 /article/bdy/sec/ss1 S2 /article/bdy/sec/ss1/ss2 S3 /article/bdy. Nous décrivons à travers les figures suivantes les différentes étapes de la recherche d’une structure générique. On affecte un poids unique à toutes les structures sont w1 , w2 et w3 . Dans notre application, ce poids est une constante, Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 106 Fig. 3.3 – Recherche d’une structure générique :A Fig. 3.4 – Recherche d’une structure générique : C que l’on pourra par exemple prendre égale à 1. Soit l’ensemble SC initialement vide dans lequel on rajoutera les structures génériques. Nous considérons que la comparaison des premières balises comme étape 0 de l’algorithme. La figure 3.3 présente la première étape de notre recherche de structure générique ; elle consiste à comparer la dernière balise de la structure S1 à la dernière balise de la structure S2 . Dans ce cas les balises sont différentes, donc on passe au niveau supérieur de la structure S2 dont le score devient w2 /2. La dernière balise devient ss1 ce qui correspond à la dernière balise de S1 . Par conséquent, la structure S1 sera ajoutée à l’ensemble SC avec le score w1 + w2 /2 On compare ensuite (Figure 3.5) les deux structures S1 et S3 . La comparaison de la dernière balise de S1 avec les balises de la structure S3 n’aboutit à aucun résultat (figure 3.5 ), on passe au ”matching” dans le sens inverse. Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures Fig. 3.5 – Recherche d’une structure générique : B Fig. 3.6 – Recherche d’une structure générique : C 107 Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 108 On arrive à trouver la structure commune entre S3 et S1 au bout de 2 itérations. Le score de la structure de S1 est divisée par 22 et la structure /article/bdy est rajoutée à l’ensemble SC. On passe ensuite à la comparaison des structures S2 et S3 (figure 3.6 ). On applique le même principe que précédemment, le premier sens de comparaison ne donne pas de résultat , on passe à la sous étape suivante. Pour retrouver l’ancêtre commun, on effectue trois fois les passages au niveau plus haut. Par conséquent, le score de S2 est devisé par 23 . On remarque que la structure /article/bdy existe déjà dans l’ensemble SC. Son score est alors incrémenté dans SC de w2 /8. La structure générique sera celle qui a le plus élevé score parmi l’ensemble SC. Dans cet exemple on sélectionne la structure S1 (/article/bdy/sec/ss1). L’algorithme proposé concerne principalement les collection homogènes dans lesquelles tous les documents ont la même DTD. Remarque : Intuitivement, on pourrait penser que la structure générique est /article/bdy. Ce n’est pas le cas car en fait notre algorithme ne cherche pas l’ancêtre commun seulement, mais aussi celui qui a la plus petite distance qui le sépare des autres structures, d’où le résultat. En réalité, les documents peuvent provenir de différentes sources n’ayant pas la même DTD, d’où la question : Comment peut-on traiter l’hétérogénéité des collections ? 3.4.4 Extraction des structures pertinentes dans des documents hétérogènes Nous proposons dans cette section d’étendre l’algorithme SCA pour prendre en compte l’hétérogénéité des structures. Nous entendons par structures hétérogènes celles qui décrivent des éléments de documents ayant différentes DTDs. Exemple : pour une requête donnée, deux éléments jugés pertinents peuvent avoir les deux structures suivantes : A/B/C et E/C/D. On constate que dans ce cas il n’existe pas une séquence de balises commune depuis les racines des deux structures. Nous définissons tout d’abord la notion de classe de structures Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 109 et classe de structures génériques. Une classe de structures est un ensemble de structures ayant la même balise finale. Nous nous intéressons ici principalement au type de l’élément répondant au besoin de l’utilisateur (le type d’élément est spécifié par la dernière balise d’une structure). Une classe de structure de type A notée C(X) est définie comme suit : C(X) = {S|S.last = X} où S est une structure. A partir de la notion de classe de structure, nous définissons la notion de classe de structures génériques. Une classe de structures génériques est une classe de structure ayant le plus grand nombre d’éléments. T C = argmax∀X∈Ω (|C(X)|) Ω : l’ensemble de classe de structures extraites des éléments pertinents |C(X)| : le nombre d’éléments pertinents ayant des structures appartenant à C(X). Pour pouvoir trier les classes de structures génériques ayant le même nombre T C, on assigne à chaque classe un score calculé en fonction de l’occurrence de la balise caractérisant la classe dans les structures Si des éléments pertinents tout en tenant compte de la distance qui la sépare Si .last. Le processus d’extraction de la structure générique est comme suit : 1. La première étape consiste à construire les classes de structure à partir de l’ensemble des éléments jugés pertinents. Exemple : Si on considère les quatre structures suivantes : A/B/C, E/C/D, H/I/C et A/E/F . Les classes de structures sont : C(C)C={A/B/C,H/I/C}, C( D)={E/C/D} et C(F)={A/E/F }. Les classes seront triée selon la valeurs de T C. La classe de structure générique est celle qui a la valeur la plus élevée de T C. dans l’exemple ça sera C(C). S’il existe plusieurs classes ayant la même valeur de T C, on passe à l’étape suivante. Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 110 2. La deuxième étape consiste à calculer les scores des classes ayant la même valeur de T C. X Si 1/(d(X, Si ) + 1) (3.13) W eight(X) = ∀Si ∈E p /X∈Si Où : Si est une structure d’un élément appartenant à l’ensemble des éléments pertinents (E p ), dans laquelle apparaı̂t la balise X d(X, Si ) la distance qui sépare la balise considérée et la dernière balise de la structure Si . Exemple : distances calculées pour la classe C de l’exemple. d(C, A/B/C) = 0, d(C, E/C/D) = 1 et d(C, H/I/C) = 0 W eight(C) = 1 + 1/2 + 1 = 2, 5 A l’issu, la classe de structures générique est celle ayant le meilleur W eight(C). Jusqu’à présent, nous avons considéré que la dernière balise d’une structure à intégrer. Une autre alternative à envisager est de considérer tout le chemin d’un élément recherché, c’est à dire spécifier les différentes balises qui constituent la structure génériques. Pour ce faire, nous calculons les poids des balises intérieures de chaque structure des éléments pertinents. Ceci nous ramène dans le cas de l’exemple à calculer le poids des balises A, B, C, D, E, F, I et H. Nous construisons ensuite le graphe des nœuds (voir figure 3.7). Les structures sont présentées dans un graphe orienté composé des nœuds représentant des balises pondérées selon la formule 3.13 et les arcs représentent les chemins extraits des structures des éléments pertinents. On assigne ensuite à chaque structure Si un score : X score(Si ) = weight(X) ∀X∈Si La structure générique est alors celle qui a le score le plus élevé. Ce processus permet de sélectionner le chemin partagé par le maximum d’éléments pertinents. Ainsi, si on regarde la figure 3.7, nous remarquons que le chemin ayant le score le plus important de la classe C est : A/E/C, la somme est 2/3+ 5/6+2.5=4. On remarque que le chemin de cette structure ne correspond à aucun chemin ou sous-chemin des structures des éléments jugés pertinents. De ce fait, il y a Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 111 Fig. 3.7 – Présentation des structures dans un graphe orienté une probabilité faible qu’on puisse retrouver des éléments qui satisfont cette structure. D’autres possibilités sont alors à envisager pour exprimer le chemin de la structure. Ces possibilités sont définies de manière plus flexible. C’est à dire on peut exprimer un chemin en ignorant quelques balises intermédiaires entre la racine et la dernière balise. On l’appelle chemin générique. Exemple de chemin indéterminé : //A//C. Pour garder le sens des structures génériques, les balises seront celles qui sont partagées au maximum par l’ensemble des chemins des éléments pertinents en d’autres termes celles qui correspondent aux nœuds ayant les scores les plus élevés. Dans les deux processus utilisant l’algorithme SCA et la classification nous extrayons des structures complètes. Étant donné que l’algorithme SCA concerne le cas des documents homogènes (même DTD), nous réinjectons seulement la dernière balise de la structure (forme simplifiée). Dans le cas des document hétérogènes, la réinjection peut concerner soit la dernière balise (forme simplifiée) de la structure pertinente, soit la structure complète (spécifiant toutes les balises intermédiaire) ou son chemin générique (en éliminant quelques balises intermédiaires). 3.4.5 Réécriture de la requête La réécriture des requêtes concerne les deux types de requêtes (structurées et non structurées). Pour les reformuler, on sélectionne les structures ayant les scores les plus élevés. Ces structures seront utilisées sous deux formes différentes Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 112 (la réinjection peut concerner une ou plusieurs structures pertinentes) : – une forme simplifiée qui correspond à l’ajout à la requête initiale de la dernière balise de la structure sélectionnée. En cas de plusieurs structures, la requête est composée de plusieurs sous-requêtes dont chacune spécifie une contrainte structurelle. – une forme complexe qui correspond à l’ajout à la requête initiale du (des) chemin(s) de la (des) structure(s) sélectionnée(s). Considérons l’exemple des deux types de requêtes auxquels on réinjecte une structure pertinente S qui peut être sous forme simplifiée (balise) ou sous forme d’un chemin : 1. Soit R1 = t1 , t2 , ..., tn une requête composée de n mots clés. La requête reformulée par réinjection de S sera : R1’=élément cible :S[t1 , t2 , ..., tn ] 2. Soit R2 une requête structurée avec CS1 et CS2 sont les anciennes contraintes structurelles et CS1 est l’élément cible : R2=élément cible :CS1[t1 , t2 , ..., ti ] // CS2[ti+1 , ti+2 , ..., tn ]. La nouvelle requête sera de la forme : R2’=élément cible :CS1[t1 , t2 , ..., ti ] // CS2[ti+1 , ti+2 , ..., tn ] OR S[t1 , t2 , ..., ti ]. où OR est l’opérateur booléen pour exprimer la disjonction des sous requêtes. Le même opérateur est utilisé pour relier les sous requêtes après la réinjection de plusieurs structures pertinentes. Dans le cas de la réinjection d’une forme complexe la structure S sera remplacée par son chemin. Pour généraliser cette écriture, nous définissons la grammaire présentée dans le tableau 3.5. Exemple Dans ce qui suit, les requêtes sont formulées selon le langage de requête XFIRM [165]. On distingue les deux types de requêtes (structurées et non structurées). – Soit la requête initiale de type CO : Q ”reformulation des requêtes en recherche d’information”. La nouvelle requête sera reformulée par ajout d’une structure ss1 et donc de type CAS : ”ec :// ss1[”reformulation des requêtes en recherche d’information”]”. Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 113 Soient R1 la réécriture d’une requête non structurée et R2 la réécriture d’une requête structurée : R1 : := <élément cible><contrainte structurelle><c1><Requête initiale1><c2><Suite Expressions Structurées>* R2 : := <Requête initiale2> <Suite Structures>* Requête initiale1 : := requête non structurée Requête initiale2 : := requête structurée Suite Expressions Structurées : :=<Opérateur><contrainte structurelle><c1><Requête Initiale><c2> Suite Structures : := <Opérateur><contrainte structurelle><c1><MC><c2> Opérateur : :=”OR” élément cible : :=”//ec : ” contrainte structurelle : :=nom de la balise extraite—chemin de la balise MC : :=mots clés de l’élément cible de la requête initiale c1 : :=”[” c2 : :=”]” Tab. 3.5 – Grammaire de la réécriture des requêtes par injection de structure. Si on considère plusieurs structures génériques Si à réinjecter (i ∈ {2, ..n}), la requête finale sera de la forme : ”ec :// S1 [”reformulation des requêtes en recherche d’information”] OR S2 [”reformulation des requêtes en recherche d’information”] OR ... OR Sn [”reformulation des requêtes en recherche d’information”]”. – Soit une requête structurée de type CAS : ”article[”recherche d’information”] //ec :paragraphe[”reformulation des requêtes”]” La requête reformulée par réinjection d’une structure ss1 sera : ”// article [”recherche d’information”] ec : //paragraphe[”reformulation des requêtes”]” OR ss1 [”reformulation des requêtes”] ” L’opérateur Booléen ”OR” exprime une éventuelle contrainte structurelle. On traite de la même façon le cas de réinjection de plusieurs structures génériques, la requête finale sera sous le format : ”// article [”recherche d’information”] ec : //paragraphe[”reformulation des requêtes”]” OR S1 [”reformulation des requêtes”] OR S2 [”reformulation des requêtes”] OR ... OR Sn [”reformulation des requêtes ”]”. A ce niveau, nous avons présenté les deux différentes approches orientée contenu et orientée structure. Une question qui se pose maintenant porte sur Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 114 l’intérêt des combiner ces deux approches ? Dans la prochaine section nous allons présenter les différentes stratégies de combinaison que nous avons envisagées. 3.5 Approche Combinée Nous proposons dans cette section de combiner les sources d’évidence contenu et structure extraites des éléments pertinents afin d’exprimer des relation contextuelles qui peuvent exister entre elles. Cette combinaison peut se faire de trois manières différentes : 1. une combinaison naı̈ve, 2. une combinaison avec dépendance contextuelle, 3. une combinaison flexible. 3.5.1 Combinaison naı̈ve Une première forme de combinaison, qualifiée de naı̈ve, consiste à rajouter à la requête initiale à la fois les termes pertinents et les structures pertinentes. Les processus ayant permis l’extraction des termes et des structures pertinentes sont indépendants. Cette combinaison est effectuée au niveau de la réécriture. On distingue les deux types de requêtes : – La requête de type CO sera reformulée en ajoutant les termes extraits comme pertinents aux termes originaux de la requête. L’ensemble des termes (termes originaux de la requête + termes pertinents sélectionnés) sera conditionné par la structure pertinente extraite à partir des éléments pertinents selon l’approche orientée structure. Formellement, soit R1 = t1 , t2 , ..., tn une requête composée de n mots clés. La requête reformulée par réinjection d’une structure S et de 3 termes pertinents tk , tl et tm sera : R1’=élément cible : S [t1 , w1 t2 , w2 ...tn , wn , tk , wk tl , wl tm , wm ] où wi est le poids correspondant à chaque terme calculé selon l’approche orientée contenu. – Dans le cas d’une requête structurée, la nouvelle structure à réinjecter sera une condition sur les termes de l’élément cible de la requête initiale auxquels on ajoute les termes pertinents sélectionnés. L’ensemble représente une sous requête qui sera coordonnée avec la requête initiale avec l’opérateur booléen OR. Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 115 Formellement, soient CS1 et CS2 sont les anciennes contraintes structurelles avec CS1 est l’élément cible : R2=élément cible : CS1 [t1 , t2 , ..., ti ] // CS2 [ti+1 , ti+2 , ..., tn ]. La nouvelle requête par réinjection d’une structure S et de 3 termes pertinents tk , tl et tm sera de la forme : R2’=élément cible : CS1 [t1 , w1 t2 , w2 ...ti , wi ] // CS2 [ti+1 , wi+1 ti+2 , wi+2 ...tn , wn ] OR S [t1 , w1 t2 , w2 ...ti , wi , tk , wk tl , wl tm , wm ]. où OR est l’opérateur booléen pour exprimer la conjonction des sous requêtes. En général, la réécriture des deux requêtes suit la grammaire suivante (voir tableau 3.9). Soient R1 la réécriture d’une requête non structurée et R2 la réécriture d’une requête structurée : R1 : :<élément cible><contrainte structurelle><c1><Requête initiale1><Mots Clés><c2><Suite Expressions Structurées>* R2 : := <Requête initiale2><Suite Structures>* Requête initiale1 : := requête non structurée Requête initiale2 : := requête structurée Suite Expressions Structurées : :=<Opérateur¿¡contrainte structurelle><c1><Requête Initiale><Mots Clés><c2> Suite Structures : := <Opérateur><contrainte structurelle><c1><Mots clés Cibles><Mots Clés><c2> Opérateur : :=”OR” élément cible : :=”//ec : ” contrainte structurelle : :=nom de la balise extraite Mots Clés : :=mots clés sélectionnés Mots Clés Cibles : :=mots clés appartenant à l’élément cible de la requête initiale c1 : :=”[” c2 : :=”]” Tab. 3.6 – Grammaire de la réécriture des requêtes par injection des structures et des mots clés. Exemple : Soit la requête 202 de la collection de test INEX 2005 : Requête CO R1= ” ontologies case study” et requête CO+S1 R2=” article[ontologies] // ec : sec[ontologies case study] ” sous forme de requête structurée où le terme ec marque la sous requête cible c’est-à-dire le type d’éléments désiré par l’utilisateur. 1 Nous rappelons qu’une requête de type CO+S est une requête comportant des mots clés + une contrainte structurelle qui sera traitée d’une manière vague Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 116 On considère que les termes à réinjecter sont : (graph, 1), (concept, 0.6) et que les termes de la requête initiale (”ontologies case study” ) sont pondérés respectivement par 1, 0.3 et 0.4. On considère également ”paragraph” comme structure pertinente à réinjecter. Les requêtes reformulées R1’ et R2’ seront : – Requête CO : R1’=”ec : //paragraph [ontologie,1 case,0.3 study,0.4 graph,1 concept,0.6]” – Requête CO+S : R2’= ” article[ontologies,1] // ec : sec[ontologies,1 case,0.3 study,0.4 ] OR paragraph [ontologies,1 case,0.3 study,0.4 graph,1 concept,0.6] ” 3.5.2 Combinaison avec dépendance contextuelle Jusqu’à présent, nous avons considéré les termes pertinents indépendamment des structure pertinentes. Une hypothèse envisageable est de considérer que l’importance des termes dépende des structures dans lesquelles ils apparaissent : leur contexte. L’intuition derrière cette hypothèse est qu’il est possible qu’il ait un lien entre les termes pertinents et les structures pertinentes. En XML, les balises ont un rôle syntaxique pour structurer le document mais porte également une sémantique. On entend par sémantique d’un élément la balise qui le décrit, par exemple s’il s’agit d’un article, d’un paragraphe, d’une référence ou d’url, il est peu envisageable de mettre une balise ”section” pour un titre de l’article. Si l’on considère qu’une une adresse url peut présenter un élément pertinent pour l’utilisateur, généralement, les termes extraits de cet élément ne sont pas pertinents. D’où l’idée d’étudier la sémantique des éléments pertinents. Notre objectif est alors de répondre à la question déjà posée : doit-on tenir compte de la sémantique des éléments pour l’extraction des termes pertinents ? On peut procéder d’une manière inverse. Il s’agit d’extraire des structures pertinentes en tenant compte des termes déjà extraits (Ce cas peut être un cas particulier de notre processus dans lequel on considère que tous les termes des éléments pertinents sont pertinents). De ce fait, nous nous intéressons à l’extraction des termes pertinents en fonction des structures pertinentes. Nous distinguons dans ce cas deux approches différentes : 1. Une première est d’affecter un degré d’importance prédéfini aux différentes structures de manière à considérer par exemple que pour deux termes différents ayant les mêmes caractéristiques, pertinence, contexte et bruit, le fait qu’un terme appartienne à un titre peut sembler sémantiquement plus intéressant que celui appartenant à une section ou une référence. Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 117 Cette préférence reste assez subjective puisque c’est un jugement qui dépend essentiellement de la requête : s’il s’agit d’une requête portant sur une référence il sera plus intéressant d’affecter un poids plus élevé au terme extrait d’une référence que d’un titre ou d’une section. 2. Une seconde approche est d’augmenter le poids de pertinence d’un terme en fonction du type des structures qui sont déjà sélectionnées pertinentes selon l’approche orientée structure. La pertinence d’un terme dépend alors de la nature de la structure à laquelle il appartient. Nous procédons alors de manière à restreindre l’ensemble des éléments à partir desquels on extrait les termes pertinents. Si un élément ne fait pas partie des structures pertinentes, il ne sera pas considéré dans la phase d’extraction des termes. Dans ce cas la formule d’extraction déjà présentée dans le paragraphe 3.3.1.1 devient la suivante : p p | P (ti |Eres ) = peres /|Eres (3.14) Où p Eres est l’ensemble restreint des éléments pertinents possédant des structures pertinentes. p conteperes est le nombre des éléments pertinents appartenant à Eres nant le termes ti . On remarque que cette restriction peut affiner l’extraction des termes de manière à ne considérer que ceux appartenant à des structures pertinentes. Cette approche en revanche ne donne pas de poids relatifs aux termes appartenant à deux structures pertinentes différentes. On peut dire que ce sont des poids binaires : 1, s’ils appartiennent aux structures pertinents, 0 sinon. Cette technique peut être affinée davantage en attribuant des scores aux structures pertinentes qui seront combinés avec le score du terme à calculer. Ce score traduit le degré d’importance d’une structure d’un élément pertinent. Les scores des structures seront les poids calculés dans la phase de l’extraction des structures génériques. Nous considérons par la suite l’ensemble des couples (structure, score) pour l’extraction des termes. Exemple : (paragraphe, 0.7), (référence,0.4). La nouvelle formule pour l’extraction des termes pertinents est alors la suivante : p p | (3.15) P oids(ti , Eres ) = score(SG) × peres /|Eres Où le score(SG) est le score da la structure générique calculé selon l’algorithme SCA décrit dans le paragraphe 3.4.3.2. On applique la même grammaire que pour la combinaison naı̈ve (paragraphe Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 118 3.5.1) pour la réécriture des requêtes en réinjectant les termes et les structures sélectionnés. 3.5.3 Combinaison flexible L’approche ci-dessus peut être considérée comme stricte : la relation de dépendance exclut tout terme n’appartenant pas aux structures génériques. Les termes seront donc pénalisés. Pour pallier ce problème, nous proposons une combinaison flexible des deux sources d’évidence. On cherche alors à calculer le poids d’un terme en fonction des éléments dans lesquels il apparaı̂t. Considérons une liste de termes et une liste de structures génériques, la combinaison flexible consiste à distribuer (répartir) les termes de manière à faire apparaı̂tre chacun d’eux dans le type d’éléments qui le concerne (où il apparaı̂t) pour formuler une requête du type : ”article [recherche d’information] //ec : paragraphe [reformulation des requêtes]” qui peut remplacer une requête du type : ”ec : article [recherche d’information et reformulation des requêtes]”. Le processus de distribution est réalisé comme suit : Considérons les 3 termes pertinents : ti , tj et tk et les 3 structures pertinentes A, B et C. Nous supposons que les occurrences de chaque terme dans chaque structures sont comme décrites dans le tableau 3.7 : Tab. 3.7 – Distribution des termes dans les structures génériques. A B C Nombre d’éléments pertinents ti 2 5 3 10 tj 6 3 0 9 tk 0 0 2 2 L’idée est de calculer la distribution d’un terme dans l’ensemble des structures pertinentes, c’est à dire de quelle manière est distribuée sa fréquence totale dans les différents types d’éléments. Pour un terme donné on calcule la somme de ses occurrences dans les éléments ayant le même type X divisée par sa fréquence totale. Ce facteur est appelé partition P art(ti , X). PN j=1 Occ(ti , ej ) (3.16) P art(ti , X) = PM k=1 Occ(ti , ek ) Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 119 avec N est le nombre des éléments (ej ) ayant une structure pertinente de type X dans lesquels occurre le terme ti , M est l’ensemble des éléments pertinents dans lequel occurre ti et Occ(ti , ej ) est le nombre d’occurrence du terme ti dans l’élément ej D’après le tableau 3.7, les distributions du terme ti dans les différentes structures (A, B et C) sont les suivantes : 2/10, 5/10 et 3/10. On remarque alors que le terme ti occurre plus fréquemment dans des éléments de type B. Autrement dit, il existe une relation plus solide entre le terme ti et la structure B. La distribution peut nous renseigner sur des relations entre termes et structures mais n’est pas assez discriminante. En effet si on considère qu’un terme occurre autant de fois dans deux types d’éléments différents ayant des tailles différentes, il est évident que la relation entre le terme et le type de plus petite taille est plus intéressante que celle avec des éléments de plus grande taille. Pour avoir alors des relations discriminantes nous avons tenu compte de la taille des éléments. La formule qui traduit la relation entre le terme ti et structure X est alors comme suit : PN j=1 Occ(ti , ej )/(|ej |) Rel(ti , X) = (3.17) PM k=1 Occ(ti , ek ) Où : |ej | la taille (nombre de termes) de l’élément ej . On suppose que la taille de chacun des éléments de type A, B et C est respectivement, 30, 15 et 12. La matrice terme structure sera comme illustré dans le tableau 3.8. Tab. 3.8 – Les relations termes pertinents-structures génériques. A B C ti 2/300 5/150 3/120 tj 6/270 3/135 0 tk 0 0 2/24 Nous proposons alors d’intégrer cette relation sémantique au niveau de la pondération des termes de la requête. Nous proposons de calculer un nouveau poids pour chaque terme dans chaque type d’élément. La formule de pondération est alors la suivante : PN j=1 Occ(ti , ej )/(|ej |) (3.18) P oids(ti , A) = W (ti ) × PM k=1 Occ(ti , ek ) Avec W( ti ) est le poids du terme calculé selon une des fonction de podération déjà présentées (équation 3.5 et 3.9). Cette méthode est intéressante lorsqu’elle Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 120 concerne la réinjection de plus qu’une structure pertinente. En effet dans le cas d’une seule structure, tous les mots-clés partagent une même contrainte structurelle. La réécriture des requêtes garde le même principe que précédemment. Cependant, les mots clés sont répartis dans les sous requêtes, dans lesquelles on spécifie les différentes contraintes structurelles, de manière à ce que si un terme pertinent n’appartient pas à un type d’élément (structure) il ne fera pas partie des mots clés de la sous-requête utilisant ce type d’élément. Cette réécriture est représentée dans la grammaire suivante : Soient R1 la réécriture d’une requête non structurée et R2 la réécriture d’une requête structurée : R1 : :<élément cible><contrainte structurelle><c1><Requête initiale1><Mots Clés ><c2><Suite Expressions Structurées>* R2 : := <Requête initiale2><Suite Structures>* Requête initiale1 : := requête non structurée Requête initiale2 : := requête structurée Suite Expressions Structurées : :=<Opérateur><contrainte structurelle><c1><Requête Initiale><Mots Clés><c2> Suite Structures : := <Opérateur><contrainte structurelle><c1><Mots clés Cibles><Mots Clés><c2> Opérateur : :=”OR” élément cible : :=”//ec : ” contrainte structurelle : :=nom de la balise extraite Mots Clés : :=mots clés sélectionnés appartenant à la condition structurelle spécifiée Mots Clés Cibles : :=mots clés appartenant à l’élément cible de la requête initiale et à la condition structurelle spécifiée c1 : :=”[” c2 : :=”]” Tab. 3.9 – Grammaire de la réécriture des requêtes par injection flexible des structures et des mots clés. Exemple : On considère les termes ti , tj et tk et les trois structures A, B et C à réinjecter dans deux requêtes : – CO R1 = t1 , t2 , ..., tn composé de n mots clés et structurée – CO+S R2 = ec : S[t1 , t2 , ..., tn ] composée d’un élément cible de type S et de n mots clés. Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 121 Les requêtes reformulée seront comme suit : R1’= ec : A [(t1 , w1a ), ..., (tn , wna ), (ti , wia ), (tj , wja )] OR B [((t1 , w1b ), ..., (tn , wnb ), (ti , wib ), (tj , wjb )] OR C [(t1 , w1c ), ..., (tn , wnc ), (ti , wic ), (tk , wkc )] R2’=ec :S[t1 , 1 t2 , 1 tn , 1] OR A [(t1 , w1a ), ..., (tn , wna ), (ti , wia ), (tj , wja )] OR B [((t1 , w1b ), ..., (tn , wnb ), (ti , wib ), (tj , wjb )] OR C [(t1 , w1c ), ..., (tn , wnc ), (ti , wic ), (tk , wkc )] Où wia , wja , wib ... and wkc sont les poids correspondant à chaque terme sélectionné dans chaque type d’élément. w1a ,..., wna sont les poids des termes de la requête originale dans l’élément de type A, w1b ,..., wnb sont les poids des termes de la requête originale dans l’élément de type B et w1c ,..., wnc sont les poids des termes de la requête originale dans l’élément de type C. Lorsque le terme n’apparaı̂t pas dans un type d’élément son poids est égal à zéro. Nous supposons que tous les mots clés originaux occurrent dans tous les types d’éléments. Exemple : Pour illustrer ce point, nous allons supposer les conditions résumées dans le tableau 3.10 : sachant que la requête initiale est la requête 202 de la collection de test INEX 2005 : R1= ” ontologies case study” sous forme de requête non structurée et R2=” article[ontologies] // ec : sec[ontologies case study] ” sous forme d’une requête structurée, où le terme ec marque la sous requête cible c’est-à-dire désirée par l’utilisateur. On considère que les termes à réinjecter sont graph, concept, semantic, que les structure à réinjecter sont paragraphe, titre, section et on garde les même relations illustrées dans le tableau 3.8. Tab. 3.10 – Distribution des termes dans les structures génériques. paragrapah titre soussection ontologies 0.7 0.9 0.5 case 0.3 0.05 0.1 study 0.4 0.1 0.2 graph 0.06 0.3 0.25 concept 0.2 0.2 0 semantic 0 0 0.16 Les requêtes finale sont R1’ et R2’ : Chapitre 3. Reformulation de requêtes par réinjection de contenu et de structures 122 – R1’=”ec : //paragraph [ontologie,0.7 case,0.3 study,0.4 graph,0.06 concept,0.2] OR titre [ontologie,0.9 case,0.05 study,0.1 graph,0.3 concept,0.2] OR soussection [ontologie,0.5 case,0.1 study,0.2 graph,0.25 semantic,0.16]” – R2’=” article[ontologies,1] // ec : sec[ontologies,1 case,1 study,1 ] OR paragraph [ontologie,0.7 case,0.3 study,0.4 graph,0.06 concept,0.2] OR titre [ontologie,0.9 case,0.05 study,0.1 graph,0.3 concept,0.2] OR soussection [ontologie,0.5 case,0.1 study,0.2 graph,0.25 semantic,0.16]” 3.6 Conclusion Dans ce chapitre, nous avons présenté des approches de réinjection de pertinence qui répondent aux caractéristiques de la RI structurée. Nous avons alors proposé trois différentes approches : 1. Une approche orientée contenu qui permet d’enrichir la requête initiale en réinjectant des mots clés. Ces mots clés sont tout d’abord extraits à partir des éléments jugés pertinents en utilisant différents indicateurs : la distribution des termes dans les éléments pertinents, la proximité de ces termes vis-à vis ceux de la requête initiale et enfin le bruit qu’ils peuvent engendrer s’ils sont fréquents dans les éléments non pertinents. 2. Une approche orientée structure qui permet de réinjecter une ou plusieurs structures pertinentes. Nous avons alors commencé par montrer empiriquement l’existence de la notion de structures pertinentes. Nous avons ensuite défini un algorithme (SCA) pour l’extraction des structures pertinentes appelées ici structures génériques. Nous avons également proposé une solution d’extraction des structures génériques dans des collections de documents hétérogènes, c’est ce que nous avons appelée classe de structures. 3. Une troisième approche combine les deux premières afin d’enrichir la requête initiale en y ajoutant à la fois des termes et des structures pertinents. Nous avons présenté alors trois formes de combinaison : une naı̈ve qui s’applique au niveau de la réécriture de la requête, une seconde qui traduit la dépendance entre les deux approches et une troisième plus flexible qui permet d’exprimer des relation ”sémantiques” entre les termes et les structures. Cette dernière répartit les termes pertinents dans les structures pertinentes adéquates. Le dernier chapitre est consacré à la phase de mise à l’épreuve de nos propositions sur les collections INEX. Chapitre 4 Evaluations & Expérimentations 4.1 Introduction Pour évaluer les différentes approches proposées dans cette thèse, nous nous appuyons sur les collections de test fournies dans le contexte d’INEX. Dans ce chapitre, nous nous intéressons à la construction de l’échantillon d’éléments renvoyés par le système à considérer pour l’extraction des évidences (termes +structures) ainsi qu’à l’étude qualitative des différentes approches présentées dans le chapitre précédent. Nous commençons par introduire notre plateforme d’évaluation dans la section 4.2, à savoir le système de recherche XFIRM, les collections de test INEX ainsi que les différentes stratégies d’évaluation utilisées dans nos expérimentations. Dans la section 4.3, nous évaluons l’impact du nombre d’éléments jugés sur les performances. Nous évaluons ensuite les performances des différentes approches proposées : l’approche orientée contenu (section 4.4), l’approche orientée structure (section 4.5) et l’approche combinée (sections 4.6). Nous présentons dans la section 4.7, l’impact du type de jugements de pertinence et des résultats de base1 sur les performances de nos approches. Nous finissons dans la section 4.8 par présenter nos expérimentations sur la réinjection à itérations multiples ainsi que sur la réinjection aveugle. 1 Les résultats de base sont donnés par le système de recherche XFIRM Chapitre 4. Evaluations & Expérimentations 4.2 Plateforme pour l’évaluation 4.2.1 Le système de recherche XFIRM 124 Nous avons évalué nos approches en utilisant le système de recherche XFIRM [166]. Ce système est basé sur une méthode de propagation de pertinence. Des valeurs de pertinence sont d’abord calculées pour les différents noeuds feuilles (c’est à dire les noeuds contenant du texte). Ces valeurs sont par la suite propagées et agrégées vers les noeuds ancêtres. Nous détaillons le modèle dans ce qui suit, à savoir la méthode d’évaluation de pertinence des noeuds feuilles, ainsi que l’évaluation de la pertinence des noeuds ancêtres dans le cadre des requêtes non structurées et structurées. 4.2.1.1 Évaluation de pertinence des noeuds feuilles Si on considère un noeud feuille (nf ) et une requête q composée de n mots clés (c’est à dire une requête de type CO dans la terminologie d’INEX), la valeur de pertinence du noeud feuille sera calculée en utilisant la fonction de similarité RSV(q,nf ) suivante [139] : RSV (q, nf ) = n X wjq × wjnf (4.1) j=1 Où : wjq = tfjq est le poids du terme j dans la requête q et wjnf = tfjnf × idfj × iefj est le poids du terme j dans le noeud feuille nf . Cette pondération permet d’exprimer à la fois l’importance des termes dans la collection de noeuds feuilles et la collection de documents. tfjq et tfjnf sont respectivement la fréquence du terme j dans la requête q et dans le noeud feuille nf , idfj = log(|D|/(|dj | + 1)) + 1, avec |D| le nombre total des documents dans la collection, |dj | le nombre de documents contenant le terme j, et iefj est la fréquence inverse d’élément du terme j, c’est à dire log(|N F |/|nfj |+ 1) + 1, où |nfj | est le nombre de noeuds feuille contenant le terme j et |N F | est le nombre total de noeuds feuilles dans la collection. La valeur de pertinence d’un noeud interne n (différent d’un noeud feuille) est calculée différemment par propagation de pertinence selon le type de requête (structurée ou non structurée). Chapitre 4. Evaluations & Expérimentations 4.2.1.2 125 Propagation de pertinence dans une requête non structurée On attribue pour chaque noeud de l’arbre du document une valeur de pertinence calculée en fonction des valeurs de pertinence des noeuds feuilles qui lui appartiennent. La valeur de pertinence d’un noeud interne n, définie par RSV (q, n), est calculée comme suit : X αdist(n,nfk )−1 ∗ RSV (q, nfk ) (4.2) RSV (q, n) = |Fnp | k=1..Fn Où les nfk sont les noeuds feuilles descendants du noeud n, dist(n, nfk ) est la distance entre le noeud n et le noeud feuille nfk dans l’arbre du document (c’est à dire le nombre d’arcs nécessaires pour atteindre le noeud n en partant du noeud feuille nfk ), |Fnp | est le nombre de noeuds feuilles descendants du noeud n ayant un score différent de zéro, Fn est le nombre total de noeuds feuilles descendants de n, et α ∈]0..1]. On peut également intégrer dans la mesure du score la pertinence que l’on accorde au document entier. On parle alors de pertinence contextuelle. La valeur de pertinence d’un noeud interne est défini alors comme suit : X pn = ρ ∗ |Fnp | αdist(n,nfk )−1 ∗ RSV (q, nfk ) + (1 − ρ) ∗ pracine (4.3) k=1..N avec pracine la pertinence du noeud racine du document, calculée d’après l’équation 4.2. ρ ∈ [0..1] est le paramètre servant de pivot et permettant d’ajuster l’importance de la pertinence du noeud racine. 4.2.1.3 Propagation de pertinence dans une requête structurée Les requêtes structurées les plus précises se présentent sous le format suivant : Q = RE//ec : RE//RE où RE est une requête élémentaire de la forme : RE = tg1 [t11 , t12 , ...t1n ] OR tg2 [t21 , t22 , ...t2n ] OR... avec tgi un nom de balise qui représentant une contrainte structurelle. Les // entre les requêtes RE permettent d’exprimer des contraintes hiérarchiques et ec : permet de désigner les éléments cibles de la requête c’est à dire les éléments devant être renvoyés à l’utilisateur. L’évaluation des requêtes est réalisée à travers les étapes suivantes : Chapitre 4. Evaluations & Expérimentations 126 1. Les requêtes sont décomposées en sous-requêtes élémentaires SRE, ayant la forme : SRE = tg[q], où q = t1 , ..., tn présente une contrainte sur le contenu composée de simples mots clés. 2. Les valeurs de pertinence sont par la suite calculées entre les noeuds feuilles et les conditions portant sur le contenu des sous requêtes élémentaires. 3. Les valeurs de pertinence sont propagées dans l’arbre du document afin de répondre aux contraintes structurelle des sous-requêtes élémentaires. 4. Les requêtes élémentaires RE sont ensuite évaluées en appliquant l’opérateur OR entre les sous requêtes élémentaires. Le résultat d’une RE est un ensemble de noeuds et les pertinences associées. 5. Pour évaluer les conditions de hiérarchie de la requête originale, les ensembles résultats des requêtes élémentaires sont combinées grâce à l’opérateur non-commutatif ∆ défini ci-dessous. Cet opérateur permet de propager les pertinences des noeuds résultats de différentes RE vers les noeuds résultats de la requête élémentaire désignant les éléments cibles. Cette propagation est uniquement effectuée si les conditions hiérarchiques de la requête sont vérifiées dans les documents. Soient deux ensembles de paires (noeud, pertinence) Ri = (n, pn ) et Ri+1 = (m, pm ) Ri ∆Ri+1 = (n, p′n ) (4.4) avec ½ pn + propag (dist(m, n), pn , pm ) si n ∈ Ri est Ancetre de m ∈ Ri+1 pn sinon (4.5) Où propag (dist(m, n), pn , pm ) → p′n permet d’agréger les pertinences pm du noeud m et pn du noeud n en fonction de la distance qui sépare les deux noeuds, pour obtenir la nouvelle pertinence p′n du noeud n. Dans la troisième étape, la valeur de pertinence pn d’un noeud n pour une sous requête élémentaire SRE = tg[q] est calculée selon la formule suivante : ½ P dist(n,nfk )−1 ∗ RSV (q, nfk ) si n ∈ construct(tg) nfk ∈Fn α (4.6) pn = 0 sinon p′n = où le résultat de la fonction construct(tg) est l’ensemble des noeuds ayant tg comme nom de balise, et RSV (q, nfk ) est calculée dans l’étape 2 avec l’équation 4.1. La fonction construct(tg) utilise un index Dictionnaire qui présente pour une balise tg donnée les balises qui lui sont considérées équivalentes. Pour évaluer des requêtes structurées en considérant les contraintes structurées comme vagues, on utilise l’index Dictionnaire composé d’équivalences étendues. Par exemple, un noeud de type section peut être considéré équivalent aux noeuds de type paragraphe ou aussi body. Ce dictionnaire est construit manuellement. On trouvera plus de détails sur le modèle XFIRM dans [166]. Chapitre 4. Evaluations & Expérimentations 4.2.2 127 Rappel sur les collections de test Nous nous basons pour l’évaluation des performances sur la collection de test fournie dans le cadre de la campagne d’évaluation INEX (INitiative for the Evaluation of XML Retrieval ). Dans le premier chapitre, nous avons présenté les différentes tâches et mesures proposées depuis la mise en place de cette campagne. Dans cette section, nous nous focalisons sur les stratégies et les mesures appliquées dans la tâche Relevance Feedback en 2005 et 2006. 4.2.2.1 Collection de documents Les collections de documents diffèrent entre 2005 et 2006 : – En 2005, la collection présente une extension de la collection 2004 composée d’articles scientifiques provenant de la IEEE Computer Society, balisés au format XML. Elle comporte environ 17000 articles publiés de 1995 à 2004 provenant de 21 magazines ou revues différents ayant une taille totale d’environ 1,3 gigaoctets. En moyenne, un article contient 1532 noeuds XML, où la profondeur moyenne d’un noeud est 6.9. La collection contient au total 8 millions de noeuds et 180 balises différentes. – En 2006, la collection est composée de 659388 documents en anglais issus de l’encyclopédie en ligne de Wikipedia [47] pour une taille totale d’environ 5 gigaoctets. Elle contient environ 5000 balises différentes. En moyenne un article contient 161.35 noeuds XML, où la profondeur moyenne d’un élément est 6.72. 4.2.2.2 Topics Les topics, c’est à dire les thèmes à partir desquels les requêtes sont construites, sont créés par les différents participants et doivent être représentatifs des demandes de l’utilisateur sur la collection. On distingue deux types de requêtes : – Les CO (Content Only) : ce sont des requêtes composées de simples mots clés. Les mots clés de la requête peuvent être éventuellement groupés sous forme d’expressions et précédés par les opérateurs ’+’ (signifiant que le terme est obligatoire) ou ’-’ (signifiant que le terme ne doit pas apparaı̂tre dans les éléments renvoyés à l’utilisateur). – Les CAS (Content And Structure) : ces requêtes contiennent des contraintes Chapitre 4. Evaluations & Expérimentations 128 sur la structure des documents. Les tâches de recherche proposées pour chaque type de requêtes en 2005 diffèrent de celles de 2006. Nous distinguons en ce qui concerne la tâche de Relevance Feedback : – En 2005, des requêtes de type CO (40 requêtes dont 28 ont été jugées) ont été traitées dans une tâche CO dans laquelle on considère uniquement leur contenu (titre composé de mots clés) et dans une tâche CO+S dans laquelle on considère le même contenu que la requête CO avec une contrainte structurelle vague. Pour les requêtes structurées CAS (47 requêtes dont 12 ont été jugées), on n’a considéré que la tâche VVCAS2 . – En 2006, un seul ensemble de requêtes a été proposé. Il a été traité selon deux tâches : CO et CO+S. Les requêtes sont au nombre de 125 dont 114 ont été jugées. Dans la tâche Relevance Feedback seule la stratégie Thorough de recherche est appliquée pour les différents types de requêtes. On rappelle que dans la stratégie Thorough, on suppose qu’un utilisateur préfère retrouver tous les élément fortement pertinents. 4.2.2.3 Jugements de pertinence Comme nous l’avons déjà introduit dans le premier chapitre, le jugement de pertinence en RI structurée concerne 2 dimensions : l’exhaustivité et la spécificité. En 2005, l’exhaustivité est mesurée selon une échelle à 4 niveaux : exhaustivité { e=2 exhaustivité élevée e=1 exhaustivité moyenne e=0 pas d’exhaustivité e= ? élement trop petit En 2006, tous les éléments jugés pertinents sont d’exhaustivité=2. La spécificité est mesurée dans un intervalle continu [0,1] où s=1 représente un élément totalement spécifique. Pour obtenir des résultats de performance, les 2 dimensions de pertinence (exhaustivité et spécificité) sont agrégées en une seule valeur. Deux types de fonction d’agrégation sont utilisées : 2 On rappelle que dans la tâche VVCAS le jugement de pertinence est fait selon le champ narrative de la requête, c’est à dire la contrainte structurelle n’est pas prise en compte. Chapitre 4. Evaluations & Expérimentations 129 – une agrégation ”stricte” pour évaluer si un SRI est capable de retrouver des éléments très spécifiques et très exhaustifs ½ 1 si e = 2 et s = 1 (4.7) fstrict (e, s) = 0 sinon – une agrégation ”généralisée” pour évaluer les éléments selon leur degré de pertinence fgeneralisee (e, s) = e ∗ s (4.8) 4.2.2.4 Mesures d’évaluation Les mêmes mesures ont été utilisées dans INEX 2005 et INEX 2006. Elles reposent sur deux principales mesures que nous allons utiliser durant nos expérimentations : – La mesure xCG (le gain cumulé ) : on utilise la forme normalisée nxCG[i]. Pour un rang donné i, le gain cumulé nxCG[i] reflète le gain relatif de l’utilisateur accumulé jusqu’à ce rang, comparé à ce qu’il aurait du atteindre si le système avait produit une liste triée optimale. Le M AnXCG[i] est la moyenne des gains cumulés jusqu’au rang i. – Par analogie au gain cumulé, on définit l’effort-précision (ep(r)) L’effort-précision (ep(r)) est calculé à des points de gain-rappel arbitraires, où le gain-rappel gr est la valeur du gain cumulé divisé par la valeur totale atteignable du gain cumulé. L’effort-précision à une valeur donnée de gain-rappel mesure l’effort d’un utilisateur pour atteindre un gain relatif au gain total qu’il peut obtenir. On utilise dans nos expérimentations la moyenne non interpolée MAep (Mean Average Effort Precision). Elle permet de moyenner les valeurs d’effort-précision pour chaque rang auquel un élément pertinent est renvoyé. Par analogie aux courbes de rappel précision en RI classique, nous utilisons dans ce contexte les courbes de variation d’effort-précision en fonction des points du gain-rappel. Nous rappelons également que l’évaluation de la réinjection de pertinence est mesurée par l’amélioration relative AR définie dans la section 2.5.2 du second chapitre. Chapitre 4. Evaluations & Expérimentations 4.2.3 130 Stratégies d’évaluation Pour mettre en relief l’impact de nos approches sur la restitution de nouveaux éléments pertinents, les différentes expérimentations que nous avons menées ont été évaluées selon la stratégie résiduelle. On rappelle que la stratégie résiduelle évalue les requêtes initiales et la reformulation sur une collection résiduelle ne contenant plus les éléments jugés. Nous utiliserons la stratégie d’évaluation ”freezing” adoptée pour les résultats officiels de la campagne d’évaluation INEX à la fin de nos expérimentations. Ces résultats sont présentés dans la section 4.9. 4.2.4 Résultats de base Pour évaluer les performances de nos approches, nous devons tout d’abord fixer les résultats de base à partir desquels nous allons construire notre échantillon pour la reformulation. Ces résultats seront par la suite comparés à ceux obtenus après reformulation en appliquant les mêmes paramètres de recherche. Pour ce faire, nous avons considéré les tâches de recherche CO, CO+S et VVCAS de la collection 2005 et CO et CO+S de la collection 2006 pour retrouver la valeur du paramètre α du système de recherche XFIRM qui permet d’avoir les meilleurs résultats. α est une constante qui varie dans un intervalle ]0..1]. Pour juger les meilleures performances du système, nous privilégions les valeurs obtenues avec une agrégation stricte (les éléments strictement pertinents traduisent d’une manière exacte les besoins de l’utilisateur) ainsi que les MAep, présentant une mesure de performance globale sur l’ensemble des éléments retournés par le système de recherche (alors que les MAnxCG présentent des performances dans des points précis de la liste des éléments restitués). Nous résumons dans le tableau 4.1 les valeurs du paramètre α permettant d’obtenir les meilleurs résultats de base pour chaque type de requête de chaque collection. Nous présentons les mesures MAep et MAnxCG[10] avec les deux fonctions d’agrégation (généralisée et stricte). Notons que les faibles valeurs de α permettant d’obtenir des résultats optimaux privilégient les éléments de petite taille dans la liste des résultats. Dans le cas des requêtes CO, le paramètre ρ est fixé à 0 (donnant les meilleurs résultats). Lorsque ρ = 0, seule la pertinence du document entre en compte pour le calcul de la pertinence des éléments. Nous utiliserons pour relancer la recherche après reformulation les mêmes valeurs des constantes (α et ρ) que celles ayant permis d’obtenir les meilleurs résultats de base. Chapitre 4. Evaluations & Expérimentations 131 Tab. 4.1 – Résultats de base des collections 2005 et 2006. MAnxCG MAep MAnxCG MAep Rang/Nombre [10] gen gen [10] stricte stricte de participants CO 2005 0.1532 0.0457 0.0438 0.0156 29/55 (α = 0.2) CO+S 2005 0.2986 0.0568 0.1277 0.0316 3/33 (α = 0.1) VVCAS 0.2532 0.0499 0.1189 0.0382 9/28 2005 (α = 0.1) CO 2006 0.2356 0.0205 0.1319 0.0132 26/106 (α = 0.2) CO+S 2006 0.2016 0.0079 0.1749 0.0045 77/106 (α = 0.1) 4.2.5 Démarche d’évaluation La démarche que nous adoptons pour évaluer nos différentes propositions est la suivante. Nous allons commencer tout d’abord par évaluer l’impact de l’échantillon et du choix du nombre d’éléments jugés pour les différentes tâches des deux collections. Nous évaluons ensuite chacune des approches proposées. Les approches seront testées dans l’ordre de leur présentation dans le chapitre précédent : orientée contenu, orientée structure et approche combinée. Afin de tirer des conclusions générale sur l’intérêt d’un point ou une proposition, nous commençons d’abord par observer les résultats obtenus sur les différentes tâches (CO, CO+S, VVCAS) pour les deux collections considérées, puis nous faisons un bilan global à partir de toutes les observations. 4.3 Échantillonnage Un échantillon est principalement caractérisé par : – le nombre d’éléments jugés, – le nombre d’éléments jugés pertinents. Ce facteur influence directement les approches utilisées. En effet, si le nombre d’éléments pertinents est faible, voire nul, il sera difficile de déceler des termes pertinents ainsi que des structures pertinentes pouvant enrichir la requête initiale. Dans le cas où l’ensemble des éléments pertinents est vide, on ne peut pas appliquer la réinjection de pertinence. Chapitre 4. Evaluations & Expérimentations 132 – la nature du jugement de pertinence : c’est à dire si les éléments qui constituent l’échantillon sont jugés strictement (éléments très spécifiques et très exhaustifs) ou selon la fonction d’agrégation généralisée3 . Notre objectif est d’améliorer les performances du système en utilisant les mêmes conditions d’expérimentation (mêmes caractéristiques de l’échantillon). Nous nous intéressons en particulier à améliorer les performances du système de recherche en se basant sur des éléments strictement pertinents traduisant exactement le besoin de l’utilisateur. Nous ne considérons alors que les éléments jugés strictement pertinents pour la construction de l’échantillon. Dans les paragraphes suivants, nous allons évaluer l’impact du nombre d’éléments jugés ainsi que le nombre d’éléments jugés pertinents. Nous utiliserons pour relancer la recherche après reformulation les mêmes valeurs des constantes (α et ρ) que celles ayant permis d’obtenir les meilleurs résultats de base. Nous avons appliqué : – la reformulation orientée contenu (ROC ) en réinjectant un seul terme pertinent. Pour la pondération des termes de la nouvelle requête, nous avons utilisé le poids Probabiliste-Contextuel (Prob-Cont) calculé selon l’équation 3.5. Les termes réinjectés n’apparaissent pas dans la requête initiale. – la reformulation orientée structure (ROS ) en réinjectant une seule structure générique extraite en appliquant l’algorithme SCA. – la reformulation combinée naı̈ve (RCN ) en réinjectant un terme pertinent (on utilise les mêmes paramètres que ceux de ROC ) et une structure générique extraite aussi en appliquant l’algorithme SCA. D’autres valeurs ainsi que d’autres mode de combinaison seront testés par la suite dans les sections consacrées à l’évaluation de chacune des approches. Nous rappelons aussi que les évaluations sont effectuées en appliquant la stratégie résiduelle. Pour permettre une meilleure lisibilité, les cas où nous n’obtenons pas d’améliorations seront représentés par des cellules vides (-). 4.3.1 Choix du nombre d’éléments jugés D’après le protocole d’évaluation adopté par la campagne INEX, on considère les 20 premiers éléments retournés par le système de base pour construire l’échantillon et on utilise la stratégie de ”freezing”. Or nous supposons que le choix des 20 premiers éléments n’est pas forcément le meilleur pour tous les systèmes. En effet, si un système est assez performant, un nombre plus faible peut être efficace et dans le cas où le système ne retourne pas d’éléments perti3 On rappelle que la fonction d’agrégation généralisée traduit le fait qu’un élément pertinent peut avoir différents degrés de spécificité et d’exhaustivité Chapitre 4. Evaluations & Expérimentations 133 nents dans les 20 premiers éléments, il sera plus important d’élargir l’ensemble des éléments à juger. En réalité il n’existe pas de taille idéale pour construire l’échantillon. Ce dernier dépend directement : – Des performances du système de base qui sont liées aux types des requêtes. En effet, les résultats diffèrent d’un type à un autre. On le constate par exemple dans le tableau récapitulatif des résultats des différents participants d’INEX. Par exemple en 2005, le système de recherche XFIRM se classe le 3eme dans le cas des requêtes de type CO+S alors qu’il est à la 22eme place dans le cas des requêtes de type CO. Par conséquent, le nombre d’éléments jugés pertinents n’est pas le même dans les n premiers résultats retournés par le système de recherche. On remarque également dans le cas de collection 2006, que malgré une meilleure expressivité des requêtes CO+S (comportant mots clés et structures), les résultats ne sont pas meilleurs que ceux obtenus par des requêtes CO (comportant que des des mots clés) – De la collection : on remarque dans le tableau 4.1 que pour le même type de requêtes, on ne retrouve pas les mêmes performances. Par exemple la MAep stricte des requêtes CO+S dans la collection 2005 et celle de 2006 sont respectivement, 0.0316 et 0.0045. – De l’approche utilisée pour la réinjection de pertinence : puisque nous proposons différents processus pour l’extraction des termes et des structures pertinents, un nombre d’éléments pertinents peut être suffisant pour extraire une évidence mais pas pour une autre. Dans ce paragraphe, nous allons étudier à travers des expérimentations la construction de l’échantillon selon les différents cas envisagés. Nous allons alors faire varier le nombre des éléments jugés pour chaque type de tâche de recherche (CO, CO+S VVCAS), dans chaque collection (2005 et 2006) et en utilisant les différentes approches : ROC, ROS et RCN. Le nombre d’éléments jugés varie dans l’ensemble {10, 20, 50}. Nous allons présenter les différents résultats par type de tâche. 4.3.1.1 Tâche CO Les tableaux 4.2 et 4.3 listent les valeurs des améliorations relatives (AR) obtenues selon le nombre d’éléments jugés (Nb-Elt-Jugés) dans le cas des requêtes CO (comportant que des mots clés) de la collection 2005 et 2006. Le terme ”Base” désigne les résultats de base obtenus sur la collection résiduelle. Dans le cas de la collection 2006, les valeurs qui correspondent aux nombres d’éléments jugés 10 et 20 ne sont pas représentées car aucune amélioration n’est Chapitre 4. Evaluations & Expérimentations 134 Tab. 4.2 – Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la tâche CO de la collection 2005 App MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-EltBase 0,1525 0,0401 0,0617 0,0137 Jugés=10 ROC 14% 31% – – ROS 101% 76% 49% 110% RCN 70% 65% – 50% Nb-EltBase 0,1393 0,0379 0,0386 0,01 Jugés=20 ROC 48% 43% – 10% ROS 120% 87% 138% 188% RCN 86% 75% 55% 106% Nb-EltBase 0,1736 0,0551 0,0269 0,0064 Jugés=50 ROC 0% 0% – 64% ROS 77% 28% 242% 350% RCN 55% 23% 139% 230% observée pour ces cas. Le premier résultat intéressant que l’on observe, en particulier pour la collection 2005 est que nos trois approches apportent des améliorations significatives comparées aux résultats de base. Nous remarquons également que nous obtenons deux différents comportements selon la collection et l’approche considérées. En effet, on constate des améliorations significatives, en particulier pour les mesures généralisées dans le cas de la collection 2005 pour les différents nombre d’éléments jugés et pour les différentes approches. Concernant les mesures strictes on observe des améliorations claires, en particulier au niveau de la MAep, à partir de 20 éléments jugés. Les résultats sont beaucoup plus mitigés Tab. 4.3 – Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la tâche CO de la collection 2006 Tâches App MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-EltBase 0,142 0,0122 0,1065 0,0069 Jugés=50 ROC 4% – 13% 4% ROS – – 15%– – RCN – – 8% – Chapitre 4. Evaluations & Expérimentations 135 Tab. 4.4 – Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la tâche CO+S de la collection 2005 Tâches App MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-EltBase 0,2081 0,0461 0,1071 0,0444 Jugés=10 ROC – 13% – – ROS 3% 15% – – RCN 3% 14% – – Nb-EltBase 0,1741 0,0407 0,0558 0,0197 Jugés=20 ROC 8% 33% 46% 30% ROS 3% 22% 5% 32% RCN 7% 23% 41% 32% Nb-EltBase 0,1027 0,028 0,0277 0,0085 Jugés=50 ROC 45% 46% 157% 23% ROS 29% 46% – – RCN 32% 46% 97% 16% pour la collection 2006. On ne constate pas d’améliorations spécifiques, hormis, une légère amélioration au niveau de MAnxCG[10] stricte pour 50 éléments jugés. Nous discuterons le nombre de requêtes qui améliorent les performances vis-à-vis de celles qui le détériorent dans la section 4.3.3. Nous n’avons pas d’explication rationnelle quant à la différence des résultats entre ces deux collections. Nous pensons néanmoins que les deux collections n’ont pas les mêmes caractéristiques (nombre de balise, profondeur moyenne d’un noeud,...), et que ces caractéristiques influencent la performance du système de recherche ainsi que notre processus de réinjection de pertinence. 4.3.1.2 Tâche CO+S Les tableaux 4.4 et 4.5 listent les valeurs des améliorations relatives obtenues selon le nombre d’éléments jugés (Nb-Elt-Jugés) dans le cas de la tâche de recherche CO+S des collections 2005 et 2006. Le premier résultat que l’on peut tirer de ces deux tableaux est que nos différentes approches apportent des améliorations claires, en particulier à MAnxCG[10] pour les deux mesures considérées et à partir de 20 éléments jugés. Le comportement au niveau de la MAep diffère dans les deux cas. En effet les Chapitre 4. Evaluations & Expérimentations 136 Tab. 4.5 – Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la tâche CO+S de la collection 2006 Tâches App MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-EltBase 0,1299 0,0062 0,1115 0,0035 Jugés=10 ROC – – 17% – ROS 9% – 12% – RCN 14% – 16% – Nb-EltBase 0,1224 0,0054 0,1114 0,0031 Jugés=20 ROC 15% – 14% – ROS 16% – 15% – RCN 19% – 18% – Nb-EltBase 0,0901 0,004 0,0717 0,0019 Jugés=50 ROC 33% – 48% 10% ROS 30% – 36% 0% RCN 47% – 54% 0% améliorations des MAep ne concernent que la collection 2005. 4.3.1.3 Tâche VVCAS Le tableau 4.6 liste les valeurs des améliorations relatives obtenues selon le nombre d’éléments jugés (Nb-Elt-Jugés) dans le cas de la tâche VVCAS de la collection 2005. On constate des améliorations significatives, en particulier à MAnxCG[10] pour toutes les approches pour un nombre d’éléments jugés égal à 10 et 20. Un résultat surprenant, très positif, concerne la mesure stricte. En effet, on constate des améliorations très significatives pour toutes les approches et tous les gains considérés. Cette amélioration montre en outre un accroissement clair, en particulier au niveau de MAep strict, proportionnel au nombre d’éléments jugés. En termes de tâches, nous remarquons que nos approches ont des impact très positifs dans la tâche VVCAS vis-à-vis les autres tâches. Ces résultats sont à considérer avec prudence car le nombre de requêtes considérées dans cette tâche est faible en le comparant aux autres tâches. En effet, parmi les 12 requêtes jugées, les requêtes ayant des éléments pertinents dans les 10, 20 et 50 premiers Chapitre 4. Evaluations & Expérimentations 137 Tab. 4.6 – Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la tâche VVCAS de la collection 2005 Tâches App MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-EltBase 0,22 0,0469 0,1177 0,0282 Jugés=10 ROC 7% – 56% 147% ROS 19% 1% 83% 160% RCN 13% 2% 56% 146% Nb-EltBase 0,1425 0,0437 0,0904 0,0224 Jugés=20 ROC 51% – 84% 187% ROS 34% 0% 63% 197% RCN 33% 4% 69% 207% Nb-EltBase 0,1772 0,0423 0,0927 0,0209 Jugés=50 ROC – – 63% 195% ROS – – 63% 214% RCN – – 64% 213% éléments sont au nombre de 5, 6 et 8 (voir tableau 4.7). Ceci explique aussi le comportement brutal de cette tâche au niveau des mesures généralisées en considérant le nombre d’éléments jugés de 20 et 50, autrement dit, une seule requête peut influencer sur significativement le résultat global. 4.3.1.4 Discussion et bilan Un premier résultat important que l’on peut tirer de ces premières expérimentations est qu’on observe des améliorations souvent significatives à partir des 10 premiers éléments retournés (MAnxCG[10]) et/ou au niveau de la MAep pour les deux mesures strictes et généralisées et pour toutes les tâches considérées en jugeant les 20 premiers éléments hormis la tâche CO 2006. Nous remarquons également que les approches ont un comportement très variable selon l’agrégation considérée (stricte/généralisée), les tâches et les collections, en particulier dans le cas de la tâche VVCAS, où les améliorations strictes sont beaucoup plus importantes que celles généralisées. Afin de bien mettre en évidence l’impact du nombre d’éléments jugés, nous avons calculé la moyenne du nombre d’éléments pertinents dans chaque échantillon parmi les 10, 20 et 50 premiers éléments retournés par le systèmes. Chapitre 4. Evaluations & Expérimentations 138 Tab. 4.7 – Moyennes des éléments jugés pertinents dans les échantillons NRP MEP NRP MEP NRP MEP (Top (Top (Top (Top (Top (Top 50) 10) 10) 20) 20) 50) CO 2005 15/28 2.47 15/28 4.67 17/28 7.35 CO+S 9/28 3.11 12/28 3.83 17/28 6.47 2005 VVCAS 5/12 2.8 6/12 4.83 8/12 8.88 2005 CO 2006 51/114 2.78 63/114 5.52 81/114 11.58 CO+S 65/114 2.31 77/114 3.34 88/114 6.10 2006 Le tableau 4.7 résume, pour chaque type de tâches de recherche de chaque collection, le nombre de requêtes ayant des éléments pertinents (NRP) et le nombre moyen d’éléments jugés pertinents par requête (MEP). Pour cette dernière mesure, on ne considère pas les requêtes n’ayant aucun élément pertinent. D’après le tableau 4.7, nous constatons que le nombre d’éléments jugés pertinents dans les 10 premiers éléments retournés par le système de recherche est généralement inférieur à 3. Ceci peut expliquer les cas souvent observés où nous n’obtenons pas d’améliorations ou bien des améliorations non significatives en considérant les 10 premiers éléments dans la construction de l’échantillon. De plus on constate que le nombre de requêtes ayant des éléments pertinents varie entre 6 et 17 pour la collection 2005. Ceci peut avoir des effets incontrôlables au niveau des performances. Ainsi, afin d’assurer un minimum d’éléments pertinents dans un échantillon, nous proposons de construire un échantillon non pas en fixant le nombre d’éléments jugés mais en fixant le nombre d’éléments jugés pertinents. Nous allons étudier l’impact du nombre d’éléments pertinents sur les performances de notre système dans le paragraphe suivant. Étant donné qu’en général, nous obtenons des améliorations significatives en considérant des échantillons construits à partir de 20 éléments pertinents (excepté le cas de la tâche CO de la collection 2006), nous allons focaliser notre étude pour des valeurs qui ne dépassent pas 5 éléments jugés pertinents. Nous ne considérons pas la tâche CO de la collection 2006 dans cette étude car aucune amélioration n’a été observée pour cette tâche. Chapitre 4. Evaluations & Expérimentations 139 Tab. 4.8 – Impact du nombre d’éléments jugés pertinents sur l’échantillon dans le cas de la tâche CO de la collection 2005 Tâches App MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-Elt- Base 0,2367 0,0409 0,0757 0,0175 Pert=1 ROC – 28% – – ROS 28% 60% 22% 58% RCN 2% 48% – – Nb-Elt- Base 0,2258 0,0355 0,1235 0,0307 Pert=3 ROC – 61% – – ROS 37% 95% – – RCN 23% 85% – – Nb-Elt- e Base 0,213 0,0352 0,078 0,0202 Pert=5 ROC – 63% – – ROS 45% 97% 18% 45% RCN 30% 86% – 20% 4.3.2 Choix du nombre d’éléments jugés pertinents dans un échantillon Dans ce paragraphe nous varions le nombre des éléments jugés pertinents (Nb-Elt-Pert) dans l’ensemble {1, 3, 5}. Cette étude est effectuée pour les différentes tâches. Nous représentons les pourcentages des améliorations relatives pour les différentes mesures. Les tableaux 4.8, 4.9, 4.11 et 4.10 présentent respectivement l’impact du nombre d’éléments jugés pertinents sur l’échantillon dans le cas des tâches de recherche CO+S et VVCAS de la collection 2005 et dans le cas de la tâche CO+S de la collection 2006. Tout d’abord pour la collection 2005, d’une manière générale, dans le cas des tâches CO et CO+S, les meilleures performances ainsi que les meilleurs taux d’amélioration sont obtenus en considérant un échantillon composés de 3 éléments pertinents excepté dans quelques cas comme par exemple le cas de l’agrégation stricte de la tâche CO de la collection 2005 (tableau 4.8). Trois éléments pertinents semblent donc présenter un nombre suffisant pour appliquer la reformulation. Concernant les requêtes CO+S de la collection 2006 (tableau 4.10), nous n’observons pas d’amélioration en utilisant les échantillons à 1 et 5 éléments per- Chapitre 4. Evaluations & Expérimentations 140 Tab. 4.9 – Impact du nombre d’éléments jugés pertinents sur l’échantillon dans le cas de la tâche CO+S de la collection 2005 Tâches App MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-Elt- Base 0,1773 0,0324 0,1232 0,0357 Pert=1 ROC – 45% – – ROS 11% 39% – – RCN 76% 84% 47% 22% Nb-Elt- Base 0,135 0,0247 0,0802 0,019 Pert=3 ROC 7% 51% – – ROS 36% 65% 18% 26% RCN 137% 141% 106% 105% Nb-Elt- Base 0,1473 0,0225 0,0841 0,0187 Pert=5 ROC 3% 70% – – ROS 6% 63% – – RCN 77% 131% 71% 84% Tab. 4.10 – Impact du nombre d’éléments jugés pertinents sur l’échantillon dans le cas de la tâche CO+S de la collection 2006 Tâches App MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-Elt- Base 0,1458 0,0065 0,1263 0,0035 Pert=3 ROC 8% – 14% – ROS – – 1% – RCN 12% – 19% – Chapitre 4. Evaluations & Expérimentations 141 Tab. 4.11 – Impact du nombre d’éléments jugés pertinents sur l’échantillon dans le cas de la tâche VVCAS de la collection 2005 Tâches App MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-Elt- Base 0,1804 0,1693 0,112 0,0283 Pert=1 ROC – – 27% 105% ROS 29% 71% 55% 160% RCN 74% 16% 89% 187% Nb-Elt- Base 0,175 0,0399 0,1126 0,0275 Pert=3 ROC – – 30% 111% ROS 39% 5% 85% 165% RCN 40% 6% 76% 156% Nb-Elt- Base 0,1471 0,0381 0,083 0,0258 Pert=5 ROC 17% – 62% 121% ROS 68% 5% 152% 177% RCN 114% 32% 146% 206% tinents. Ces valeurs ne sont pas listées. En revanche, des améliorations significatives sont observées dans le cas des mesures MAnxCG[10] en agrégation stricte et généralisée en appliquant l’approche orientée contenu et l’approche combinée. Dans le cas de la tâche VVCAS, il y a une amélioration claire au niveau des mesures strictes, proportionnelle au nombre d’éléments jugés pertinents. Pour les mesures généralisées, les améliorations sont claires pour les approches ROS et RON, l’approche ROC à partir de 5 éléments pertinents. Nous n’allons pas nous attarder sur ce point car la solution proposée est peu applicable en pratique, en effet, en fixant le nombre d’éléments jugés pertinents, on peut se ramener à parcourir un grand nombre d’éléments retournés par le système ce qui pénalise l’évaluation résiduelle (dans certains cas il n’existe pas d’éléments strictement pertinents). Nous présentons dans le tableau 4.12 la moyenne des éléments parcourus (jugés) (MEJ) pour retrouver le nombre fixé d’éléments jugés pertinents. Nous remarquons que le nombre d’éléments parcourus est élevé (nous avons considéré toutes les requêtes y compris celles pour lesquelles on ne retrouve pas d’éléments pertinents, c’est ce qui explique les valeurs élevées des nombres d’éléments. Nous remarquons que les moyennes varient selon les tâches ainsi que les collections. Par exemple si nous considérons le cas de la tâche CO, pour Chapitre 4. Evaluations & Expérimentations 142 Tab. 4.12 – Moyennes des éléments jugés dans les échantillons MEJ MEJ MEJ (P1) (P3) (P5) CO 2005 211.92 289.78 304.28 CO+S 2005 199.82 331.85 383.53 VVCAS 2005 148.41 409.16 476 CO 2006 99.04 175.83 248.95 CO+S 2006 160.28 381.81 490.54 retrouver 3 éléments pertinents, on doit parcourir en moyenne 289 éléments dans la collection 2005 alors que 175 éléments est la moyenne d’éléments parcourus dans la collection 2006, elle est de 381 pour la même collection mais pour la tâche CO+S. Nous allons alors discuter les deux paramètres (nombre d’éléments jugés et le nombre d’éléments jugés pertinents) dans la section suivante. 4.3.3 Discussion Nous constatons d’après les expérimentations effectuées précédemment que d’une part, si on fixe le nombre d’éléments jugés, on risque de ne pas avoir des éléments pertinents pour appliquer notre approche, et d’autre part si on fixe le nombre d’éléments jugés pertinents, on risque de parcourir l’ensemble des éléments retournés par le système pour certaines requêtes. Ceci nous conduit à chercher un compromis entre les deux facteurs. De ce fait, nous proposons de fixer le nombre des éléments jugés pertinents tout en fixant un nombre maximum d’éléments parcourus qu’on ne doit pas dépasser. Cette proposition semble la plus raisonnable puisqu’elle pourra être appliquée dans des cas réels. En effet, si on charge un utilisateur de juger un ensemble d’éléments, il lui semblera inutile de continuer à parcourir une liste d’éléments s’il retrouve un nombre suffisant d’éléments pertinents dès les premiers éléments de l’ensemble. D’autre part, un utilisateur ne peut pas dépasser un certain nombre d’éléments à parcourir car il est généralement limité par le facteur temps. Par souci de généralisation, nous n’allons pas prendre les meilleures conditions pour chaque tâche, nous essayons de trouver des conditions qui peuvent plus au moins convenir à toutes les tâches. Dans notre cas, on prend les condition suivantes : on considère 3 éléments pertinents et on juge au plus 20 élément. Nous avons ensuite appliqué ce choix d’échantillon pour les différentes requêtes des collections 2005 et 2006. Nous présentons dans le tableau 4.13 les résultats obtenus. Chapitre 4. Evaluations & Expérimentations 143 Tab. 4.13 – Résultats selon le nouvel échantillon de test pour les différentes tâches de recherche Tâches App MAnxCG MAep MAnxCG MAep [10] gen gen [10] stricte stricte Base 0,1742 0,0398 0,0963 0,0226 ROC 19% 24% – – CO 2005 ROS 48% 44% 39% 60% RCN 19% 30% – – Base 0,1622 0,0426 0,0863 0,0267 ROC – 19% 6% – CO+S 2005 ROS 1% 12% 30% 28% RCN 0% 12% 23% 17% Base 0,1353 0,0063 0,1203 0,0035 ROC 24% – 26% 0% CO+S 2006 ROS 17% – 14% – RCN 20% – 19% – Base 0,2499 0,0476 0,1657 0,0286 ROC 1% – 15% 132% VVCASS 2005 ROS 3% 0% 26% 155% RCN 0% 0% 22% 153% Nous observons d’une manière générale, des amélioration claires au niveau de ManxCG et/ou MAep pour toutes les tâches et quelle sue soit l’approche. Nous constatons que les améliorations obtenues pour la tâche CO ne concernent que la collection 2005 où l’approche orientée structure (ROS) s’avère la plus intéressante. Ceci montre l’intérêt de la structure pertinente comme source d’évidence (on obtient 60% d’amélioration pour les MAep stricte). Dans le cas de la tâche CO+S, des améliorations sont obtenues dans les deux collections où l’approche orientée structure est la plus efficace dans la collection 2005. Dans la collection 2006, l’approche orientée contenu s’avère plus efficace mais reste sans impact positif en considérant les MAep. Dans le cas de la tâche VVCAS, quelle que soit l’approche utilisée, on n’observe des améliorations qu’au niveau des mesures strictes. Pour la collection 2006 bien qu’on n’ait pas observée d’amélioration globale pour la mesure MAep stricte dans le cas de ROS, nous avons regardé les améliorations obtenues pour chacune de requête. Nous avons alors constaté qu’il y a plus de requêtes qui améliorent les performances que de requêtes qui les détériorent dans le cas de la tâche CO+S (52/77) et autant de requêtes améliorant les performances que celles qui les détériorent dans le cas de la tâche CO (parmi 63 requêtes ayant des éléments pertinents dans les 20 premiers jugés, 28 requêtes permettant l’amélioration des performances, 27 qui détériorent et le reste des requêtes n’apporte rien (0%)). Ces résultats préliminaires sont à prendre avec prudence car les approches sont différentes et chacune a ses paramètres spécifiques qu’il faut régler. C’est ce que Chapitre 4. Evaluations & Expérimentations 144 Tab. 4.14 – Comparaison des résultats du nouvel échantillon et l’échantillon fixe Tâches CO 2005 CO+S 2005 CO+S 2006 VVCAS 2005 App MAnxCG [10] gen MAep gen ROC ROS RCN ROC NouEch 0.2079 0.2577 0.2075 0.1515 NouEch 0.0493 0.0572 0.0518 0.0506 ROS RCN ROC 0,1637 0.1807 0,0475 0.0499 0,1122 0.0969 0,0341 0.0279 0,1629 0.1877 0,0475 0.0504 0,1062 0.079 0,0312 0.0261 0.1672 0.1409 0.0052 0.0044 0.1514 0.1276 0.0035 0.003 ROS RCN ROC 0.1579 0.1428 0.0042 0.0042 0.1373 0.1292 0.0029 0.0029 0.1621 0.1467 0.0042 0.0042 0.1428 0.132 0.0031 0.0029 0.2515 0.2156 0.044 0.0425 0.1906 0.1669 0.0663 0.0644 ROS RCN 0.2569 0.1914 0.0474 0.0439 0.2088 0.1475 0.073 0.0688 0.2491 0.1898 0.0478 0.0458 0.2023 0.1536 0.0725 0.0688 NbElt=20 0.2062 0.3078 0.2603 0.1883 NbElt=20 0.0545 0.071 0.0664 0.0542 MAnxCG [10] stricte NouNbEch Elt=20 0.0572 0.0365 0.1336 0.0921 0.0836 0.06 0.0969 0.0819 MAep stricte NouEch 0.0122 0.0361 0.0201 0.0279 NbElt=20 0.011 0.0288 0.0206 0.0258 nous allons faire dans les sections suivantes. Nous allons étudier ces différentes approches en détail. Afin de montrer l’intérêt de cet échantillonnage, nous allons plutôt comparer dans le tableau 4.14 les résultats, en termes de performances directes (la comparaison considérant les améliorations n’a pas de sens car la base est différente), obtenus pour les tâches CO de la collection 2005, CO+S de la collection 2005 et 2006 et VVCAS de la collection 2005 vis-à-vis les résultats déjà obtenus en fixant le nombre d’éléments jugés à 20 (échantillon fixe). Nous remarquons que les deux échantillons ont des comportements différents selon la mesure considérée. Les résultats obtenus avec le nouvel échantillon sont meilleurs que ceux de l’échantillon fixe, niveau des mesures strictes quelle que soient la tâche et l’approche considérées. en ce qui concerne la mesure généralisée, les résultats varient selon les tâches. Pour CO et CO+S 2005 c’est l’échantillon fixe qui l’emporte, alors que pour VVCAS 2005 et CO+S 2006 c’est le nouvel échantillon. Nous considérons pour l’évaluation de nos différentes approches dans le reste des Chapitre 4. Evaluations & Expérimentations 145 expérimentations le nouvel échantillon. L’avantage de cet échantillon, qualifié d’optimal, permet d’améliorer les performances des systèmes de recherche en se basant sur un minimum d’éléments jugés. 4.4 Évaluation de la RF Orientée Contenu Nous rappelons que cette approche consiste à enrichir le contenu de la requête en réinjectant des termes pertinents. L’objectif des expérimentations effectuées dans cette section est d’évaluer l’impact des techniques d’extraction et de pondération des termes de la requête. Nous distinguons trois méthodes de sélection/pondération des termes : 1. La première consiste à extraire et sélectionner les termes pertinents selon leur poids probabiliste-contextuel noté Prob-Cont, (équation 3.5). Ce poids prend en compte la probabilité de pertinence des termes sachant les éléments pertinents ainsi que leur appartenance au contexte des termes de la requête. Le poids Prob-Cont servira aussi à la pondération des termes dans la requête finale. Une alternative est d’extraire et sélectionner les termes en ne tenant compte que de leur probabilité de pertinence. Les évaluations de cette alternative ont montré que ce facteur est insuffisant pour la sélection des termes pertinents [82]. Dans nos expérimentations nous n’utiliserons donc que le poids Prob-Cont. 2. La deuxième consiste à extraire et sélectionner les termes pertinents selon le poids ajusté Prob-Cont-Brt (équation 3.7). Ce poids est une combinaison du poids Prob-Cont avec le facteur bruit. Ce poids servira lui aussi pour la pondération des termes de la requête finale. Dans cette méthode nous utilisons la réinjection de pertinence négative. 3. La troisième alternative consiste à utiliser l’un des poids Prob-Cont ou Prob-Cont-Brt pour l’extraction et la sélection des termes pertinents. La pondération des termes de la requête finale s’effectue en appliquant le poids P df req tenant compte de leur importance dans la collection des éléments et celle des documents (équation 3.9). Dans ce qui suit, nous allons étudier d’abord le nombre adéquat de termes pertinents à réinjecter (section 4.4.1) en utilisant la première méthode. Une fois ce paramètre fixé, nous comparons les différentes méthodes de sélection/pondération des termes de la requête dans la section 4.4.2. Chapitre 4. Evaluations & Expérimentations 146 Tab. 4.15 – Impact du nombre de termes pertinents à réinjecter dans le cas de la tâche CO de la collection 2005 MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-TP=1 19% 24% – – Nb-TP=2 26% 19% 6% – Nb-TP=3 12% 13% – – Nb-TP=4 11% 5% – – Nb-TP=5 10% 6% – – Nb-TP=6 – 5% – – Nb-TP=7 – 6% – – Nb-TP=8 – 5% – – Nb-TP=9 – 9% – – Nb-TP=10 – – – – 4.4.1 Nombre de termes réinjectés Notre objectif est de retrouver le nombre de termes qu’on doit réinjecter pour chaque tâche de recherche de chaque collection de test. Pour ce faire, nous allons varier le nombre de termes pertinents à réinjecter (Nb-TP ) de 1 jusqu’à 10 termes. Nous présentons les résultats obtenus en appliquant la stratégie d’évaluation résiduelle en se basant sur l’échantillon présenté dans la section précédente (composé de trois éléments jugés pertinents sans dépasser les 20 éléments jugés). Nous utiliserons la première méthode pour la sélection et la pondération des termes pertinents à savoir l’utilisation du poids probabiliste contextuel P rob − Cont (équation 3.5). Nous présentons les résultats obtenus pour chaque tâche de recherche CO, CO+S et VVCAS de la collection 2005 et CO et CO+S de la collection 2006. 4.4.1.1 Tâche CO Dans le cas de la tâche de recherche CO de la collection 2005, nous remarquons dans le tableau 4.15 que les améliorations significatives sont obtenues pour les mesures généralisées en réinjectant un nombre de termes pertinents ne dépassant pas 3. Notre approche a ainsi plus d’impact en réinjectant un nombre limité de termes pertinents. Nous remarquons en outre que nous n’obtenons pas d’amélioration des mesures strictes hormis le cas de l’ajout de deux termes pertinents. Ceci ne traduit cependant pas forcément le fait que notre approche n’est pas fiable. Les valeurs présentées sont des moyennes pour toutes les requêtes. Chapitre 4. Evaluations & Expérimentations 147 Tab. 4.16 – Impact du nombre de termes pertinents à réinjecter dans le cas de la tâche CO+S de la collection 2005 MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-TP=1 – 19% 6% 4% Nb-TP=2 7% 14% 17% 0% Nb-TP=3 3% 16% 8% 18% Nb-TP=4 3% 9% 7% 9% Nb-TP=5 9% 11% 19% 6% Nb-TP=6 5% 15% 6% 12% Nb-TP=7 2% 10% 22% 2% Nb-TP=8 13% 12% 44% 14% Nb-TP=9 6% 11% 42% 13% Nb-TP=10 13% 11% 46% 18% Nos expérimentations ont montré que la réinjection de pertinence ne permet pas d’améliorer les performances de recherche dans le cas de la collection 2006. Par ailleurs les différentes mesures présentent des moyennes de toutes les requêtes. Comme nous l’avons déjà mentionné, des améliorations sont observées pour 28 requêtes vis-à-vis 27 qui détériorent les performances du système dans le cas de l’ajout d’un seul terme. 4.4.1.2 Tâche CO+S D’après le tableau 4.16, nous remarquons que la réinjection de termes pertinents dans le cas de la tâche de recherche CO+S de la collection 2005 permet d’améliorer significativement les résultats à partir de l’ajout d’un terme et quelle que soit la mesure considérée. On constate également que l’amélioration est proportionnelle au nombre de termes ajoutés dans le cas de la mesure stricte. Dans le cas de la collection 2006, nous remarquons dans le tableau 4.17 que les améliorations ne concernent que les MAnxCG[10]. On constate des améliorations à partir de l’ajout d’un terme. Dans ce cas la réinjection de termes pertinents permet d’augmenter le nombre des éléments pertinents dans l’ensemble des premiers éléments retournés. Même si nous n’observons pas d’améliorations au niveau de MAep stricte, nous aboutissons à des résultats satisfaisants puisque notre approche permet d’augmenter significativement (AR> 10%) les performances au niveau des 10 premiers éléments retournés par le Chapitre 4. Evaluations & Expérimentations 148 Tab. 4.17 – Impact du nombre de termes pertinents à réinjecter dans le cas de la tâche CO+S de la collection 2006 MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-TP=1 23% – 26% 0% Nb-TP=2 24% – 25% – Nb-TP=3 19% – 20% – Nb-TP=4 18% – 18% – Nb-TP=5 19% – 20% – Nb-TP=6 22% – 23% – Nb-TP=7 20% – 20% 1% – Nb-TP=8 25% – 27% – Nb-TP=9 22% – 24% – Nb-TP=10 19% – 21% – système. 4.4.1.3 Tâche VVCAS de la collection 2005 Dans le tableau 4.18, nous remarquons d’une manière générale que les seules améliorations obtenues sont pour la mesure MAep stricte où l’amélioration est très significative (supérieure de 110%) quelque soit le nombre de termes pertinents réinjectés, aucune amélioration n’est observée dans les MAnxCG. En comparant les améliorations obtenues pour les différents nombres de termes ajoutés, nous remarquons un comportement comparable quelque soit ce nombre. En outre la seule amélioration significative (15%) de la mesure MAnxCG[10] stricte est obtenue dans le cas de l’ajout d’un seul terme (ce qui correspond au résultat déjà observé dans le tableau 4.13). Nous remarquons également que la taille moyenne des requêtes de la tâche VVCAS est aux alentours de 4 termes donc de petites tailles. Il est vraisemblable que l’ajout d’un nombre élevé de termes peut dégrader les performances du système. Nous discuterons de la notion de nature de requêtes dans le paragraphe suivant. Nous rappelons que les améliorations des mesures généralisées peuvent être observées dans les cas des échantillons vus précédemment. 4.4.1.4 Discussion Comme nous l’avons mentionné sur les différentes tâches de recherche de chaque collection, le nombre de termes adéquats à réinjecter peut être lié aux requêtes. Une requête est caractérisée par sa taille et l’ambiguı̈té éventuelle Chapitre 4. Evaluations & Expérimentations 149 Tab. 4.18 – Impact du nombre de termes pertinents à réinjecter dans le cas des requêtes VVCAS de la collection 2005 MAnxCG MAep gen MAnxCG MAep [10] gen [10] stricte stricte Nb-TP=1 1% – 15% 132% Nb-TP=2 – – – 135% Nb-TP=3 – – – 136% Nb-TP=4 – – – 136% Nb-TP=5 – – – 138% Nb-TP=6 – – – 134% Nb-TP=7 – – – 135% Nb-TP=8 – – – 117% Nb-TP=9 – – – 118% Nb-TP=10 – – – 135% de ses termes. Ceci est déjà confirmé en RI [156]. On se focalise dans nos travaux sur le critère taille. Il parait évident que la taille de la requête influe sur le nombre adéquat de termes à réinjecter. Par exemple, l’ajout de 2 termes pertinents pour une requête composée de 7 mots clés diffère de l’ajout du même nombre de termes pour une requête composée de 2 mots clés seulement, car dans ce cas les termes ajoutés peuvent changer le sens original de la requête. Nous avons alors essayé de voir s’il existe une règle pour le choix du nombre de termes. Nous avons alors observé les 28 requêtes ayant des amélioration, de la tâche CO de la collection 2006. Comme ceci est présenté dans la figure 4.1, nous avons considéré le nombre de termes ajoutés permettant la meilleure amélioration pour chacune des requêtes. La seule constatation qu’on a pu faire est qu’il n’existe aucun cas où le nombre de termes réinjectés est supérieur à la taille initiale de la requête. En d’autres termes : soit T la taille initiale de la requête, N b − T P le nombre de termes à réinjecter : N b − T P ≤ T . Au delà de cette constatation aucune conclusion n’a pu être tirée. Nous avons par ailleurs effectué des expérimentations en faisant varier le nombre de terme rajoutés à la requête en fonction de sa taille (nombre de termes). L’idée est que le nombre de termes rajoutés ne dépasse pas la taille de la requête initiale et la requête reformulée ne dépasse pas 7 termes (pour les requêtes de taille < à 7). Aucun résultat significatif n’a été observé. Il n y a pas un nombre de termes idéal qui sort du lot. Il semble par ailleurs que l’ajout de peu de termes, entre 1 et 3, apporte des améliorations significa- Chapitre 4. Evaluations & Expérimentations 150 Fig. 4.1 – Nombre de termes à réinjecter en fonction de la taille des requêtes. tives, souvent meilleurs que l’ajout de ”beaucoup” de termes (au delà des trois). Nous choisissons pour le reste des expérimentations les conditions suivantes : ajout d’un seul terme dans le cas des tâches CO, CO+S de la collection 2006 et VVCAS de la collection 2005. Dans le cas de la tâche CO+S de la collection 2005, on réinjecte 3 termes pertinents. L’ajout de peu de termes peut toutefois être justifié par la taille des éléments jugés. En effet, comme ces éléments sont strictement pertinents, ils sont donc très spécifiques ; donc souvent de petite taille. Par ailleurs, on pourrait penser à juste de titre que l’ajout de peu de termes, en particulier de 1 terme, pourrait ne pas avoir d’influence sur le processus de réinjection. En fait ceci n’est pas tout à fait vrai car au delà de l’ajout des termes, il y a également la repondération des termes de la requête initiale. Ceci peut également avoir un impact sur les résultats. Chapitre 4. Evaluations & Expérimentations Tab. 4.19 – Impact des stratégies de sélection et pondération des le cas des requêtes CO de la collection 2005 Choix du MAnxCG MAep gen MAnxCG nombre de [10] gen [10] stricte termes Prob-Cont 9% 6% – Prob-Cont-Brt – 25% – Prob-Cont/P df req 8% 19% – Prob-Cont8% 19% – Brt/P df req 4.4.2 151 termes dans MAep stricte – – – – Impact des stratégies de sélection et de pondération des termes de la requête Dans cette section nous étudions l’impact des différentes stratégies de sélection et pondération des termes de la requête. Nous rappelons que nous distinguons les stratégies suivantes : – La première est celle que nous avons avant appliquée dans la section précédente en attribuant les mêmes poids Prob-Cont (équation 3.5) pour la sélection des termes ainsi que pour la pondération des termes de la requête finale. – La deuxième consiste à sélectionner et pondérer les termes pertinents selon le poids Prob-Cont-Brt (équation 3.7). – La troisième est composée de deux stratégies. Elle consiste à utiliser l’un des poids Prob-Cont ou Prob-Cont-Brt pour l’extraction et la sélection des termes pertinents. La pondération des termes s’effectue en appliquant le poids P df req (équation 3.9). Les deux types de stratégies seront désignées par : Prob-Cont/P df req et Prob-Cont-Brt/P df req . Nous allons procéder par type de tâche de recherche pour analyser nos expérimentations. 4.4.2.1 Tâche CO Comme nous l’avons mentionné précédemment, nous ajoutons dans ce cas un seul terme pertinent. Nous remarquons dans le tableau 4.19 que les différentes stratégies permettent une amélioration significative de MAep généralisée dans la collection 2005, et notamment, lorsque le facteur bruit est considéré (Prob-Cont-Brt : 25%). Cependant, l’intérêt du facteur bruit est relatif puisqu’il dégrade les per- Chapitre 4. Evaluations & Expérimentations 152 Tab. 4.20 – Impact des stratégies de sélection et pondération des le cas de la tâche CO+S de la collection 2005 Choix du MAnxCG MAep gen MAnxCG nombre de [10] gen [10] termes stricte Prob-Cont 5% 16% 8% Prob-Cont-Brt – 9% – Prob-Cont/P df req – 6% – Prob-Cont– 6% – Brt/P df req termes dans Tab. 4.21 – Impact des stratégies de sélection et pondération des le cas de la tâche CO+S de la collection 2006 Choix du MAnxCG MAep gen MAnxCG nombre de [10] gen [10] termes stricte Prob-Cont 24% – 28% Prob-Cont-Brt 19% – 18% Prob-Cont/P df req 11% – 10% Prob-Cont11% – 10% Brt/P df req termes dans MAep stricte 18% – – – MAep stricte – – – – formance au niveau des 10 premiers éléments. Nous remarquons en outre que quelque soit le poids utilisé pour la sélection des termes, on retrouve les mêmes résultats en considérant une pondération selon P df req . Comparée à Prob-Cont-Brt, Prob-Cont-Brt/P df req apporte une amélioration au niveau des 10 premiers éléments, son analogue Prob-Cont/P df req , comparé à Prob-Cont augmente la MAep généralisée (19% par rapport à 6%). Les résultats montrent alors l’intérêt relatif de cette pondération mais laissent entendre, comme on peut s’y attentre, que les poids des termes de la requête influent directement sur les performances du système. Dans le cas de la collection 2006, on ne trouve pas d’améliorations globales. 4.4.2.2 Tâche CO+S Comme nous l’avons mentionné précédemment, nous ajoutons 3 termes pertinents à la requête initiale dans le cas de la collection 2005 et 1 seul terme dans le cas de la collection 2006. Les tableaux 4.20 et 4.21 listent les résultats obtenus en appliquant les différentes variantes de sélection/pondération des termes. Nous remarquons pour COS2005 une amélioration de la MAep généralisée pour toutes les méthodes avec une légère préférence pour P rob − Cont, qui en outre améliore les mesures strictes et généralisées au niveau des 10 premiers éléments Chapitre 4. Evaluations & Expérimentations Tab. 4.22 – Impact des stratégies de sélection et pondération des le cas de la tâche VVCAS de la collection 2005 Choix du MAnxCG MAep gen MAnxCG nombre de [10] gen [10] termes stricte Prob-Cont 1% – 15% Prob-Cont-Brt – – 5% Prob-Cont/P df req – – 5% Prob-Cont– – 5% Brt/P df req 153 termes dans MAep stricte 132% 132% 126% 124% et la MAep. Ceci est plus ou moins confirmé pour la collection 2006. En effet, on observe des améliorations significatives obtenues par les différentes stratégies. Elles ne concernent que les mesures MAnxCG[10] (stricte et généralisée). Ceci nous permet de conclure que pour ce type de requêtes, – Le facteur bruit (Prob-Cont-Brt) n’a pas d’impact réel sur la sélection des termes. – La pondération en considérant l’importance des termes dans la collection des éléments et celle des documents ne permet pas de mieux exprimer les degrés d’importance des termes car elle ne tient pas compte de la présence des termes dans les documents pertinents. En d’autres termes le poids probabiliste contextuel traduit mieux l’importance des termes. 4.4.2.3 Tâche VVCAS Dans le cas des requêtes VVCAS de la collection 2005, nous avons testé les différentes variantes en réinjectant un seul terme. Le tableau 4.22 liste les différents résultats. Nous remarquons que la stratégie utilisant les poids calculés en fonction du bruit (Prob-Cont-Brt), n’apporte rien. La pondération des termes de la requête en considérant leur importance dans la collection des éléments et celle des documents n’apporte pas d’améliorations dans les deux cas de sélection des termes. En général, nous remarquons que quelle que soit la stratégie appliquée, les résultats affirment l’intérêt de notre approche (AR(MAep strict> 120%). 4.4.3 Bilan En conclusion, nous avons montré l’intérêt de notre approche orientée contenu basée sur la distribution des termes dans les éléments pertinents et sur la no- Chapitre 4. Evaluations & Expérimentations 154 tion de contexte pour l’extraction et la sélection des termes à réinjecter. Nous avons montré en occurrence, que le indicateurs considérés dans la pondération (tf −ief −idf ) ne traduisent pas bien les degrés d’importance des termes. Nous avons montré également que la réinjection de pertinence négative n’a pas un impact remarquable sur la sélection des termes. En outre, nous avons étudié le choix du nombre de termes à réinjecter qui influe directement sur les performances de notre approche. La seule conclusion que nous avons pu tirer est que le nombre de termes réinjectés ne doit pas dépasser la taille initiale de la requête, il est situé entre 1 et 3 termes. Ceci est loin des 20 termes souvent utilisé en RI. Ceci peut provenir comme nous l’avons mentionné de la taille des éléments considérés. En effet, nous pensons que ces éléments manque de diversité an niveau de leurs termes pour pouvoir dégager plusieurs bons termes à rajouter à la requête. Nous constatons de manière générale, que la stratégie P rob − Cont permet d’améliorer dans la majorité des tâches les MAnxCG et la MAep. Ceci n’exclut pas le fait qu’elle puisse aussi être la cause de dégradation de performances pour certaines requêtes. Ceci a été déjà observé en RI de manière générale et on a considéré que ce problème revient à la nature des requêtes dites difficiles. En effet, Buckley dans [23] a essayé de classifier les requêtes difficiles selon 10 catégories différentes. Chaque catégorie de requête doit être adaptée à une méthode différente de traitements. 4.5 4.5.1 Évaluation de la reformulation OrientéeStructure Nombre adéquat de structures à réinjecter Par analogie à la reformulation orientée contenu, nous allons tester dans cette approche le nombre adéquat de structures à réinjecter pour chaque tâche de recherche de chaque collection. Pour ce faire, nous allons varier le nombre de structures pertinentes (Nb-Str ) à réinjecter de 1 à 3. Le tableaux 4.23 présente l’impact du nombre de structures à réinjecter pour les tâches CO, CO+S et VVCAS de la collection 2005 et CO+S de la collection 2006. Le premier résultat intéressant qu’on observe est l’impact positif qu’apporte la réinjection de structure. Elle est très significative dans le cas des requêtes non structurées. On constate une stabilité des performances en réinjectant une seule structure pertinente dans le cas des tâches CO+S et VVCAS de la collection 2005. Chapitre 4. Evaluations & Expérimentations 155 Tab. 4.23 – Impact du nombre de structures pertinentes à réinjecter dans le cas des tâches CO, CO+S et VVCAS de la collection 2005 et la tâche CO+S de la collection 2006 Choix du MAnxCG MAep MAnxCG MAep nombre [10] gen gen [10] stricte stricte de termes Nb-Str=1 48% 44% 39% 60% CO 2005 Nb-Str=2 49% 44% 40% 60% Nb-Str=3 50% 44% 44% 62% CO+S 2005 Nb-Str=1 1% 12% 30% 28% VVCAS 2005 Nb-Str=1 3% 0% 26% 155% Nb-Str=1 17% – 14% – CO+S 2006 Nb-Str=2 3% – 7% – Nb-Str=3 4% – 8% 11% Plus précisément, on observe des améliorations significatives de toutes les mesures considérées dans le cas des requêtes de type CO (AR> 40%). Ceci prouve d’une part l’intérêt de la réinjection des structures pertinentes et d’autre part l’efficacité de notre algorithme d’extraction des structures pertinentes. La légère croissance de l’AR en fonction du nombre de structures réinjectées est conforme avec nos statistiques présentées dans le chapitre précédent (section 3.4.1). En outre la comparaison des requêtes CO reformulées par réinjection de structures pertinentes avec les requêtes CO+S (où l’utilisateur spécifie le type d’éléments répondant à son besoin) a montré : – dans le cas de l’ajout d’une structure, 40% des requêtes reformulées contiennent la condition de structure exprimée dans les requêtes CO+S. – dans le cas de l’ajout de deux structures pertinentes, 60% des requêtes reformulées contiennent la ou les conditions de structures exprimées dans les requêtes CO+S. – dans le cas de l’ajout de trois structures 100% des requêtes reformulées contiennent la ou les conditions de structures exprimées dans les requêtes CO+S. Dans le cas de la collection 2006 et de l’ajout d’une, de deux ou de trois structures pertinentes, les requêtes reformulées contenant la ou les conditions de structures exprimées dans les requêtes CO+S sont à l’entour de 50%. Dans les deux collections nous obtenons des résultats en terme de performance plus importants que ceux obtenus dans la tâche CO+S. Ceci peut être expliqué par le fait que l’utilisateur ne connaı̂t pas forcément le type d’éléments répondant à ses besoins. Cette idée est déjà prouvée dans [187]. Dans le cas des tâches CO+S et VVCAS de la collection 2005, on obtient Chapitre 4. Evaluations & Expérimentations 156 des améliorations significatives en considérant les mesures en agrégation stricte (notamment la MAep stricte). Dans le cas de la tâche CO+S de la collection 2006, des améliorations significatives de MAnxCG[10] sont observées en réinjectant une seule structure. Alors que l’ajout de 3 structures pertinentes permet d’améliorer la MAep stricte. Ceci peut nous renseigner sur l’aspect diversifié des structures existantes dans la collection 2006. La prise en compte de plus de structures ne permet pas forcément l’augmentation de l’amélioration relative puisque les structures de la collection 2006 sont peu reliées sémantiquement par des relations de hiérarchie (comme par exemple : collectionlink, section, unknownlink, item..). On observe clairement que la réinjection d’une structure permet d’améliorer de manière significative les résultats. Les autres résultats obtenus par la réinjection de 2 et 3 structures pertinentes, ne sont pas statistiquement meilleurs que le premier résultat (ajouter 1 seule structure). Comme nous l’avons détaillé dans le chapitre 3, la réinjection de structure peut être effectuée en ne spécifiant que le type de structure désiré par l’utilisateur ou en spécifiant tout le chemin. Nous présentons la comparaison de ces deux aspects dans les paragraphes suivants. 4.5.2 Réinjection de la balise ou du chemin Notre objectif est de comparer les différentes méthodes d’extraction et de réinjection des structures pertinentes. Nous distinguons les 4 méthodes suivantes : – Une première est celle que nous avant utilisée précédemment, elles consiste à réinjecter la dernière balise (c’est dire l’élément cible Ec) de la structure extraite en appliquant l’algorithme SCA. Cette stratégie est désignée par SCA. – Une seconde consiste aussi à réinjecter l’élément cible extrait selon la méthode de classification (section 3.4.4 du chapitre 3). Cette stratégie est désignée par Ec − class. – La troisième méthode consiste à réinjecter toute la structure (en spécifiant toutes les balises intermédiaires) extraite par la méthode de classification (section 3.4.4 du chapitre 3). Cette stratégie est désignée par Ch − Spes. – La quatrième méthode consiste à réinjecter un chemin générique présenté dans la section 3.4.4 du chapitre 3, c’est à dire sans spécifier toutes les balises intermédiaires de la structure pertinente. Cette stratégie est désignée par Ch − Gen. Le tableau 4.24 liste les résultats obtenus. Nous remarquons que la réinjection Chapitre 4. Evaluations & Expérimentations 157 Tab. 4.24 – Réinjection de structure (Element cible, Chemin spécifique et Chemin générique) Choix du MAnxCG MAep MAnxCG MAep nombre de [10] gen gen [10] stricte termes stricte SCA 48% 44% 39% 60% Ec − Class 57% 40% 44% 60% CO 2005 Ch − Spes 20% 38% – – Ch − Gen 20% 36% – – SCA 1% 12% 30% 28% EC − Class 1% 11% 30% 28% CO+S 2005 Ch − Spes – – – – Ch − Gen – – – – SCA 3% 0% 26% 155% EC − Class – – 1% 152% VVCAS 2005 Ch − Spes – – – 68% Ch − Gen 6% – 10% 151% SCA 17% – 14% – EC − Class 11% – – – CO+S 2006 Ch − Spes 5% – 0% – Ch − Gen 5% – – – de l’élément cible (une balise) apporte une meilleure performance, quelle que soit la tâche, avec un bénéfice clair (soit en MAep ou en MAnxCG[10]) pour les tâches CO et CO+S de la collection 2005. De ce fait, l’ajout de la balise (élément cible) est plus à même d’améliorer les performances quelle que soit la tâche. En ce qui concerne la réinjection du chemin spécifique et du chemin générique, nous notons une amélioration au niveau de COS2005, mais ceci ne se retrouve pas dans les autres tâches. 4.5.3 Bilan Le premier bilan que l’on peut faire à partir de ces expérimentations est qu’il est important de considérer la structure comme une source d’évidence. De plus nous avons constaté que l’ajout de la balise cible, de préférence une seule balise, est plus à même d’apporter des améliorations comparativement à l’ajout de plusieurs balises ou du chemin. Chapitre 4. Evaluations & Expérimentations 4.6 158 Évaluation de la reformulation OrientéeContenu & Structure Nous avons défini 3 formes de combinaison des deux approches présentées précédemment : une forme naı̈ve, une forme tenant compte de la ”sémantique” des balises sous deux versions (en utilisant l’équation 3.14 (Sémantique1) et l’équation 3.15 (Sémantique2)) et une forme flexible. Nous rappelons que : – la combinaison naı̈ve (section 3.5.1 du chapitre 3) consiste tout simplement à réinjecter les termes pertinents ainsi que les structures pertinentes issus des deux approches appliquées indépendamment. La combinaison se fait au niveau de la réécriture. – la combinaison avec dépendance sémantique (section 3.5.2 du chapitre 3) consiste à considérer la sémantique des éléments jugés pertinents pour la sélection des termes. Nous distinguons deux versions de cette méthode : la première considère les poids des structures pertinentes dans la sélection des termes pertinents (elle est désignée par Sémantique 2) et la seconde ne considère que le poids d’extraction des termes calculé selon l’approche orientée contenu (Sémantique 1). – la combinaison flexible (section 3.5.3 du chapitre 3) consiste à distribuer les termes pertinents selon leur degré d’appartenance aux différentes contraintes structurelles spécifiées dans la requête. Les résultats obtenus sont détaillés dans les paragraphes suivants pour chaque tâche de recherche. Pour étudier l’impact de cette approche, nous utilisons le même nombre de termes fixés pour chaque tâche de recherche que ceux utilisés dans la comparaison des stratégies de l’approche orientée contenu. Les termes sélectionnés seront combinés avec trois structures génériques extraites en appliquant l’algorithme SCA dans le cas des tâches CO 2005 et CO+S 2006. Nous choisissons trois structures afin de pouvoir appliquer la combinaison flexible ; dans le cas d’une seule stucture, l’approche flexible n’a pas d’impact. Dans le cas des tâches CO+S et VVCAS de la collection 2005, nous réinjectons une seule structure puisque les résultats de la section précédente, ont montré une stabilisation des améliorations en réinjectant une seule structure. Nous présentons les différentes méthodes de combinaison pour chaque tâche de recherche. Les résultats issus de ces méthodes seront comparés aux meilleurs résultats obtenus en appliquant l’approche orientée contenu et l’approche orientée structure. Chapitre 4. Evaluations & Expérimentations 159 Tab. 4.25 – Reformulation de requêtes par combinaison dans le cas de la tâche CO de la collection 2005 Choix du MAnxCG MAep MAnxCG MAep nombre de [10] gen gen [10] stricte termes stricte Naive 23% 33% – 0% Semantique1 15% 33% – – Semantique2 16% 22% – – Flexible 27% 31% – – Orientée50% 44% 44% 62% Structure Orientée9% 6% – – Contenu 4.6.1 Tâche CO D’après le tableau 4.25, nous remarquons que la combinaison des deux sources d’évidence (contenu et structure) permet des améliorations significatives quelle que soit la méthode de combinaison pour les mesures généralisée. Si nous comparons les différentes méthodes, nous constatons que les meilleures améliorations sont obtenues en appliquant la méthode naı̈ve et la méthode flexible. Ceci peut être expliqué par le fait que ces deux méthodes ne pénalisent pas certains termes qui n’appartiennent pas aux structures sélectionnées comme pertinentes. Ces résultats restent moins bons en les comparant avec ceux obtenus en appliquant l’approche orientée structure mais ils sont meilleurs comparativement à l’approche orientée contenu seulement. 4.6.2 Tâche CO+S On observe d’après les tableaux 4.26 et 4.27 que toutes les combinaisons permettent d’améliorer de manière significative les performances au niveau de la MAep ou/et au niveau de la MAnxCG[10]. Pour les deux collections aucune méthode ne surpasse les autres de manière claires. On constate une amélioration plus importante au niveau de la mesure stricte. Ceci est logique car l’ajout de la structure restreint le champ de la recherche. Comparés aux résultats déjà obtenus par les deux approches orientée contenu et orientée structure, nous remarquons que la combinaison permet, dans la majorité des cas, une meilleure amélioration pour les deux collections. En particulier au niveau de la mesure MAep stricte dans le cas de la collection 2006. Chapitre 4. Evaluations & Expérimentations 160 Tab. 4.26 – Reformulation de requêtes par combinaison dans le cas de la tâche CO+S de la collection 2005 Choix du MAnxCG MAep MAnxCG MAep nombre de [10] gen gen [10] stricte termes stricte Naive – 11% – 13% Semantique1 7% 14% 20% 28% Semantique2 – 11% – 13% Flexible 0% 11% 10% 16% Orientée1% 12% 30% 28% Structure Orientée3% 16% 8% 18% Contenu Tab. 4.27 – reformulation de requêtes par combinaison dans le cas de la tâche CO+S de la collection 2006 Choix du MAnxCG MAep MAnxCG MAep nombre de [10] gen gen [10] stricte termes stricte Naive 29% – 32% 26% Semantique1 18% – 24% 26% Semantique2 29% – 32% 26% Flexible 32% – 35% 31% Orientée4% – 8% 11% Structure Orientée24% – 28% – Contenu Chapitre 4. Evaluations & Expérimentations 161 Tab. 4.28 – Reformulation de requêtes par combinaison dans le cas de la tâche VVCAS de la collection 2005 Choix du MAnxCG MAep MAnxCG MAep nombre de [10] gen gen [10] stricte termes stricte Naive – 4% 14% 153% Seman- 1% 4% 30% 154% tique1 Semantique2 – 4% 14% 153% Flexible – 4% 14% 153% Orientée3% 0% 26% 155% Structure Orientée1% – 15% 132% Contenu 4.6.2.1 Tâche VVCAS Dans le cas de la tâche VVCAS de la collection 2005, nous remarquons d’après le tableau 4.28 que toutes les méthodes appliquées permettent des améliorations semblables et significatives en considérant l’agrégation stricte, notamment les MAep où AR > 150%, pour la méthode Sémantique 1 comme dans le cas de la tâche CO+S 2005, ce qui peut être expliqué par le nombre de structures pertinentes limité (=1) dans les deux cas. Comparée aux approches précédentes orientée structure et orientée contenu, l’approche combinée permet des améliorations similaires à celle en réinjectant une structure pertinente avec une légère amélioration au niveau des MAep généralisée. En général, la combinaison est plus bénéfique que les deux approches précédentes. 4.6.3 Conclusion En conclusion nous constatons différentes conséquences de la cohabitation des deux sources d’évidence selon le type de tâche de recherche. – la combinaison des deux sources d’évidence permet de renforcer les améliorations observées pour les deux approches (orientée structure et orientée contenu) en particulier, pour les tâches CO+S (2005 et 2006) et VVCAS (2005). – dans le cas de la tâche CO l’ajout de la structure seule reste plus important que la combinaison. Nous remarquons en outre que dans le cas de la réinjection d’un nombre limité de structures pertinentes (les performances se stabilisent en réinjectant une seule structure), la combinaison avec dépendance contextuelle (Sémantique 1) Chapitre 4. Evaluations & Expérimentations 162 s’avère légèrement plus intéressante. Dans le reste des expérimentations nous considérons la reformulation combinée selon la méthode flexible. 4.7 Autres études qualitatives Dans cette section nous allons étudier d’une part l’impact des jugements de pertinence et d’autre part celui des résultats de base. 4.7.1 Impact des jugements de pertinence Durant les différentes expérimentations, nous nous sommes basés sur un échantillon composé par des éléments jugés strictement pertinents qui traduisent les résultats les plus rigoureux du point de vue de l’utilisateur (éléments très spécifiques et très exhaustifs). Des éléments pertinents selon la fonction d’agrégation généralisée peuvent aussi répondre à des besoins utilisateurs moins stricts. Nous allons alors tester l’influence d’un échantillon composé d’éléments pertinents d’une manière généralisée sur les approches de reformulation. Pour ce faire, nous allons considérer une exhaustivité plus large >= 1 et une spécificité >= 0.1. Nous observons les impacts pour les différentes tâches de chaque collection en appliquant la réinjection de pertinence combinée. Nous présentons dans le tableau 4.29 les nouvelles améliorations (selon le jugement généralisés) ainsi les celles obtenues avec un jugement stricte désignées par jug − strict. Nous constatons que le jugement généralisé permet d’augmenter les taux d’amélioration dans le cas des tâches de recherche de la collection 2005, notamment au niveau de la MAnxCG[10] généralisée dans le cas de la tâche VVCAS pour laquelle nous n’avons pas obtenu d’amélioration en se basant sur des éléments strictement pertinents. Nous constatons alors que le choix des éléments pertinents a un impact net sur les performances de la réinjection de pertinence. De plus, même si nous observons des améliorations plus importantes, les résultats obtenus ne sont pas forcément meilleurs, nous remarquons que les résultats de base sont en général moins bons que ceux en utilisant le jugement strict. Dans le cas de la tâche CO+S de la collection 2006, les résultats sont moins bons puisque tous les éléments pertinents de la collection 2006 sont d’exhaustivité égale à 2, donc la généralisation porte seulement sur la spécificité des éléments, ce qui peut expliquer le comportement différent de celui dans la col- Chapitre 4. Evaluations & Expérimentations 163 Tab. 4.29 – Réinjection de pertinence basée sur un jugement de pertinence généralisé Choix du nombre de MAnxCG MAep MAnxCG MAep termes [10] gen gen [10] stricte stricte Base (CO 2005) 0,1890 0,0457 0,1268 0,0254 CO 2005 24% – 48% 172% CO 2005 (jug-strict) 27% 31% – – Base (CO+S 2005) 0,2477 0,0500 0,1042 0,0218 CO+S 2005 29% 22% 26% – CO+S 2005 (jug-strict) 0% 11% 10% 16% Base (VVCAS 2005) 0,1890 0,0457 0,1268 0,0254 VVCAS 2005 24% – 48% 172% VVCAS 2005 (jug- – 4% 14% 153% strict) Base (CO+S 2006) 0,1148 0,0054 0,1017 0,0030 CO+S 2006 9% – 15% 0% CO+S 2006 (jug-strict) 32% – 35% 31% lection 2005. Nous pouvons conclure que les amélioration dépendent aussi du type de jugement de pertinence considéré. 4.8 Autres applications de la Réinjection de pertinence 4.8.1 Application de plusieurs itérations de réinjection Comme nous l’avons présenté dans le deuxième chapitre, la réinjection de pertinence peut se faire en une ou plusieurs itérations. Dans ce paragraphe nous allons tester la réinjection de pertinence combinée flexible en appliquant 2 et 3 itérations. Puisqu’on utilise la réinjection résiduelle, on ne pas aller plus loin dans le nombre d’itérations sinon, on pourra se retrouver avec des valeurs trop faibles ou même nulles des MAep. Les tableaux 4.30 et 4.31 présentent respectivement les améliorations relatives obtenues dans la 2eme et 3eme itération. Nous constatons clairement que les itérations multiples sont souvent intéressantes dans le cas où nous n’obtenons pas d’amélioration au cours de la première itération. Ceci est net dans le cas de la tâche CO de la collection 2006 et sur Chapitre 4. Evaluations & Expérimentations 164 Tab. 4.30 Choix du nombre de termes Base (CO 2005) CO 2005 Base (CO+S 2005) CO+S 2005 Base (VVCAS 2005) VVCAS 2005 Base (CO 2006) CO 2006 Base (CO+S 2006) CO+S 2006 – Réinjection de pertinence en 2 itérations MAnxCG MAep MAnxCG MAep [10] gen gen [10] stricte stricte 0,2001 0,044 0,1089 0,0372 Tab. 4.31 Choix du nombre de termes Base (CO 2005) CO05 Base (CO+S 2005) COS05 Base (VVCAS 2005) VVCAS05 Base (CO 2006) CO06 Base (CO+S 2006) CO+S06 – Réinjection de pertinence en 3 itérations MAnxCG MAep MAnxCG MAep [10] gen gen [10] stricte stricte 0,1481 0,0418 0,0609 0,0183 – 0,1497 1% 0,0479 – 0,0612 9% 0,0191 6% 0,2116 – 0,0487 13% 0,1365 – 0,0264 – 0,1421 – 0,0035 – 0,1346 – 0,003 23% 0,1434 77% 0,0049 20% 0,1304 67% 0,0037 – 14% – 5% 24% 0,168 8% 0,422 – 0,0795 98% 0,0174 – 0,2497 – 0,0462 – 0,2048 26% 0,0272 – 0,1526 1% 0,0041 – 0,1451 – 0,0038 4% 0,1202 49% 0,0048 0% 0,1089 37% 0,0035 46% 25% 49% 29% Chapitre 4. Evaluations & Expérimentations 165 Tab. 4.32 – Réinjection de pertinence ”aveugle” Choix du MAnxCG MAep MAnxCG MAep nombre de [10] gen gen [10] stricte termes stricte CO05-Av 19% – 68% – COS05-Av – 3% 3% – VVCAS0521% 3% 71% 38% Av COS06-Av – – 1% – les MAep stricte de la tâche CO de la collection 2005 où l’amélioration atteint 98% à la troisième itération. On obtient des résultats similaires pour la tâche CO+S de la collection 2006. 4.8.2 Utilisation de la réinjection de pertinence ”aveugle” Nous avons montré l’intérêt de nos différentes approches en mode interactif : l’utilisateur intervient pour un jugement de pertinence. Or, parmi les techniques qui sont souvent utilisées pour améliorer directement les performances d’un système il y a la réinjection ”aveugle” aussi connue sous le nom de ”blind relevance feedback ”. Dans nos expérimentations nous avons considéré les 3 premiers éléments comme pertinents et nous avons appliqué la reformulation combinée flexible avec les mêmes nombres de termes et de structures que précédement. Le résultat après reformulation est comparé directement avec le résultat de base sans aucun prétraitement (blocage ou résiduel). Le tableau 4.32 présente les résultats de la réinjection aveugle désignée par Av. Dans le cas de la tâche CO de la collection 2005, nous remarquons d’après le tableau 4.32 que la reformulation aveugle permet une amélioration significative des MAnxCG[10] notamment en agrégation stricte (AR=68%). Dans le cas de la tâche CO+S des collections 2005 et 2006 les améliorations sont rarement observées et restent non significatives quand elles existent. Des améliorations significatives des mesures strictes sont observées dans le cas de la tâche VVCAS soit 71% en MAnxCG[10]. La réinjection aveugle peut être bénéfique dans certains cas. Chapitre 4. Evaluations & Expérimentations 4.9 4.9.1 166 Bilan Résumé Dans ce chapitre nous avons étudié différents aspect de la réinjection de pertinence . Outre l’évaluation de nos différentes approches : orientée contenu, orientée structure et combinée, nous avons testé d’autres modes d’application de la réinjection de pertinence à savoir la réinjection en plusieurs itérations et la réinjection aveugle. Nous récapitulons ici les stratégies adéquates pour chaque tâche de chaque collection. – Dans le cas de la tâche CO de la collection 2005, les meilleures améliorations sont obtenues en appliquant la réinjection de 1 à 3 structures pertinentes. En ce qui concerne la tâche CO de la collection 2006, les améliorations sont obtenues pour toutes les mesures considérées à partir de la deuxième itération. Notons qu’on obtient 67% d’amélioration pour la MAep stricte dans le cas de la collection 2006 (en appliquant deux itérations). – Dans le cas de la tâche CO+S les meilleures améliorations sont obtenue en appliquant l’approche combinée. Quelle que soit la méthode utilisée, nous obtenons des améliorations significatives notamment en agrégation stricte. Pendant notre participation officielle dans la campagne d’INEX 2006, nous avons obtenu la meilleure amélioration de MAep généralisée (42%) vis-à-vis d’autres participations, en appliquant la combinaison naı̈ve sur les résultats de base fournis par le système XFIRM officiellement. – De même pour la tâche VVCAS, les meilleures améliorations sont obtenues grâce à la combinaison des sources d’évidence. Elle est plus bénéfique en tenant compte de la sémantique des éléments lors de l’extraction des termes pertinents. Afin de mettre en relief nos résultats sur la base des indications d’INEX, nous avons listé dans le tableau 4.33 les résultats obtenus en appliquant pour chaque tâche la stratégie la plus adéquate en une seule itération. Nous considérons 3 termes pertinents et 3 structures pertinentes à réinjecter à la requête initiale dans le cas de l’approche combinée. En ce qui concerne l’approche orientée structure appliquée à la tâche CO de la collection 2005, nous considérons 3 structures pertinentes à réinjecter. Nous utilisons le protocole d’évaluation de la campagne INEX. Nous gardons les mêmes paramètres de base ( résultats de Chapitre 4. Evaluations & Expérimentations 167 Tab. 4.33 – Evaluation selon le protocole d’INEX Choix du MAnxCG MAep MAnxCG MAep nombre de [50] gen gen [50] stricte termes stricte CO05 53% 49% 12% – COS05 46% 47% 8% 5% VVCAS05 8% – 35% 35% COS06 6% – 11% 6% base, jugement de pertinence et échantillon). Pour pouvoir observer l’impact de la reformulation, nous présentons la MAnxCG[50] puisque avec la stratégie ”freezing”, on garde les 20 premiers éléments des résultats de base. Nous pourrons alors conclure clairement, à partir du tableau 4.33 que nos approches permettent d’améliorer significativement quelle que soit la tâche, les performances du système de recherche au niveau des 50 premiers éléments retournés. La MAep généralisée est nettement améliorée dans le cas des tâches CO et CO+S de la collection 2005 alors que l’amélioration de la MAep stricte est très significative dans le cas de la tâche VVCAS 2005, ceci confirme ce que nous avons conclu pendant nos évaluations avec la stratégie résiduelle. 4.9.2 Étude comparative L’objectif de cette section est de confronter nos résultats précédemment obtenus avec ceux obtenus par les participants d’INEX 2005 et 2006. Nous présentons dans les tableaux 4.34, 4.35 et 4.36, les classifications des participants selon la mesure MAep généralisée (utilisée dans les deux campagne 2005 et 2006). Ces tableaux correspondent respectivement à la tâche CO, la tâche CO+S de la collection 2005 et la tâche CO de la collection 2006. La tâche VVCAS n’est pas présentée puisque seule notre participation est signalée. Dans la collection 2006, la tâche CO+S est confondue avec CO. Nous remarquons dans le cas de la tâche CO 2005, que la réinjection de structures pertinentes permet d’obtenir de meilleurs résultats que les résultats officiels. Les résultats obtenus aux deuxième et troisième rang sont basés sur la technique de réordonnancement des éléments [169]. La participation de Cirquid Project [132] consiste à réinjecter le nom du journal auquel appartiennent des éléments pertinents et le nom de leur balise. La deuxième participation de Max-Planck-Institut fuer Informatik [169] consiste à réinjecter l’ancêtre et un descendant des éléments pertinents. Quant à la participation de IBM Haifa Research Lab [128], elle basée sur l’adaptation de l’algorithme de Rocchio. Nous constatons ainsi l’apport effectif de la structure comme étant une nou- Chapitre 4. Evaluations & Expérimentations Rang Participant 1 2 3 4 5 6 7 8 9 10 IRIT Max-Planck-Institut Max-Planck-Institut Cirquid project Cirquid project Cirquid project Max-Planck-Institut Max-Planck-Institut IBM Haifa Research IBM Haifa Research fuer Informatik fuer Informatik fuer Informatik fuer Informatik Lab Lab 168 MAep généralisée 49% 13% 8% 7% 7% 6% 5% 3% 2% 2% Tab. 4.34 – Classement de notre système parmi les résultats officiels de la campagne d’évaluation INEX 2005 dans le cas de la tâche CO Rang Participant 1 2 3 4 5 6 IRIT (officiel) IRIT (officiel) IRIT (officiel) IRIT Cirquid project ... MAep généralisée 182% 182% 182% 47% 4% - Tab. 4.35 – Classement de notre système parmi les résultats officiels de la campagne d’évaluation INEX 2005 dans le cas de la tâche CO+S velle source d’évidence par rapport aux autres type de contraintes réinjectées (ancêtre, descendant, nom du journal, type de balise, ou du contenu extrait selon Rocchio). Dans le cas des requêtes CO+S, notre participation officielle dans laquelle nous avons appliqué la réinjection combinée permet une meilleure amélioration (182%). Comparée à celle que nous avons obtenue précédemment (47%), la différence est justifiée par le fait qu’on se base sur des résultats de base différents. Les deux résultats sont nettement meilleurs que ceux obtenus par les autres participations, où l’amélioration devient négative à partir du sixième rang. Notre participation officielle dans INEX 2006 correspond à l’amélioration des requêtes de type CO+S, la première ligne donne les résultats obtenus par réinjection combinée. L’amélioration est significative et confirme les résultats précédents. Les deux dernières lignes correspondent à la réinjection du contenu, elle permet d’obtenir des améliorations significatives (24% et 18%) mais moins importante que celle obtenue par la participation de Max-Planck-Institut fuer Informatik (25%) basée sur la réinjection de l’ancêtre et du descendant de l’élément pertinent. Rappelons que nos expérimentations présentées dans ce rapport ne permettent pas d’obtenir des améliorations sur cette tâche et ne Chapitre 4. Evaluations & Expérimentations Rang Participant 1 2 3 4 5 IRIT(officiel) Max-Planck-Institut fuer Informatik IRIT(officiel) IRIT(officiel) ... 169 MAep généralisée 42% 25% 24% 18% - Tab. 4.36 – Classement de notre système parmi les résultats officiels de la campagne d’évaluation INEX 2006 dans le cas de la tâche CO+S sont donc pas présentées dans ce tableau. D’une manière générale, la réinjection de structure est la meilleure technique pour améliorer les requêtes non structurées (CO), alors que pour améliorer les requêtes structurées, la réinjection combinée est plus bénéfique. 4.9.3 Conclusion Les principales conclusions que l’on peut tirer de toutes les expérimentations sont les suivantes : – La réinjection de pertinence orientée contenu par ajout des termes pertinents comme nous l’avons proposée, nous a permis d’observer des améliorations significatives dans toutes les tâches, même quand ces améliorations ne sont pas significatives sur l’ensemble des requêtes, comme dans le cas des collections 2006. De plus nous préconisons l’ajout d’un nombre limité de termes dans le cas où les éléments sont très spécifiques. – Une autre conclusion concerne l’ajout de la structure. Nous avons montré qu’il existe bien des structures pertinentes et que la prise en compte de cette source d’évidence a montré son intérêt quelle que soit la tâche de recherche et la collection considérée. – Une troisième conclusion est celle qui concerne la combinaison des sources d’évidence. Quelles que soient les sources d’évidence, concernant les indicateurs de calcul du degré d’importance de terme (approche orientée contenu) ou celles liées au type de l’information (textuelle et structurelle exprimée à travers l’approche combinée), nos expériences ont confirmé la robustesse de la cohabitation de différentes sources d’évidences. – Enfin, nous soulignons que ces résultats sont le fruit de dizaine d’expérimentations, les quelques conclusions que nous avons tirées confirme l’intérêt de la reformulation par réinjection de structure et/ou contenu dans les documents Chapitre 4. Evaluations & Expérimentations 170 semi-structurés. Ces résultats dépendent des collections des requêtes. En particulier leur nombre joue un rôle important, si on regarde CO, CO+S, VVCAS il y a respectivement 15, 12, 6 requêtes ayant des éléments pertinents dans le top 20 dans la collection 2005. En effet, il suffit qu’une requête améliore ou dégrade les résultats de manière importante, pour que l’amélioration globale change de manière drastique. Ceci reste difficile à contrôler. Conclusion Générale Synthèse Notre travail se situe dans le cadre de la reformulation de requêtes en Recherche d’Information dans des documents semi-structurés de type XML. Nous nous sommes particulièrement intéressés à la réinjection de pertinence (communément appelée Relevance Feedback ). Plusieurs questions se posent dans ce contexte. Les principales sont : quels indicateurs pourront être utiles pour l’extraction des termes pertinents à partir des éléments de différentes granularités jugés pertinents ? Comment tenir compte du fait que les éléments peuvent être imbriqués les uns dans les autres ? Existe-t-il des structures pertinentes et comment sont-elles définies ? Est-il intéressant d’enrichir une requête avec des contraintes structurelles ? Comment peut-on exprimer les relations contextuelles pouvant exister entre un terme et la balise dans laquelle il apparaı̂t ? Comment intégrer ces deux évidences dans la requête initiale ? Des questions plus techniques font aussi le sujet de cette thèse, elles concernent la réécriture des requêtes : Doit-on re-pondérer les termes originaux ? Comment rajouter des structures à des requêtes déjà structurées ? A quels groupes de mots-clés doit-on ajouter des conditions structurelles ? Notre objectif est d’apporter des réponses à certaines de ces questions. Nous avons alors proposé un mécanisme de reformulation de requêtes par réinjection de pertinence utilisant les deux sources d’évidence : contenu et structure, à la fois de manière dépendante et indépendante. Plus précisément, nous avons proposé trois approches de reformulation : une première orientée contenu, une seconde orientée structure et une troisième approche combinant le contenu et la structure. Au niveau de l’approche orientée contenu, la réinjection de pertinence se fait par ajout de termes pertinents extraits des éléments jugés pertinents. Conclusion Générale 172 Nous avons proposé une approche permettant de sélectionner les termes pertinents selon leur distribution dans les éléments pertinents et non pertinents ainsi que leur proximité vis-à-vis des termes de la requête initiale. Nous avons en outre proposé de prendre en compte la pertinence négative traduite par le facteur bruit. Nous avons montré à travers les expérimentations l’intérêt de la prise en compte de plus d’un indicateur pour la sélection des termes pertinents. Nous avons montré en outre que les nombre de termes à ajouter dépend principalement de la requête, mais il semble que l’ajout de peu de termes est préconisé. De plus la pondération des termes doit être faite ; comme en RI classique, en tenant compte de la présence/absence des termes dans les éléments pertinents. Concernant l’approche orientée structure, Nous avons montré de manière empirique l’existence de la notion de structure pertinente. En effet, nous avons proposé un algorithme qui permet d’extraire une structure pertinente à partir des éléments pertinents. Les résultats de l’évaluation de notre approche montrent de manière claire que l’ajout de structures pertinentes entre 1 et 3 a un effet positif en termes de performances. Nous obtenons des améliorations significatives dans la majorité des tâches considérés. Les travaux réalisés dans le cadre de la réinjection de pertinence consistent à enrichir les requêtes initiales par le contexte des éléments pertinents qui traduit les caractéristiques d’un élément recherché sans spécifier exactement sa structure. La spécificité de notre approche vis-à vis l’état de l’art, réside tout d’abord dans son aspect générique, elle est indépendante de toute DTD. Ensuite, la prise en compte explicite de la structure pertinente dans la requête reformulée. Nous avons en outre proposé une approche qui combine les deux sources d’évidence de différentes façons : naı̈ve, avec dépendance contextuelle et flexible. Nous avons conclu à travers les expérimentations que la cohabitation des deux sources d’évidences permet de mieux exprimer les besoins de l’utilisateur, et ainsi d’améliorer les performances du système. Cette combinaison est spécifique à nos travaux. En effet, les approches déjà développées en littératures ne considère pas les deux sources d’évidences. La combinaison nous a permis de prouver des relations de dépendances qui peuvent exister entre termes et structures, c’est le cas de la combinaison flexible, ainsi que la combinaison avec dépendance contextuelle. Il est également à noter que nos approches sont applicables sans avoir de restrictions ni sur des collections de documents précises, ni sur des types de requêtes ni sur un type de DTD particulier. Conclusion Générale 173 Perspectives Nous proposons dans ce qui suit quelques perspectives à ces travaux. 1. Une première perspective est de mieux comprendre la pondération de termes pertinents. Les résultats sont variables selon les collections, ceci ne corrobore pas souvent avec ce qui est fait en RI classique. Nous pensons que la taille des éléments jugés pertinents doit avoir un impact important dans toutes les phases de la réinjection. Les éléments strictement pertinents sont souvent de taille réduite, ceci peut avoir un impact évident sur les phases d’extraction et pondération des termes. 2. La diversité des sources documentaires rend la prise en compte de l’aspect hétérogène inévitable. Une première application qu’on n’a pas pu tester est celle qui concerne la réinjection de pertinence en considérant des corpus hétérogènes ayant différentes DTD. Nous avons déjà proposé une solution en ce qui concerne l’approche orientée structure, il reste à la tester sur une collection de documents hétérogènes. En ce qui concerne l’approche orientée contenu le problème d’extraction des termes pertinents est le même que celui dans le cas des documents homogène. En revanche, la prise en compte de la dépendance contextuelle entre termes et éléments doit être repenser en s’appuyant par exemple sur des méthodes de classification. 3. Dans cette thèse, nous avons proposé la reformulation de requêtes par réinjection de pertinence en considérant des sources d’évidence extraites des éléments jugés par l’utilisateur. Nous remarquons qu’en général les jugements sont subjectifs et dépendent essentiellement du profil de l’utilisateur. Une de nos perspective est d’enrichir nos sources d’évidence en utilisant par exemple le profil. Ce dernier peut être construit à partir de l’historique des recherches de l’utilisateur ou par des informations fournies explicitement par l’utilisateur. Plus précisément, ces informations peuvent nous servir de deux manières différentes : – soit au niveau de la sélection des termes, de l’extraction des structures pertinentes ou aussi au niveau des relations entre la sémantique des éléments et leurs contenus selon la perception de l’utilisateur. – soit au niveau de jugement de pertinence. En effet on pourra modéliser l’utilisateur en se basant sur son profil, cette modélisation nous permettra de ne plus faire intervenir l’utilisateur d’une manière interactive, mais plutôt, il interviendra pour le jugement à travers son profil. 4. Une perspective envisagée concerne la prise en compte de l’information Conclusion Générale 174 multimédia dans les documents semi-structurés. Une question en lien avec nos travaux concerne la prise en compte de ce type d’information lors de la réinjection de pertinence. Ceci peut être pris en compte à 2 niveaux. Le premier concerne la réécriture de la requête. Dans ce cas, la réinjection de pertinence ne portera pas seulement sur la description des besoins de l’utilisateur par des mots clés et des contraintes structurelles mais aussi des contraintes décrivant les caractéristiques de bas niveau du document multimédia recherché. Le second, plus complexe, consiste à à extraire à partir des éléments de type image de l’information textuelle ou structurelle à réinjecter dans la requête. Annexe A Les Documents XML A.1 Structure du document XML Un document XML est structuré en 3 parties : 1. un prologue, situé dans l’entête des documents XML, permet d’indiquer la version de la norme XML utilisée pour créer le document (cette indication est obligatoire) ainsi que le jeu de caractères (en anglais encoding) utilisé dans le document (attribut facultatif). Dans l’exemple de la figure A.1, on spécifie qu’il s’agit du jeu ISO-8859-1, jeu LATIN, pour permettre de prendre en compte les accents français. Le prologue se poursuit avec des informations facultatives sur des instructions de traitement à destination d’applications particulières. Leur syntaxe est la suivante : < ?instruction de traitement ?>. 2. XML fournit un moyen de vérifier la syntaxe d’un document grâce aux DTD (Document Type Definition). Il s’agit d’un fichier décrivant la structure des documents. Un document XML doit suivre scrupuleusement les conventions de notation XML et peut éventuellement faire référence à une DTD décrivant l’imbrication des éléments possibles. Un document suivant les règles de XML est appelé document bien formé. Un document XML possédant une DTD et étant conforme à celle-ci est appelé document valide. Une DTD peut être définie de 2 façons : – sous forme interne, c’est-à-dire en incluant la grammaire au sein même du document, – sous forme externe, soit en appelant un fichier contenant la grammaire à partir d’un fichier local ou bien en y accédant par son URL. Annexe A. Document XML Fig. A.1 – Exemple d’un document XML 176 Annexe A. Document XML 177 Un autre outil pour décrire la grammaire de document XML est le langage de schéma XML [55]. Celui-ci apporte une grande souplesse dans la définition des documents XML en permettant la prise en charge des types de données garantissant le contenu à affecter à un élément XML et apportant une validation plus efficace, non seulement sur la structure du document, mais aussi sur le type de son contenu. Dans la figure A.1, la deuxième partie représente une DTD décrivant les composants d’un document XML. La première ligne de la DTD sert à déclarer un élément de type annuaire composé d’éléments de type personne. D’après cette DTD, un élément de type personne doit avoir les éléments imbriqués de types : nom, prénom, ...et adresse. L’expression ATTLIST de la troisième ligne de la DTD permet de déclarer un attribut (exemple l’attribut type qui peut avoir soit une valeur =”étudiant” ou ”professeur”). 3. l’ensemble des éléments composant le document XML comme représenté dans la troisième partie de la figure A.1. Un élément est limité par une balise ouvrante dans laquelle on retrouve éventuellement la valeur de l’attribut (exemple l’attribut type de l’élément personne) et une balise fermante. Il peut contenir directement l’information textuelle (exemple l’élément nom) et/ou d’autres éléments qui sont imbriqués (exemple l’élément adresse). L’ensemble des éléments peut être représenté sous forme d’arbre décrivant d’une manière plus simple les relations entre les différents éléments représentés par des nœuds. XML, outre le fait d’être particulièrement adapté à l’échange de données et de documents, présente principalement les avantages suivants : – La lisibilité : aucune connaissance ne doit théoriquement être nécessaire pour comprendre le contenu d’un document XML – Son caractère auto-descriptif et extensible – Une structure arborescente : permettant de modéliser la majorité des problèmes informatiques – Universalité et portabilité : il peut être facilement distribué par n’importe quel protocole et même de transporter du texte, comme HTTP. En outre, les différents jeux de caractères sont pris en compte. – Intégrabilité : un document XML est utilisable par toute application pourvue d’un parser (c’est-à-dire un logiciel permettant d’analyser un code XML) – Extensibilité : un document XML doit pouvoir être utilisable dans tous les domaines d’applications. Annexe A. Document XML 178 Fig. A.2 – L’arbre DOM d’un document XML A.2 Les DOMs Le Modèle d’Objet de Document (DOM) [195], développé par le W3C, présente une interface de programmation d’applications (API : Applications Programming Interface) qui définit la structure logique, les modes de gestion et d’accès des documents XML, HTML et CSS (Cascading StyleSheet). Il permet donc un accès dynamique aux documents et la mise à jour de leur contenu, de leur structure et de leur style par l’intermédiaire de programmes ou de scripts. On trouvera sur la figure A.2 un exemple d’arbre DOM associé au document XML de la figure A.1 : Dans l’arbre, les nœuds feuilles sont les nœuds comportant l’information textuelle et qui ne possèdent pas de descendants (par exemple ”Pillou” est un noeud feuille). La racine représente le document entier et ne possède pas d’ancêtres (sur la figure, l’élément annuaire est la racine). Les nœuds intermédiaires (ou internes) sont des nœuds qui ont à la fois des ancêtres et des descendants (sur la figure, les éléments personne, adresse et email sont des nœuds intermédiaires). Annexe A. Document XML 179 Fig. A.3 – Axes de navigation XPath A.3 XPath XPath [37] est un langage d’expression s’appliquant à XML ; il s’agit d’un langage permettant de sélectionner des sous-arbres d’un document XML. Il possède une syntaxe simple et non ambiguë et implémente des types usuels (chaı̂nes, nombres, booléens, variables, fonctions). Il permet aussi de manipuler des nœuds et des ensembles de nœuds. XPath est utilisé par Xpointer [74] et XSLT [49]. Une expression XPath est un chemin de localisation constitué par une suite d’élements ou d’attributs séparés par une barre de fraction (« / »). XPath fournit des fonctions intégrées, permet d’utiliser des variables, de définir des filtres et de spécifier des axes comme décrit dans la figure A.3. Ces axes sont : – child : : enfants du noeud contextuel – descendant : : descendant du noeud contextuel – parent : : parent du noeud contextuel – ancestor : : ancêtre du noeud contextuel – following-sibling : : tous les nœuds suivant le noeud contextuel et ayant le même noeud parent – preceding-sibling : : tous les nœuds précédant le noeud contextuel et ayant le même noeud parent – following : : tous les nœuds dans le même document que le noeud contextuel et étant après lui dans l’ordre du document (lecture séquentielle) – preceding : : tous les nœuds dans le même document que le noeud contextuel et étant avant lui dans l’ordre du document – attribute : : attributs du noeud contextuel – namespace : : nœuds espaces de nom du noeud contextuel Annexe A. Document XML 180 – self : : le noeud contextuel lui-même – descendant-or-self : : le noeud contextuel ou ses descendants – ancestor-or-self : : le noeud contextuel ou ses ancêtres On trouvera ci-dessous des exemples d’expression XPATH appliquées au document de la figure A.1 : – / : sélectionne l’élément qui englobe tout le document. Dans l’exemple il s’agit de tout l’annuaire. – //personne : sélectionne tous les éléments de type personne. – /personne/email : sélectionne tous les éléments de type email appartenant à l’élément personne. – //personne[@type=”étudiant”] : sélectionne tous les éléments de type personne dont l’attribut type=” étudiant” Bibliographie [1] e-XML. Disponible sur http ://wwww.e-xmlmedia.fr. [2] XQL (Langage d’interrogation de XML). Disponible sur http ://wwww.ibilio.org/xql, 1999. [3] INitiative for the Evaluation of XML Retrieval. disponible sur http ://inex.is.informatik.uni-duisburg.de :2004/tracks/rel/, 2004. [4] INitiative for the Evaluation of XML Retrieval. disponible sur http ://inex.is.informatik.uni-duisburg.de :2005/tracks/rel/, 2005. [5] S. Abiteboul, D. Quass, J. McHugh J. Widom, and J. Wiener. The Lorel Query Language for Semistructured Data. Disponible sur http ://citeseer.ist.psu.edu/abiteboul97lorel.html, 1997. [6] M. Abolhassani and N. Fuhr. Applying the divergence from randomness approach for content-only search in XML documents. In Proceedings of ECIR 2004, Sunderland, pages 409–419, 2004. [7] J. Allan, J. Callan, M. Sanderson, J. Xu, and S. Wegmann. INQERY at TREC-7. In Proceedings of TREC-7, pages 201–216, 1998. [8] S. Amer-Yahia, C. Botev, and J. Shanmugasundaram. Texquery : A fulltext search extension to Xquery. In Proceedings of WWW 2004, 2004. [9] V.N. Anh and A. Moffat. Compression and an IR approach to XML retrieval. In Proceedings of INEX 2002 Workshop, Dagstuhl, Germany, 2002. [10] R. Attar and A.S. Fraenkel. Local feedback in full-text retrieval systems. Journal of the ACM, 24(3) :pages 397–417, 1977. [11] Ricardo Baea-Yates and Berthier Riberto-Neto. Modern Information Retrieval. New-York : ACP Press, Addison-Wesley, 1999. [12] N. J. Belkin, A. Cabezas, C. Cool, K. Kim, K. B. Ng, S. Park, R. Pressman, S. Rieh, P. Savage, and H. Xie. Rutgers interactive track at trec-5. In Proceedings of the Sixth Text Retrieval Conference (TREC-5)., pages 257–266, 1997. [13] N. J. Belkin, J. Perez Carballo, C. Cool, S. Lin, S. Y. Park, S. Y. Rieh, P. Savage, C. Sikora, H. Xie, and J. Allan. Rutgers’ trec-6 interactive track experience. In Proceedings of the Sixth Text Retrieval Conference (TREC-6)., pages 597–610, 1998. Bibliographie 182 [14] N. J. Belkin, C. Cool, J. Koenemann, K. Bor Ng, and S. Park. Using relevance feedback and ranking in interactive searching. In Proceedings of the Fourth Text Retrieval Conference (TREC-4)., pages 181–210, 1996. [15] N. J. Belkin, P. Kantor, E. A. Fox, and J. A. Shaw. Combining the evidence of multiple query representations for information retrieval. In Information Processing and Management., pages 431–448, 1995. [16] N.J. Belkin, J. Perez Carballo, D. Kelly, S. Lin, S.Y. Park, S.Y. Rieh, P. Savage-Knepshield, C. Sikora, and C. Cool. Rutgers’ trec-7 interactive track experience. In Proceedings of the Seventh Text Retrieval Conference (TREC-7)., pages 275–284, 1999. [17] N.J. Belkin and W.B. Croft. Information retrieval and information filtering : two sides of the same coin ? Communications of the ACM, 35(12), December 1992. [18] S.K. Bhatia. Selection of search terms based on user profile. In ACM/SIGAPP Symposium on Applied computing (vol I) : technological challenges of the 1990’s. Proceedings of the 1992, pages 224–233, 1992. [19] P. Bohannon, J. Freire, P. Roy, and J. Simeon. From XML schema to relations : A cost-based approach to XML storage. In Proceedings of the 18th International Conference on Data Engineering (ICDE), San Jose, CA, USA. Morgan Kaufmann, 2002. [20] M. Boughanem, C. Chrisment, J. Mothe, C. Soulé-Dupuy, and L. Tamine. Connexionist and genetic approaches to achieve ir. Soft Computing in Information Retrieval Techniques and application Editorial., pages 173,198, 2000. [21] M. Boughanem, C. Chrisment, and C. Soule-Dupuy. Query modification based on relevance backpropagation in adhoc environment. Information Processing and Management, 35 :pages 121–139, 1999. [22] Mohand Boughanem, Wessel Kraaij, and Jian-Yun Nie. Modèles de langue pour la recherche d’information. In Les systèmes de recherche d’informations, pages 163–182. Hermes-Lavoisier, 2004. [23] C. Buckley. Why current ir engines fail. In SIGIR ’04 : Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval, pages 584–585, New York, NY, USA, 2004. ACM. [24] C. Buckley, G. Salton, J. Allan, and A. Singhal. Automatic query expansion using SMART : TREC 3. In Text REtrieval Conference, pages 0–, 1994. [25] C. Buckley, G. Salton, J. Allan, and A. Singhal. Automatic query expansion using smart : Trec-3. In Proceedings of the Third Text Retrieval Conference (TREC-3)., pages 69–80, 1995. [26] J. Callan. Passage-level evidence in document retrieval. In Proceedings of SIGR 1994, Dublin, Ireland, pages 302–309, 1994. Bibliographie 183 [27] I. Campbell. Supporting information needs by ostensive definition in an adaptive information space. In MIRO ’95. electronic Workshops in Computing, Springer Verlag., 1995. [28] I. Campbell. Interactive evaluation of the ostensive model, using a new test-collection of images with multiple relevance assessments. Journal of Information Retrieval., 2(1) :89–114, 1999. [29] I. Campbell and C. J. Van Rijsbergen. Ostensive model of information needs. In Proceedings of the Second International Conference on Conceptions of Library and Information Science : Integration in Perspective (CoLIS 2)., pages 251–268, 1996. [30] L. De Campos, Juan F. Huete, and Juan M. Fernndez-Luna. Document instantiation for relevance feedback in the bayesian network retrieval model. [31] D. Carmel, N. Efraty, G. Landau, Y. Maarek, and Y. Mass. An extension of the vector space model for quering xml fragments. In ACM SIGIR’2002 Workshop on XML and IR. Finland, August 2002. [32] S. Ceri, S. Comai, E. Damiani, P. Fraternali, S. Paraboschi, and L. Tanca. XML-GL : A graphical language for querying and restructuring WWW data. In Proceedings Of the 8th Int. WWW Conference, WWW8, Toronto, Canada, May 1999. [33] D. Chamberlin, J. Robie, and D. Florescu. Quilt : An XML query language for heterogeneous data sources. In Proceedings of the 3rd Internation Workshop on World Wide Web and databases, Dallas, USA, pages 1–25, 2000. [34] Y.K. Chang, C. Cirillo, and J. Razon. Evaluation of feedback retrieval using modified freezing, residual collection and test and control groups. The SMART retrieval system- experiments in automatic document processing, pages 355,370, 1971. [35] J.-P. Chevallet and J.Y. Nie. Intégration des analyses du français dans la recherche d’informations. In Recherche d’Informations Assistée par Ordinateur (RIAO’97), Montreal, pages 761–772, jun 1997. [36] Y. Chiaramella, P. Mulhem, and F. Fourel. A model for multimedia information retrieval. Technical report, Technical report, FERMI ESPRIT BRA 8134, University of Glasgow, 1996. [37] J. Clark and S. Derose. XML Path Language (XPath) , version 1.0. Technical report, World Wide Web Consortium (W3C), W3C Recommendation, Novembre 1999. [38] V. Claveau and P. Sébillot. Extension de requêtes par lien sémantique nom-verbe acquis sur corpus. april 2004. [39] D. Colazzo, C. Sartiani, A. Albano, P. Manghi, G. Ghelli, L. Lini, and M. Paoli. A typed text retrieval query language for XML documents. JASIST, 53(6) :pages 647–488, 2002. Bibliographie 184 [40] B. Croft. Experiments with representations in a document retrieval system. Information Technology : Research and Developement., 35(4) :1,21, 1983. [41] B. Croft and D. Harper. Using probabilistic models of information without relevance information. Journal of Documentation., 35(4) :285,295, 1979. [42] W.B. Croft, R. Cook, and D. Wilder. Providing government information on the internet : Experiences with THOMAS. U. of Mass. Technical report 95-45, 1995. [43] C. Crouch, A. Mahajan, and A. Bellamkonda. Flexible XML retrieval based on the vector space model. In INEX 2004 Workshop Proceedings, pages 292,302. Germany, December 2004. [44] C. J. Crouch, S. Apte, and H. Bapat. An approach to structured retrieval based on the extended vector model. In Proceedings of INEX 2003 Workshop, pages 89,93. Germany, December 2003. [45] C. J. Crouch and B. Yang. Experiments in automatic statistical thesaurus construction. In Proceedings of the ACM-SIGIR Conference on Research and Development in Information Retrieval , Copenhage, Denmark, pages 77–88, 1992. [46] L. Denoyer and P. Gallinari. Bayesian network model for semistructured document classification. Information Processing and Management, 40 :807,827, 2004. [47] L. Denoyer and P. Gallinari. The wikipedia xml corpus. SIGIR Forum, 40(1) :64–69, 2006. [48] L. Denoyer, G. Wisniewski, and P. Gallinari. Document structure matching for heterogenous corpora. In Proceedings of the 27th Annual International ACM SIGIR Conference. Sheffield, United Kingdom, July 2004. [49] S. Derose, E. Maler, and D. Orchard. XML Linking Language (XLink), version 1.0. Technical report, World Wide Web Consortium (W3C),W3C Recommendation, juin 2001. [50] A. Deutsch, M. F. Fernandez, and D. Suciu. Storing semistructured data with STORED. In A. Delis, C. Faloutsos, and S. Ghandeharizadeh, editors, Proceedings ACM SIGMOD International Conference on Management of Data, Philadelphia, Pennsylvania, USA, pages 431–442, June 1999. [51] E. Efthimiadis and P. Biron. Ucla-okapi at trec-2 : query expansion experiments. In Proceedings of the Second Text Retrieval Conference (TREC-2)., pages 279–290, 1994. [52] E.N. Efthimiadis. Interactive query expansion : a user based evaluation in relevance feedback environment. Journal of the American Society for Information Science, 51(11) :989,1003, 2000. Bibliographie 185 [53] D. Ellis. A behavioural approach to information system design. Journal of Documentation., 45(3) :171–212, 1989. [54] E-XMLMedia XMLizer. http ://www.e-xmlmedia.fr/sitefrancais/produits-xmlizer.htm. [55] D.C. Fallside. XML Schema. Technical report, World Wide Web Consortium (W3C),W3C Recommendation, 2001. [56] M. Fernandez. XQuery 1.0 and XPath 2.0 Data Model W3C Working Draft. Disponible sur http ://wwww.w3.org/TR/xpath-datamodel/, October 2004. [57] D. Florescu and D. Kossmann. Storing and querying XML data using an RDMBS. IEEE Data Engineering Bulletin, 22(3) :pages 27–34, 1999. [58] C. Fox. Lexical analysis and stoplists, pages 102–130. Frakes W B, BaezaYates R (eds) Prentice Hall, New jersey, 1992. [59] W. B. Frakes. Stemming Algorithms, pages 131–160. Frakes W B, BaezaYates R (eds) Prentice Hall, New jersey, 1992. [60] N. Fuhr, N. Govert, G. Kazai, and M. Lalmas. Proceedings of the first workshop of the initiative for the evaluation of XML retrieval (INEX 2002), 2002. [61] N. Fuhr and K. Grossjohann. XIRQL : a query language for information retrieval in XML documents. In In Proceedings of SIGIR 2001, Toronto, Canada, 2003. [62] N. Fuhr, M. Lalmas, and S. Malik. INEX 2003 workshop proceedings, 2003. [63] N. Fuhr, M. Lalmas, S. Malik, and Z. Szlavik. INEX 2004 workshop proceedings. Springer, 2004. [64] N. Fuhr, M. Lalmas, and A. Trotman. INEX 2006 workshop proceedings, 2006. [65] N. Fuhr, Mounia Lalmas, S. Malik, and G. Kazai. INEX 2005 workshop proceedings, 2005. [66] N. Gövert, M. Abolhassani, N. Fuhr, and K. Grossjohann. Contentoriented XML retrieval with hyrex. In Proceedings INEX 2002, Dagstuhl, Germany, 2002. [67] N. Gövert, M. Abolhassani, N. Fuhr, and K. Grossjohann. Contentoriented XML retrieval with hyrex. In Proceedings INEX 2002, Dagstuhl, Germany, 2002. [68] S. Geva. Gpx-gardens point xml information retrieval at inex 2004. In INEX 2004 Workshop Proceedings, pages 211,223. Dagsthul, Germany, December 2004. [69] S. Geva, M. Hassler, and X. Tannier. XOR - XML Oriented Retrieval Language. In Proceedings of ACM SIGIR 2006 Workshop on XML Element Retrieval Methodology, Seattle, WA, USA. ACM Press, New York City, NY, USA, August 2006. Bibliographie 186 [70] C. Goldfarb. The SGML Handbook. Oxford University Press, Oxford, 1990. [71] T. Grabs and H.-J. Scheck. Flexible information retrieval from xml with PowerDB XML. In Proceedings of INEX 2002, Dagstuhl, Germany, pages 26–32, December 2002. [72] T. Grabs and H. Schek. Eth zurich at inex, flexible information retrieval from xml with powerdb-xml. In Proceedings of the First Workshop of the INiative for the Evaluation of XML REtrieval(INEX), pages 141,148. Dagsthul, Germany, December 2002. [73] Torsten Grabs. Storage and Retrieval of XML Documents within a Cluster of Database Systems. PhD thesis, Ecole Polytechnique Fédérale de Zürich, 2003. [74] P. Grosso, E. Maler, J. Marsh, and N. Walsh. XML Pointer Language (XPointer). Technical report, World Wide Web Consortium (W3C),W3C Recommendation, march 2003. [75] T. Grust. Accelerating xpath location steps. In SIGMOD ’02 : Proceedings of the 2002 ACM SIGMOD international conference on Management of data, pages 109–120, New York, NY, USA, 2002. ACM Press. [76] A. Gutierrez, R. Motz, and D. Viera. Building databases with information extracted from web documents. In Proceedings XX international conference of the Chilean computer sciences society, pages 41–49, 2000. [77] D. Haines and W.B. Croft. Relevance feedback and inference network. In 16t h Annual International ACM SIGIR Conference on Research and developement in Information Retrieval, pages 2,11, 1993. [78] D. Harman. Towards interactive query expansion. In 11t h Annual International ACM SIGIR Conference on Research and developement in Information Retrieval, pages 321,331, 1988. [79] D. Harman. Relevance feedback revisited. In 15t h Annual International ACM SIGIR Conference on Research and developement in Information Retrieval, pages 1,10, 1992. [80] K. Hatano, H. Kinutani, and M. Watanabe. An appropriate unit of retrieval results for xml document retrieval. In Proceedings of the First Workshop of the INiative for the Evaluation of XML REtrieval (INEX). Dagsthul, Germany, Decemder 2002. [81] D. Hiemstra. A linguistically motivated probabilistic model of information retrieval. In Proceedings of the 2nd European Conference on Research and Advanced Technology for Digital Libraries (ECDL), pages 569–584, 1998. [82] L. Hlaoua, , M. Torjmen, K. Pinel-Sauvagnat, and M. Boughanem. XFIRM at INEX 2006. Ad-hoc, Relevance Feedback and MultiMedia tracks. In International Workshop of the Initiative for the Evaluation of XML Retrieval (INEX), Dagstuhl, Allemagne, 18/12/2006-20/12/2006, 2006. Bibliographie 187 [83] L. Hlaoua. Recherche d’Information dans des Documents XML : Utilisation d’une Technique de Propagation de la Pertinence. rapport dea, Université Paul Sabatier de Toulouse, 2004. [84] L. Hlaoua. Reformulation de Requêtes par Structure en RI dans les Documents XML. In Conférence francophone en Recherche d’Information et Applications, Lyon, 15/03/06-17/03/06, pages 395–400, http ://www.irit.fr/ARIA, mars 2006. Association Francophone de Recherche d’Information et Applications (ARIA). [85] L. Hlaoua and K. Pinel-Sauvagnatand M. Boughanem. Relevance Feedback for XML Retrieval : using structure and content to expand queries. In Colette Rolland, Oscar Pastor, and Jean-Louis Cavarero, editors, International Conference on Research Challenges in Information Science (RCIS), Ouarzazate- Maroc, 23/04/2007-26/04/2007, pages 195–202, http ://www.emsi.ma/, avril 2007. EMSI - Ecole MArocaine des Sciences de l’Ingénieur. [86] L. Hlaoua and M. Boughanem. Towards Contextual and Structural Relevance Feedback in XML Retrieval. In Michel Beigbeder and Wai Gen Yee, editors, workshop on Open Source Web Information Retrieval, compiègne, 19/09/05, pages 35–38. ISBN :2-913923-19-4, septembre 2005. [87] L. Hlaoua, M. Boughanem, and K. Pinel-Sauvagnat. Combination of Evidences in Relevance Feedback for XML Retrieval. In Conference on Information and Knowledge Management (CIKM), Lisbonne, Portugal, novembre 2007. [88] L. Hlaoua, M. Boughanem, and K. Pinel-Sauvagnat. Using a Contentand-Structure Oriented Method for Relevance Feedback in XML Retrieval. In Large-Scale Semantic Access to Content (Text, Image, Video and Sound) (RIAO), Pittsburgh (PA) États-Unis, 30/05/2007-01/06/2007, page (electronic medium), http ://www.le-cid.org, juin 2007. [89] L. Hlaoua, M. Boughanem, and K. Sauvagnat. Combinaison des caractéristiques des termes pour l’extension des requêtes en recherche d’information dans les documents xml. In CORIA 2007, pages 77,92. Saint Etienne, Mars 2007. [90] L. Hlaoua and K. Sauvagnat. Structure-oriented relevance feedback in xml retrieval. In InSciT2006. , Merida, Espagna, October 2006. [91] L. Hlaoua, K. Sauvagnat, and M. Boughanem. Réinjection de structures pour la reformulation de requêtes en ri structurée. In INFORSID 2006, pages 435,450. Hammet, Tunisie, Juin 2006. [92] L. Hlaoua, K. Sauvagnat, and M. Boughanem. A structure-oriented relevance feedback method for xml retrieval. In Proceedings of the 15t h ACM Annual Conference on Information and Knowlege Management CIKM’06. Arlington, Virginia, USA., November 2006. [93] G. Hubert. A voting method for XML retrieval . In Norbert Fuhr, Mounia Lalmas, and Saadia Malik, editors, Advances in XML Information Bibliographie 188 Retrieval : Third International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2004, LNCS 3493 / 2005 , Dagstuhl, Germany, , pages 183–196. Springer-Verlag GmbH, mai 2005. Dates de conférence : mai 2005 2005. [94] G. Huck, I. Macherius, and P. Fankhauser. PDOM : Lightweigt persistency support for the document object model. In Succeeding with Object Databases,John Wiley, 2000. [95] E Ide. New experiments in relevance feedback. In The SMART retrieval system - experiments in automatic document processing., pages 337–354, 1971. [96] P. Ingwersen. Polyrepresentation of information needs and semantic entities : elements of a cognitive theory for information retrieval interaction. In Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval., pages 101–110, 1994. [97] P. Ingwersen. Cognitive perspectives of information retrieval interaction : elements of a cognitive ir theory. Journal of Documentation., 52(1) :3–50, 1996. [98] H.C. Jang, Y.I. Kim, and D.W. Shin. An effective mechanism for index update in structured documents. In Proceedings ACML CIKM, Kansas City, pages 383–390, 1999. [99] K.S. Jones. Further reflections on trec. Inf. Process. Manage., 36(1) :37– 85, 2000. [100] Y.Choy K. Lee and S. Cho. An efficient algorithme to compute differences between structured documents. IEEE Transaction On Knowledge and Data Engineering, 16(8), August 2004. [101] V. Kakade and P. Raghavan. Encoding XML in vector spaces. In Proceedings of ECIR 2005, Saint Jacques de Compostelle, Spain, 2005. [102] J. Kamps, M. de Rijke, and B. Sigurbjornsson. Length normalization in XML retrieval. In Proceedings of SIGIR 2004, Sheffield, England, pages 80–87, 2004. [103] C.-C. Kanne and G. Moerkotte. Efficient storage of XML data. In In Proceedings of the 16th International Conference on Data Engineering, San Diego, California, USA, page 198, 2000. [104] M. Kaszkiel and J. Zobel. Passage retrieval revisited. In Proceedings of SIGIR 1997, Philadelphia, USA, pages 178–185, 1997. [105] G. Kazai and M. Lalmas. Inex 2005 evaluation metrics. In INEX 2005 Workshop Pre-Proceedings, pages 401,406. Germany, November 2005. [106] G. Kazai, M. Lalmas, and T. Roelleke. A model for the representation and focused retrievel of structured documents based on fuzzy aggregation. In SPIRE’2001, pages 123,135. Lagune de San Rafaël, Chile, 2001. Bibliographie 189 [107] G. Kazai, M. Lalmas, and T. Roelleke. Focused document retrieval,. In 9th International Symposium on string processing and information retrieval, Lisbon, Portugal, September 2002. [108] C.C. Kuhlthau. Principle for uncertainty for information seeking. Journal of Documentation., 49(4) :339–355, 1993. [109] J. Fernandez-Luna L. Compos and J. Huete. Using context information in structured document retrieval : An approch based on influence diagrams. Information Processing and Management, 40 :829,847, 2004. [110] M. Lalmas. Dempster shafer s theory of evidence applied to structured documents : modelling uncertainty. In Proceedings of annual international ACM SIGIR’97 Conference, pages 110–118. Philadelphia PA, USA, 1997. [111] R.R. Larson. Cheshire ii at inex : Using a hybrid logistic regression and boolean model for xml retrieval. In Proceedings of the First Workshop of the INiative for the Evaluation of XML REtrieval(INEX), pages 18,25. Dagsthul, Germany, December 2002. [112] R.R. Larson. Cheshire ii at inex’04 : Fusion and feedback for the adhoc and heterogenous tracks. In INEX 2004 Workshop Proceedings, pages 322,336. Dagsthul, Germany, December 2004. [113] O. Lassila and R.R. Swick. Resource Description Framework (RDF) model and syntax specification. Technical report, World Wide Web Consortium (W3C),W3C Recommendation, Februar 1999. [114] J. H. Lee. Combining the evidence of different relevance feedback methods for information retrieval. Information Processing and Management., 34(6) :681–691, 1998. [115] Y.K. Lee, S.J. Yoo, and K. Yoon. Index structures for structured documents. In In Proc. ACM Workshop on XML and IR, Bethesda, pages 91–99, 1996. [116] M. Lehtonen. Extirp 2004 : Towards heterogeneity. In INEX 2004 Workshop Proceedings, pages 372,381. Dagsthul, Germany, December 2004. [117] A. Levy, M. Fernandez, D. Suciu, D. Florescu, and A. Deutsch. XMLQL : A query language for XML. Technical report, World Wide Web Consortium technical report, Number NOTE- xml-ql-19980819, 1998. [118] Q. Li and B. Moon. Indexing and querying XML data for regular path expressions. In Proceedings of the 27th VLDB Conference, Roma, Italy, 2001. [119] Y. Li, C. Yu, and H.V. Jagadish. Schema-free xquery. In VLDB, 2004. [120] W. Lian and D. Cheung. An efficient and scalable algorithme for clustering xml documents by structure. IEEE Transaction And Data Engineering, 16(1), 2004. [121] J. A. List, V. Mihajlovic, A. P. de Vries, and G. Ramirez. The TIJAH XML-IR system at INEX 2003. In Proceedings of INEX 2003 Workshop, pages 102,109. Dagsthul, Germany, December 2003. Bibliographie 190 [122] R.W.P. Luk, H.V. Leong, T.S. Dillon, A.T.S. Shan, W.B Croft, and J. Allan. A survey in indexing and searching XML documents. Journal of the American Society for Information Science and Technology, 53(3) :pages 415–435, 2002. [123] C. Lundquist, D. Grossman, and O. Frieder. Improving relevance feedback in the vector space model. In Proceedings of the 6t h ACM Annual Conference on Information and Knowlege Management (CIKM’97), 1997. [124] M. Maron and J. Kuhns. On relevance, probabilistic indexing and information retrieval. Journal of the Association for Computing Machinery, 7 :pages 216–244, 1960. [125] M. Marx, J. Kamps, M. Rijke, and B. Sigurbjornsson. The importance of morphological normalization for xml retrieval. In Proceedings of the First Workshop of the INiative for the Evaluation of XML REtrieval(INEX), pages 41,48. Dagsthul, Germany, December 2002. [126] Y. Mass and M. Mandelbrod. Retrieving the most relevant xml components. In Proceedings of INEX 2003 Workshop, pages 53,58. Dagsthul, Germany, December 2003. [127] Y. Mass and M. Mandelbrod. Component ranking and automatic query refinement for XML retrieval. In INEX 2004 Workshop Proceedings, pages 73,84. Dagsthul, Germany, December 2004. [128] Y. Mass and M. Mandelbrod. Relevance feedback for XML retrieval. In INEX 2004 Workshop Proceedings, pages 303,310. Germany, December 2004. [129] Y. Mass, M. Mandelbrod, E. Amitay, Y. Maarek, and A. Soffer. JuruXML-an XML retrieval system at INEX’02. In Proceedings of the First Workshop of the INiative for the Evaluation of XML REtrieval(INEX), pages 73,80. Dagsthul, Germany, Decemder 2002. [130] M.I. M.Azevedo, L.P. Amorim, and N. Ziviani. A universal model for xml information retrieval. In INEX 2004 Workshop Proceedings, pages 311,321. Dagsthul, Germany, December 2004. [131] V. Mihajlovic, G. Ramirez, A.P de Vries, D. Hiemstra, and H.E. Blok. TIJAH at INEX 2004 modeling phrases and relevance feedback. In INEX 2004 Workshop Proceedings, pages 276,291. Germany, December 2004. [132] V. Mihajlovic, G. Ramirez, T. Westerveld, H.E. Block, A.P de Vries, and D. Hiemstra. TIJAH scratches INEX 2005 vague element selection, overlap, image search, relevance feedback, and users. In INEX 2005 Workshop Pre-Proceedings, pages 54,71. Dagsthul, Germany, November 2005. [133] G.A. Miller. Wordnet : A lexical database for english. In HLT, 1994. [134] M. Mitra, A. Singhal, and C. Buckley. Improving automatic query expansion. In Proceedings of the Twenty-First Annual International ACM SIGIR Conference on Research and Development in Information Retrieval., pages 206–214. Melbourne, 1998. Bibliographie 191 [135] P. Ogilvie and J. Callan. Combining document representations of knownitem search. In Proceedings of annual international ACM SIGIR Conference. Toronto, Canada, 2003. [136] P. Ogilvie and J. Callan. Combining document representations of knownitem search. In Proceedings of the 26st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 143–150. Tronoto, Canada, July,28-August,1 2003. [137] J. Parikh and S. Kapur. Unity : relevance feedback using user query logs. In SIGIR ’06 : Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pages 689–690, New York, NY, USA, 2006. ACM Press. [138] H. J. Peat and P. Willett. The limitations of term co-occurrence data for query expansion in document retrieval systems. Journal of the American Society for Information Science., 42(5) :pages 378–383, 1991. [139] K. Pinel-Sauvagnat, L. Hlaoua, and M. Boughanem. XML retrieval : what about using contextual relevance ? In Annual ACM Symposium on Applied Computing (SAC), Dijon, 23/04/2006-27/04/2006, pages 1114– 1120, http ://www.acm.org/, avril 2006. ACM Press. [140] B. Piwowarski. Working group report : the assessment tool. In Proceedings of INEX 2003, Dagstuhl, Germany, pages 181–183, December 2003. [141] B. Piwowarski. Eprum metrics and inex 2005. In Norbert Fuhr, Mounia Lalmas, Saadia Malik, and Gabriella Kazai, editors, INEX, volume 3977 of Lecture Notes in Computer Science, pages 30–42. Springer, 2005. [142] B. Piwowarski, G. Faure, and P. Gallinari. Bayesian networks and inex. In Proceedings of the First Workshop of the INiative for the Evaluation of XML REtrieval(INEX), pages 149,154. Dagsthul, Germany, December 2002. [143] J.M. Ponte and W.B. Croft. A language modelling appraoch to information retrieval. In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 40–48, 1998. [144] M. F. Porter. An algorithm for suffix stripping. Program 14, 1980. [145] Y. Qiu and H.P. Frei. Concept based query expansion. In Proceedings of the 16th ACM SIGIR Conference on Research and Development in Information Retrieval, Pittsburgh, PAA, USA, pages 160–169, 1993. [146] B. A. Ribeiro-Neto and R. Muntz. A belief network model for IR. In Proceedings Of the 19th annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Zurich, Suisse, pages 253–260, 1996. [147] C. J. Van Rijsbergen. Information retrieval. Butterworths. 2nd edition., 1979. Bibliographie 192 [148] C.J. Van Rijsbergen, D. Harper, and M. Porter. The selection of good search terms. Information Processing and Management., 17(2) :pages 77–91, 1981. [149] S. Robertson, S. Walker, S. Jones, M. Hancock-Beaulieu, and M. Gatford. Okapi at TREC 3. In Proceedings of the 3rd Text REtrieval Conference (TREC-3), pages 109–126, 1994. [150] S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu, and M. Gatford. Okapi at trec-3. In Proceedings of the Third Text Retrieval Conference (TREC-3)., pages 109–126, 1995. [151] S.E. Robertson. The probability ranking principle in IR. Journal of Documentation, 33(4) :pages 294–304, 1977. [152] S.E. Robertson and J.K.Sparck-Jones. Relevance weighting of search terms. Journal of the American Siciety for Information Science, 27(3) :129, 146, 1976. [153] S.E. Robertson, S.E. Walker, and M.M. Beaulieu. Large test collection experiments on an operational interactive system : Okapi at trec. Information Processing & Management Journal, 31 :260,345, 1995. [154] J.J. Rocchio. Relevance feedback in information retrieval. In The SMART retrieval system-experiments in automatic document processing, pages 313,323. Prentice Hall Inc, 1971. [155] T. Roelleke, M. Lalmas, G. Kazai, J. Ruthven, and S. Quicker. The accessibility dimension for structured document retrieval. In Proceedings of ECIR 2002, 2002. [156] I. Ruthven and M. Lalmas. Selective relevance feedback using term characteristics. CoLIS 3, Proceedings of the Third International Conference on Conceptions of Library and Information Science., 1999. [157] I. Ruthven and M. Lalmas. A survey on the use of relevance feedback for information access systems. Knowl. Eng. Rev., 18(2) :95–145, 2003. [158] I. Ruthven, M. Lalmas, and C.J. Van Rijsbergen. Ranking expansion terms using partial and ostensive evidence. In Proceedings of the 4th International Conference on Conceptions of Library and Information Science. CoLIS 4., pages 109–126. Seattle, 2002. [159] I. Ruthven, M. Lalmas, and K. Rijsbergen. Combining and selecting characteristics of information use. JASIST, 53(5) :378,396, 2002. [160] G. Salton. A comparison between manual and automatic indexing methods. Journal of the American Documentation, 20(1) :61,71, 1971. [161] G. Salton. Automatic text processing : The transformation, analysis and retrieval of information by computer. Addison-Wesley publishing, MA, 1989. [162] G. Salton and C Buckley. Improving retrieval performance by relevance feedback. Journal of the Jmerican Society of Information Science, 41(4) :288,297, 1990. Bibliographie 193 [163] G. Salton, E.A. Fox, and H. Wu. Extended boolean information retrieval. Communications of the ACM, 31(2) :1002–1036, November 1983. [164] G. Salton and M. McGill. Introduction to modern information retrieval. McGraw-Hill Book Company, page 1, 1983. [165] K. Sauvagnat. Xfirm, un modèle flexible de recherche d’information pour le stockage et l’indexation de documents xml. In Actes de CORIA’04, pages 121,142. Toulouse, France, Mars 2004. [166] K. Sauvagnat. Modèle flexible pour la recherche d’information dans des corpus de documents semi-structurés . Thèse de doctorat, Université Paul Sabatier, Toulouse, France, juin 2005. [167] K. Sauvagnat and M. Boughanem. Recherche d’Information dans les documents XML. rapport interne, Université Paul Sabatier de Toulouse, 2004. [168] K. Sauvagnat, L. Hlaoua, and M. Boughanem. Xfirm at inex 2005 : ad-hoc and relevance feedback track. In INEX 2005 Workshop Pre-Proceedings, pages 72,83. Germany, November 2005. [169] R. Schenkel and M. Theobald. Relevance feedback for structural query expansion. In INEX 2005 Workshop Pre-Proceedings, pages 260,272. Germany, November 2005. [170] T. Schileder and H. Meuss. Querying and ranking XML documents. Journal of the American Society for Information Science and Technology, 53(6) :pages 489–503, 2002. [171] A. Schmidt, M. Kersten, and M. Windhouwer. Querying xml documents made easy : nearest concept queries. In Data Engineering, 2001. Proceedings. 17th International Conference, pages 321–329, 2001. [172] G. Shafer. A mathematical theory of evidence. Princeton, NJ : Princeton University Press, 1976. [173] D.W. Shin, H.C. Jang, and H.L Jin. BUS : an effective indexing and retrieval scheme in structured documents. In Proceedings of digital libraries, Pittsburgh, pages 235–243, 1998. [174] B. Sigurbjörnsson, J. Kamps, and M. de Rijke. An element-based approach to XML retrieval. In Proceedings of INEX 2003 workshop, Dagstuhl, Germany, dec. 2003. [175] B. Simonnot. Modélisation multi-agents d’un système de recherche d’information multimédia à forte composante vidéo, (Multi-Agent Modelling of a multimedia information retrieval system for still images and videos collections). Phd thesis, Henri Poincaré University, 1996. [176] A. Singhal, J. Choi, D. Hindle, and F. C. N.Pereira. ATT at TREC-6 : SDR track. In Text REtrieval Conference, pages 227–232, 1997. [177] A. Singhal, M. Mitra, and C. Buckley. Learning routing queries in a query zone. In 20t h Annual International ACM SIGIR Conference on Research and developement in Information Retrieval, pages 25,32, 1997. Bibliographie 194 [178] A. Smeaton and C.J. Van Rijsbergen. The retrieval effects of query expansion on a feedback document retrieval system. The Computer Journal., 26(3) :239,246, 1983. [179] K. Sparck-Jones and R. Needham. Automatic theme classification and retrieval. Information Processing and Management, 4 :91,100, 1972. [180] J. Spiegel and E. Bennett. A modified statistical association procedure for automatic document content analysis and retrieval. In Statistical Association Methods For Mechanized Documentation. National Bureau of Standards Miscellaneous Publications 269., pages 47–60. M. E. Stevens, V. E. Guiliano and L. B. Heilprin. eds, 1964. [181] A. Spink and T. D. Wilson. Toward a theoretical framework for information retrieval (ir) evaluation in an information seeking context. In Mira ’99 : Evaluating Information Retrieval., 1999. [182] R. G. Sumner, K. Yang, R. Akers, and W. M. Shaw. Interactive retrieval using iris : Trec-6 experiments. In Proceedings of the Sixth Text Retrieval Conference (TREC-6)., pages 711–734, 1998. [183] C. Sun, C. Chan, and A.K. Goenka. Multiway slca-based keyword search in xml data. In WWW ’07 : Proceedings of the 16th international conference on World Wide Web, pages 1043–1052, New York, NY, USA, 2007. ACM Press. [184] L. Tamine. Optimisation de requêtes dans un système de recherche d’information. Phd, Université Paul Sabatier de Toulouse, December 2000. [185] A. Theobald and G. Weikum. The index-based XXL search engine for querying XML data with relevance ranking. In EDBT 2002, 8th International Conference on Extending Database Technology, Prague, Czech Republic, pages 477–495, 2002. [186] A. Trotman. Choosing document structure weights. Information Processing and Management, 41 :243,265, 2005. [187] A. Trotman and M. Lalmas. Why structural hints in queries do not help xml-retrieval. In SIGIR, pages 711–712, 2006. [188] A. Trotman and R. A. O’Keefe. Identifing and ranking relevant document element. In Proceedings of INEX 2003 Workshop, pages 149,154. Dagsthul, Germany, December 2003. [189] A. Trotman and R. A. O’Keefe. The simplest query language that could possibly work. In Proceedings of INEX 2003 Workshop, pages 167,174. Dagsthul, Germany, December 2003. [190] A. Trotman and B. Sigurbjornsson. Narrowed extended xpath i(nexi). In INEX 2004 Workshop Proceedings, pages 16,40. Germany, December 2004. [191] H. Turtle. Inference Networks for Document Retrieval. Phd thesis, University of Massachusetts, 1991. Bibliographie 195 [192] H. Turtle and W.B. Croft. Inference networks for document retrieval. In A. Bookstein, Y. Chiarmella, G. Salton, and V. Raghavan, editors, Proceedings of ACM SIGIR, pages 1,24, 1990. [193] C. Vogt. Adaptive combination of evidence for information retrieval. PhD thesis, University of California, San Diego, 1999. [194] Ellen M. Voorhees. The trec robust retrieval track. SIGIR Forum, 39(1) :11–20, 2005. [195] W3C. DOM Level 1 (Document Object Model). Technical report, World Wide Web Consortium (W3C), W3C standard, october 1998. [196] W3C. Extensible markup language (XML). Disponible sur http ://www.w3.org/TR/1998/REC-xml-19980210, 1998. [197] S. Walker, S.E. Robertson, M. Boughanem, G.J.F. Jones, and K. Sparck Jones. Okapi at trec-6 : Automatic ad hoc, vlc, routing, filtering and qsdr. [198] F. Weigel, H. Meuss, F. Bry, and K.U. Schulz. Content-aware dataguides : Interleaving IR and DB indexing techniques for efficient retrieval of textual XML data. In Proceedings of ECIR 2004, Sunderland, UK, pages 378–393, 2004. [199] Z. Wen. New algorithms for the lca problem and the binary tree reconstruction problem. Information Processing. Lett, 51(1) :11, 16, 1994. [200] R. Wilkinson. Effective retrieval of structured documents. In Proceedings of SIGIR 1994, Dublin, Ireland, pages 311–317, 1994. [201] J.E. Wolff, H. Florke, and A.B. Cremers. Searching and browsing collections of structural information. In Proceedings of IEEE advances in digital libraries, Washington, 2000, pages 141–150, 2000. [202] H. Wu and G. Salton. The estimation of term relevance weights using relevance feedback. Journal of Documentation, 37(4) :194,214, 1981. [203] Y. Xu and Y. Papakonstantinou. Efficient keyword search for smallest lcas in xml databases. In SIGMOD ’05 : Proceedings of the 2005 ACM SIGMOD international conference on Management of data, pages 527– 538, New York, NY, USA, 2005. ACM Press. [204] R.R. Yager. On ordered weighted averaging aggregation operators in multi-criteria decision making. IEEE Transactions on Systems, Man and Cybernetics, 18 :pages 183–190, 1988. [205] M. Yoshikawa, T. Amagasa, T. Shimura, and S. Uemura. XRel : A pathbased approach to storage and retrieval of XML documents using relational databases. ACM Transactions on Internet Technology, 1(1) :pages 110–141, 2001. [206] H. Zargayouna. Contexte et sémantique pour une indexation de documents semi-structurés. In Actes de CORIA 04, Toulouse, France, pages 161–178, 2004. Bibliographie 196 [207] G. Zipf. Human Behaviour and the Principle of Least Effort. AddisonWesley, 1949. [208] J. Zobel, A. Moffat, R. Wilkinson, and R. Sacks-Davis. Efficient retrieval of partial documents. Information Processing and Management, 31(3) :pages 361–377, 1995.