Un modèle de recherche d&#39;information agrégée basée sur les réseaux bayésiens dans des documents semi-structurés

Najeh Naffakhi

View metadata, citation and similar papers at core.ac.uk brought to you by CORE provided by Thèses en ligne de l'Université Toulouse III - Paul Sabatier 5)µ4& &OWVFEFMPCUFOUJPOEV %0$503"5%&-6/*7&34*5²%&506-064& %ÏMJWSÏQBS Université Toulouse 3 Paul Sabatier (UT3 Paul Sabatier) Cotutelle internationale avec Université de Tunis - Institut Supérieur de Gestion 1SÏTFOUÏFFUTPVUFOVFQBS M. NAFFAKHI Najeh le lundi 08 juillet 2013 5JUSF Un modèle de recherche d'information agrégée basée sur les réseaux bayésiens dans des documents semi-structurés. ²DPMF EPDUPSBMF et discipline ou spécialité ED MITT : Image, Information, Hypermedia 6OJUÏEFSFDIFSDIF IRIT-UMR 5505 %JSFDUFVS T EFʾÒTF M. BOUGHANEM Mohand et Mme FAIZ Rim Jury : Pr. HACID Mohand-Said (Président), Pr. SAVOY Jacques (Rapporteur), Pr. GARGOURI Faïez (Rapporteur), Pr. BOUGHANEM Mohand (Directeur) et Pr. FAIZ Rim (Co-directrice) Résumé XML est considéré comme un métalangage permettant de décrire n’importe quel domaine de données grâce à son extensibilité. Il va permettre de structurer, poser le vocabulaire et la syntaxe des données qu’il va contenir. L’accès à ce type de document soulève de nouvelles problématiques liées à la co-existence de l’information structurelle et de l’information de contenu. L’objectif des systèmes de Recherche d’Information Structurée (RIS) n’est plus de renvoyer le document répondant à la requête, mais plutôt l’unité documentaire (élément XML, portion du document) répondant au mieux à la requête. Ainsi, au lieu de récupérer une liste d’éléments qui sont susceptibles de répondre à la requête, notre objectif est d’agréger dans un même résultat des éléments pertinents, non-redondants et complémentaires. Les travaux décrits dans cette thèse s’intéressent à l’agrégation des unités documentaires à partir des documents semi-structurés de type XML. Nous proposons de nouvelles approches d’agrégation et d’élagage en utilisant différentes sources d’évidence contenu et structure. Nous proposons un modèle basé sur les réseaux bayésiens. Les relations de dépendances entre requête-termes d’indexation et termes d’indexation-éléments sont quantifiées par des mesures de probabilité. Dans ce modèle, la requête de l’utilisateur déclenche un processus de propagation pour sélectionner les éléments pertinents. Dans notre modèle, nous cherchons à renvoyer à l’utilisateur un agrégat au lieu d’une liste d’éléments. En fait, l’agrégat formulé à partir d’un document est considéré comme étant un ensemble d’éléments ou une unité d’information (portion d’un document) qui répond le mieux à la requête de l’utilisateur. Cet agrégat doit répondre à trois aspects à savoir la pertinence, la non-redondance et la complémentarité pour qu’il soit qualifié comme une réponse à cette requête. L’utilité des agrégats retournés est qu’ils donnent à l’utilisateur un aperçu sur le contenu informationnel de cette requête dans la collection de documents. Une autre source d’évidence que nous avons aussi utilisée est l’information structurelle. À l’aide des techniques d’élagage utilisées dans une première hypothèse, nous appliquons la relation de la non-inclusion entre les éléments d’un même agrégat afin d’éliminer les éléments qui véhiculent la même information. Une deuxième hypothèse basée sur la source d’évidence : l’information de contenu, est appliquée en utilisant la mesure de similarité “cosine” afin d’éliminer les éléments similaires entre les agrégats renvoyés. ii D’une manière générale, nous essayons de renvoyer à l’utilisateur un nombre limité des ensembles d’éléments XML, qui satisfont à la fois aux trois aspects à savoir la pertinence, la non-redondance et la complémentarité. Afin de valider notre modèle, nous l’avons évalué dans le cadre de la campagne d’évaluation INEX 2009 (utilisant plus que 2 666 000 documents XML de l’encyclopédie en ligne Wikipédia). Les expérimentations montrent l’intérêt de cette approche en mettant en évidence l’impact de l’agrégation de tels éléments. Mots-clés : Recherche d’information agrégée, réseaux bayésiens, éléments XML, pertinence, redondance, complémentarité. iii Abstract XML is considered as a meta-language for writing any data domain through its extensibility. It will allow to structure, place the vocabulary and syntax of the data it will contain. Access to such documents raises new issues related to the coexistence of structural information and information content. The goal of Structured Information Retrieval systems is no longer to return the document answering the query, but the documentary unit (XML element, document’s portion) that best suit the application. Thus, instead of retrieving a list of XML elements that are likely to respond to the query, our goal is to aggregate into a result space a set of XML elements that are relevant, nonredundant and complementary. The work described in this thesis are concerned with the aggregation of XML elements. We propose new approaches to aggregating and pruning using different sources of evidence (content and structure). We propose a model based on Bayesian networks. The dependency relationships between query-terms and terms-elements are quantified by probability measures. In this model, the user’s query triggers a propagation process to find XML elements. In our model, we search to return to the user an aggregate instead of a list of XML elements. In fact, the aggregate made from a document is considered an information unit (or a portion of this document) that best meets the user’s query. This aggregate must meet three aspects namely relevance, non-redundancy and complementarity in order to answer the query. The value returned aggregates is that they give the user an overview of the information need in the collection. Another source of evidence we used is the structural information. Using the pruning techniques used in a first hypothesis, we apply the relation of the non-inclusion between elements of the same aggregate to eliminate elements that convey the same information. A second hypothesis based on the source of evidence : information content, is applied using a cosine similarity measure to eliminate similar elements between the returned aggregates. In general, we try to send to the user a limited number of sets of XML elements, which satisfy both the three aspects namely relevance, non-redundancy and complementarity. In summary, we search to reduce the result space so that the user provides the slightest effort to find the needed information. We have validated our apiv proach of aggregated search using INEX 2009 collection. Experiments show the usefulness of this approach by highlighting the impact of the aggregation of such elements. Keywords : Aggregated search, Bayesian networks theory, XML documents, relevance, redundancy, complementarity. v Remerciements Cette thèse est le fruit de quatre années d’efforts incessants, mais aussi d’échanges bénéfiques et de collaborations fructueuses entre l’IRIT et LARODEC. Ce travail n’aurait pas pu aboutir sans le concours précieux et généreux de personnes qui partagent la même passion pour la recherche scientifique. C’est avec un énorme plaisir que je remercie aujourd’hui toutes les personnes qui m’ont soutenu. Tout d’abord, j’adresse mes plus vifs remerciements à Monsieur le Professeur Claude Chrisment qui m’accueillie au sein de son équipe SIG. Je tiens à exprimer ma profonde gratitude à Monsieur Mohand Boughanem, Professeur à l’Université Toulouse 3 Paul Sabatier (UT3 Paul Sabatier), pour m’avoir dirigé tout au long cette thèse. Je le remercie pour m’avoir soutenu et appuyé tout au long de ma thèse. Sa gentillesse, sa patience, son humour, sa disponibilité, ses précieux conseils, son exigence, ses commentaires et ses très nombreuses compétences ont été capitales durant ces années de recherche et m’ont profondément enrichi. Je tiens à remercier vivement ma co-directrice de thèse, Madame Rim Faiz, Professeur à l’université de Carthage, IHEC - Tunis, pour avoir encadré et dirigé mes recherches. Je la remercie pour son souci constant de l’avancement de ma thèse et son suivi continu de mon travail, ses précieux conseils de tout ordre, sa disponibilité et sa confiance. Son expérience et ses grandes compétences ont permis l’accomplissement de ce travail. Par sa bonne humeur et sa collaboration, elle m’a toujours encouragé et aidé à surmonter les difficultés. Qu’elle trouve ici les marques de ma reconnaissance et de mon respect. Je remercie très sincèrement Monsieur Jacques Savoy, Professeur à l’Université Neuchâtel, II - Suisse et Monsieur Faı̈ez Gargouri, Professeur à l’Université de Sfax, ISIM - Tunisie, pour avoir accepté d’être rapporteurs de ce mémoire, et pour l’honneur qu’ils me font en participant au jury. Merci également à Monsieur Mohand-Said Hacid, Professeur à l’Université Claude Bernard Lyon 1, d’avoir accepté de juger ce travail et de faire partie du jury. Je les remercie pour leur évaluation scientifique et leur travail de synthèse. Mes remerciements vont de même à tous les membres de l’équipe SIG à l’IRIT pour leur aide et leur gentillesse. Plus particulièrement, je tiens à vi exprimer ma reconnaissance à Madame Karen Pinel-Sauvagnat, Maı̂tre de conférences à l’UPS et Madame Mouna Torjmen, Maı̂tre assistante à l’université de Sfax, ENIS. Je les remercie pour leurs aides, leurs disponibilités et leurs générosités pour faire avancer mes expérimentations. Je remercie mes amis de l’équipe qui ont contribué à la finalisation de quelques tâches d’évaluation dans ce mémoire. Je remercie Arezki Hammache, Cyril Laitang, Faten Atigui, Firas Damak, Ines Krichen, Lamjed Ben Jabeur, Madalina Mitran et M’Hamed Mataoui pour leur collaboration et leur disponibilité. Je remercie également toutes les personnes qui ont participé de façon volontaire aux expérimentations menées dans cette thèse. Je n’oublie pas non plus les docteurs qui ont été des anciens thésards : Anass El Haddadi, Arlind Kopliku, Dana Al Kukhun, Duy Dinh, Hamdi Chaker, Houssem Jerbi, Ihab Mallak, Mariam Daoud, Malik Muhammad Saad Missen et Ourdia Bouidghaghen et qui m’ont encouragé, leurs conseils m’ont toujours servi. Merci aussi à tous les amis que j’ai connu à Toulouse et avec lesquels j’ai vécu des moments inoubliables. Mes pensées se tournent enfin vers ma famille. Il n’existe pas de mot assez grand et fort pour remercier mes parents, mes sœurs et frères qui n’ont jamais cessé de croire en moi pendant toutes mes années d’études et qui m’ont toujours encouragé à aller de l’avant. Le mot de la fin sera à celle à qui je dédie ce travail. Ma fiancée Abir qui m’a encouragé à y aller de l’avant, çà y est ! C’est fini ! On en parle plus ! C’est la première fois que je sens le goût du succès accompagné par un bonheur complet. vii Table des matières 1 Introduction générale I Recherche d’Information agrégée dans les documents semi-structurés : Aperçu sur les modèles et les cadres d’évaluation 8 1 La Recherche d’Information classique 1.1 Introduction . . . . . . . . . . . . . . . . . . 1.2 Processus de RI classique . . . . . . . . . . . 1.2.1 Notions de base . . . . . . . . . . . . 1.2.2 Mise en œuvre d’un SRI . . . . . . . 1.2.3 Indexation . . . . . . . . . . . . . . . 1.2.4 Appariement . . . . . . . . . . . . . 1.3 Aperçu des principaux modèles de RI . . . . 1.3.1 Modèle booléen . . . . . . . . . . . . 1.3.2 Modèle vectoriel . . . . . . . . . . . . 1.3.3 Modèle probabiliste . . . . . . . . . . 1.4 Évaluation des performances des systèmes de 1.4.1 Collections de test . . . . . . . . . . 1.4.2 Protocole d’évaluation . . . . . . . . 1.4.3 Mesures d’évaluation . . . . . . . . . 1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . RI . . . . . . . . 2 La Recherche d’Information Structurée 2.1 Introduction . . . . . . . . . . . . . . . . . . . 2.2 Enjeux de la RIS . . . . . . . . . . . . . . . . 2.2.1 Granularité de l’information recherchée 2.2.2 Expression du besoin en information . 2.3 Les approches de la RIS . . . . . . . . . . . . 2.3.1 Approches orientées documents . . . . 2.3.2 Approches orientées données . . . . . . 2.4 Indexation de documents semi-structurés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 10 10 11 12 14 15 15 16 16 18 18 19 20 23 . . . . . . . . 25 25 26 26 27 28 28 28 29 2.4.1 2.5 2.6 2.7 2.8 Indexation de l’information textuelle . . . . . . 2.4.1.1 Portée des termes d’indexation . . . . 2.4.1.2 Pondération des termes d’indexation . 2.4.2 Indexation de l’information structurelle . . . . . 2.4.2.1 Indexation basée sur des champs . . . 2.4.2.2 Indexation basée sur des chemins . . . 2.4.2.3 Indexation basée sur des arbres . . . . Interrogation des documents XML . . . . . . . . . . . . 2.5.1 XQuery . . . . . . . . . . . . . . . . . . . . . . 2.5.2 NEXI . . . . . . . . . . . . . . . . . . . . . . . 2.5.3 XFIRM . . . . . . . . . . . . . . . . . . . . . . Modèles de RIS . . . . . . . . . . . . . . . . . . . . . . 2.6.1 Modèle vectoriel étendu . . . . . . . . . . . . . 2.6.2 Modèle probabiliste . . . . . . . . . . . . . . . . 2.6.2.1 Modèle inférentiel . . . . . . . . . . . 2.6.2.2 Modèle de langue . . . . . . . . . . . . 2.6.2.3 Autres approches . . . . . . . . . . . . Évaluation des performances des systèmes de RIS . . . 2.7.1 Collections de test . . . . . . . . . . . . . . . . 2.7.2 Requêtes . . . . . . . . . . . . . . . . . . . . . . 2.7.3 Tâches de recherche . . . . . . . . . . . . . . . . 2.7.4 Mesures d’évaluation . . . . . . . . . . . . . . . 2.7.4.1 Métriques à INEX 2005 . . . . . . . . 2.7.4.2 Métriques proposées depuis INEX 2007 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Vers la Recherche d’Information agrégée dans des documents semi-structurés 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Limites de la recherche ordonnée . . . . . . . . . . . . . . . . . 3.3 Vers la RI agrégée . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Domaines d’application de la RI agrégée . . . . . . . . . 3.3.2.1 RI agrégée relationnelle . . . . . . . . . . . . . 3.3.2.2 Recherche verticale . . . . . . . . . . . . . . . . 3.3.2.3 Autres perspectives de la RI agrégée . . . . . . 3.3.3 Problématique de la RI agrégée . . . . . . . . . . . . . . 3.4 RI agrégée dans les documents semi-structurés . . . . . . . . . . 3.4.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Agrégation des documents XML . . . . . . . . . . . . . . 3.4.3 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . ix 29 30 30 31 31 32 32 33 33 34 35 35 36 40 41 42 44 44 45 45 46 47 47 48 49 51 51 52 53 53 56 56 57 57 59 59 59 60 61 3.5 3.6 Évaluation des systèmes de RI agrégée . . . . . . . . . . . . . . 3.5.1 Limites des modèles d’évaluation orientés laboratoire en RI agrégée . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1.1 Absence de la notion de document en RI agrégée 3.5.1.2 Insuffisance des métriques quantitatives . . . . 3.5.2 Modèles d’évaluation orientés RI agrégée . . . . . . . . . 3.5.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 62 62 63 63 65 65 II Un Modèle de Recherche d’Information agrégée dans des documents XML basé sur les Réseaux Bayésiens 66 4 Un 4.1 4.2 4.3 Modèle de RI Agrégée basé sur les Réseaux Bayésiens Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les Réseaux bayésiens . . . . . . . . . . . . . . . . . . . . . . . Un modèle de RI agrégée basé sur les RB . . . . . . . . . . . . . 4.3.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Architecture générale du modèle . . . . . . . . . . . . . . 4.3.3 Évaluation de la requête par propagation . . . . . . . . . 4.3.4 Agrégation des termes de la requête . . . . . . . . . . . . 4.3.4.1 Agrégations booléennes des termes de la requête 4.3.4.2 Quantification des termes de la requête . . . . . 4.3.5 Pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.6 Redondance . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.7 Complémentarité . . . . . . . . . . . . . . . . . . . . . . 4.4 Illustration du modèle proposé . . . . . . . . . . . . . . . . . . . 4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 67 68 69 69 70 72 73 75 76 77 78 80 81 85 5 Expérimentations 87 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.2 Collection de test . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.2.1 Collection de documents . . . . . . . . . . . . . . . . . . 88 5.2.2 Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.3 Évaluation du modèle selon la stratégie de recherche Focused d’INEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.3.1 Stratégie de recherche Focused d’INEX . . . . . . . . . . 89 5.3.2 Adaptation de notre résultat . . . . . . . . . . . . . . . . 89 5.3.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.4 Évaluation du modèle d’agrégation . . . . . . . . . . . . . . . . 91 x 5.4.1 5.4.2 5.4.3 5.4.4 5.4.5 5.4.6 5.4.7 5.5 Distribution d’éléments . . . . . . . . . . . . Évaluation de la pertinence d’agrégats . . . Impact de la redondance . . . . . . . . . . . Impact de la complémentarité . . . . . . . . Complémentarité vs. Redondance . . . . . . RI agrégée vs. Liste ordonnéee . . . . . . . . Dégré d’accord entre participants et temps chaque requête . . . . . . . . . . . . . . . . 5.4.8 Discussion . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . consacré . . . . . . . . . . . . . . . . . 92 . . 93 . . 95 . . 96 . . 97 . . 98 à . . 99 . . 99 . . 100 Conclusion générale 101 A Les documents semi-structurés A.1 XML : concepts de base . . . . . . . . . . A.1.1 Documents structurés et documents A.1.2 Les fondements de XML . . . . . . A.2 Stockage des documents XML . . . . . . . A.2.1 Modèles de fichiers textes . . . . . A.2.2 Modèles de SGBD relationnels . . . A.2.3 Modèles de SGBD XML natifs . . . 106 106 106 107 109 110 110 110 Bibliographie . . . . . . . . . semi-structurés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 xi Liste des tableaux 1.1 Tableau de contingence de la pertinence . . . . . . . . . . . . . 20 2.1 2.2 2.3 2.4 RI vs. BD Indexation Indexation Indexation . . . . . . . . . . . . 28 31 32 33 4.1 4.2 4.3 4.4 4.5 4.6 Agrégation quantifiée des termes de la requête P (Q|T (Q)) . Probabilités conditionnelles des parents de la requête, T (Q) Ensemble des configurations possibles . . . . . . . . . . . . . Distribution de probabilité P (tk |θi ) . . . . . . . . . . . . . . Distribution de probabilité P (ej |d) . . . . . . . . . . . . . . Calcul du score de chaque configuration possible . . . . . . . . . . . . . . . . . . . 77 83 84 84 85 85 5.1 Comparaison des résultats enregistrés dans le cas de la tâche CO de la collection INEX 2009 selon la stratégie Focused . . . . . . 91 Durée et degré d’accord basés sur des contextes réels (user studies) 99 5.2 . . . . . . . . . . . . basée sur les champs basée sur les chemins basée sur les arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Table des figures 1 Des volumes de données plus importants et plus complexes à traiter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 1.2 Processus en U de la RI . . . . . . . . . . . . . . . . . . . . . . Forme générale de la courbe rappel-précision d’un SRI . . . . . 12 21 2.1 2.2 Exemple d’indexation de l’information structurelle . . . . . . . . Exemple de recherche par structure avec le système XIVIR [18] 31 38 3.1 3.4 Agrégation des résultats renvoyés par Yahoo !7 pour la requête “jaguar” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Agrégation des résultats renvoyés par ASK pour la requête “jaguar” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Résultats retournés par Google News pour la requête “chelsea”, consulté en avril 2009 [121] . . . . . . . . . . . . . . . . . . . . . Exemple d’une structure d’un document XML . . . . . . . . . . 58 60 4.1 4.2 4.3 Architecture simplifiée par document du modèle proposé . . . . Extrait d’un document XML . . . . . . . . . . . . . . . . . . . . Réseau bayésien relatif à la requête et au document XML . . . . 71 81 82 5.1 5.2 Topic 2009114 de la campagne INEX 2009 . . . . . . . . . . . . Impact de l’hypothèse H1 sur le nombre d’éléments par agrégat et par requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution de la pertinence d’agrégats par requête . . . . . . . Pertinence d’agrégats par requête à Pag(1) , Pag(2) , Pag(3) , Pag(4) , Pag(5) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution des jugements de la redondance par requête . . . . Distribution des jugements de la complémentarité par requête . Utilité de la RI Agrégée . . . . . . . . . . . . . . . . . . . . . . 89 3.2 3.3 5.3 5.4 5.5 5.6 5.7 54 55 92 93 94 96 97 98 A.1 Exemple d’un document XML . . . . . . . . . . . . . . . . . . . 107 A.2 Exemple de DTD correspondant au document XML da la figure A.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 A.3 Exemple de DOM correspondant au document XML de la figure A.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 xiv Introduction générale Avec l’usage croissant des smartphones, envoi de messages sur les réseaux sociaux comme Facebook, Twitter, ... chaque individu génère, sans le savoir, une multitude d’informations précieuses. En 2010, les quantités d’informations (données, musiques, vidéos, documents, etc.) créées sont estimées à 1,2 zettaoctets 1 . La croissance de ces quantités d’informations va se poursuivre au rythme effréné de 45% par an jusqu’en 2020, prévoit le cabinet d’études IDC (cf. figure 1). Agrégées, comparées à des relevés historiques et mélangées aux données produites, ces informations constituent un réservoir considérable de connaissances utiles. Figure 1 – Des volumes de données plus importants et plus complexes à traiter Mais pour que l’abondance de l’information ne tue pas l’information, ces données doivent être gérées à l’aide de systèmes automatisés. Notre travail se situe dans le contexte de ces outils automatisés et plus précisément dans le domaine de la RI (Recherche d’Information). 1. Un zetta-octet est 10 à la puissance 21, soit 10 suivi de 20 zéros Introduction générale 2 Contexte du travail La RI est une branche en informatique qui s’intéresse à l’acquisition, l’organisation, le stockage et la recherche des informations. Elle regroupe l’ensemble de procédures et techniques permettant de sélectionner à partir d’une collection de documents, les informations (documents ou portions de documents) pertinentes répondant à des besoins utilisateurs, exprimés à travers des requêtes. La RI remonte à peu de temps après l’arrivée des premiers ordinateurs, et constitue l’une de plus anciennes applications de l’informatique à l’accès aux documents électroniques. À cette époque, en 1955, la plus remarquable réalisation est le WRU 2 Searching Selector, de James W. Perry et al. [167]. C’est une machine qui pouvait déjà résoudre jusqu’à 10 requêtes booléennes en un seul passage sur une bande magnétique. Les premiers systèmes de recherche d’information (SRI) utilisés par des libraires sont fondés sur des modèles de recherche booléens. Le développement du système SMART par Salton [197] à la fin des années 1960, et qui utilise le modèle vectoriel, a conduit à des développements novateurs. Près de soixante ans plus tard, et une vingtaine d’années après la révolution d’Internet et ses milliards de pages accessibles sur la Toile, la RI est plus que jamais d’actualité. En effet, la banalisation de l’informatique grand public et l’accès quasi universel à Internet ont induit une énorme demande des utilisateurs vers une meilleure accessibilité aux seules données qui les intéressent : langue naturelle parlée ou écrite, images, musique, animations [55]. Cette explosion de ressources d’information et leur hétérogénéité a ramené à de nouveaux problèmes à la RI : – Évolution des documents : collection gigantesque, dynamique et changeante, surabondance de l’information, documents structurées ou semistructurés, documents multimédias, données réparties, multilinguisme, etc. – Évolution des besoins : une seule requête puise désormais dans différentes sources simultanément : web, images, cartes, actualités, blogs, livres. L’ambigüité des requêtes des utilisateurs, la diversité de leurs besoins en information et de leurs situations de recherche, etc. Ces problèmes ont remis en cause les modèles classiques de RI. En effet, les méthodes classiques d’indexation et de recherche en RI, davantage destinées aux données textuelles, ne sont pas directement applicables à ces nouveaux documents, en particulier les documents semi-structurés de type XML. En effet, la RI dans les documents semi-structurés se caractérisent par la forme 2. WRU : Western Reserve University, Cleveland (US). Voir en particulier la référence Web http ://www.libsci.sc.edu/Bob/ISP/cwru.htm Introduction générale 3 des requêtes, elles peuvent être sous forme de mots-clés et/ou de contraintes structurelles et/ou de contenu multimédia et la forme de l’unité d’information renvoyée en réponse à ces requêtes. Ces unités sont des parties du document répondant d’une manière exhaustive et spécifique à la requête. Ces unités sont souvent renvoyées sous forme d’une liste ordonnée : chaque unité est censée répondre totalement à la requête. Or un élément peut en effet, répondre souvent partiellement à une requête. Une réponse idéale serait par exemple l’agrégation d’un élément X avec un élément Y unis d’ailleurs d’un même document que de documents différents. Nos travaux se situent précisément à la conjonction de la RIS (Recherche d’Information Structurée) et la RI agrégée. L’objectif des systèmes de RIS n’est plus de renvoyer le document entier répondant à la requête, mais plutôt l’unité d’information (ou élément XML) répondant le mieux à la requête. Pour répondre à ce challenge, plusieurs modèles de recherche ont été proposés dans la littérature (cf. chapitre 2, section 2.6). Quant à la RI agrégée, son objectif cherche à assembler des éléments provenant de sources différentes : images, vidéos (dont YouTube), livres numérisés (Google Livres), cartes (Google Maps), actualités (Google News), etc. Nous nous intéressons dans nos travaux à l’application du paradigme de la RI agrégée en RIS afin de satisfaire l’utilisateur en lui renvoyant les meilleurs ensembles d’unités d’informations répondant à son besoin. Problématique La plupart des approches en RIS [202, 160, 127, 128, 177] considère que les unités d’information retournées sont sous forme d’une liste d’éléments disjoints. Ces éléments peuvent être pertinents, non pertinents ou partiellement pertinents. Le défi à relever est alors d’arriver à sélectionner automatiquement les éléments répondant à la fois de manière exhaustive et spécifique [168] à la requête de l’utilisateur. Nous nous intéressons au problème d’agrégation d’éléments XML. Nous pensons qu’il existe des requêtes pour lesquelles, il est nécessaire d’agréger des éléments d’un même document pour former la réponse la plus complète en terme de pertinence. L’idée derrière la sélection d’un ensemble d’éléments au lieu d’un élément tout seul vient du fait que nous croyons qu’un élément pourrait être partiellement pertinents pour une requête, alors que si nous regroupons ces éléments ensembles, nous pourrons alors produire une meilleure réponse à l’utilisateur. Les travaux décrits dans cette thèse s’intéressent à la sélection de l’agrégat Introduction générale 4 (ensemble d’éléments) qui répond le mieux à une requête composée de simple mots-clés (requêtes de type CO (Content Only)). La question de l’agrégation des éléments XML a reçu peu d’attention dans la littérature. La première tentative proposée permettant de répondre à cette problématique est celle proposée par Bessai et Alimazighi [29]. L’émergence de la RI agrégée a permis non seulement de réviser l’accès à l’information mais aussi de remettre en cause le paradigme d’évaluation classique des systèmes de RIS. Plusieurs questions se posent dans ce contexte, elles portent en général sur la manière de : – agréger les éléments potentiellement pertinents ; – élaguer ceux qui sont redondants ; – regrouper ceux qui se complètent ; – évaluer le résultat d’une recherche ; – prendre en compte l’information structurelle. Dans le cadre de cette thèse, nous souhaitons mieux explorer l’impact de l’agrégation de telles unités en RIS, en étudiant notamment l’intérêt d’utiliser des ensembles d’éléments à la place d’une simple liste et en évaluant nos propositions sur des collections de documents de type XML. Contribution Afin de répondre aux questions listées précédemment, nous avons proposé un mécanisme complet d’agrégation d’éléments XML partant de la sélection jusqu’au renvoi d’un ensemble d’éléments répondant à une requête de type CO. Notre approche se situe à la jonction de la recherche d’éléments les plus pertinents à partir de documents XML et leur agrégation dans un même résultat. Notre objectif est d’assembler automatiquement des éléments pertinents, nonredondants et complémentaires qui répondent ensemble le mieux au besoin de l’utilisateur formulé à travers une liste des mots-clés. Le modèle que nous proposons trouve ses fondements théoriques dans les RB (Réseaux Bayésiens). La structure réseau fournit une manière naturelle de représenter les liens entre les éléments du corpus de documents XML et leurs contenus. Quant à la théorie des probabilités, elle permet d’estimer de manière qualitative et quantitative les différents liens sous-jacents. Elle permet notamment d’exprimer le fait qu’un terme est probablement pertinent vis-à-vis d’un élément et de mesurer à quel point une réponse à la requête contient un ensemble d’éléments pertinents, non-redondants et complémentaires. Introduction générale 5 Plus précisément, au niveau de la pertinence d’éléments dans un résultat de recherche, nous estimons que la pertinence d’un agrégat en fonction d’un terme dépend non seulement de sa pertinence dans chaque élément de l’agrégat en question mais aussi de sa pertinence dans la collection afin d’éviter le problème des fréquences nulles des quelques termes. Au niveau de l’élimination d’éléments redondants, nous avons, tout d’abord, proposé une contrainte de structure qui nous permet d’enlever les éléments qui se chevauchent. Cette contrainte d’inclusion a pour objectif de ramener dans un agrégat, les éléments qui n’ont pas une relation de parenté (ou ancêtredescendant). Nous avons ensuite proposé une deuxième contrainte de contenu qui nous permet d’avoir dans un agrégat uniquement les éléments dissimilaires. Cette contrainte de similarité a pour objectif de renvoyer dans un agrégat les éléments qui ne sont pas semblables. Pour cela, nous avons proposé un algorithme pour fixer le seuil similarité entre les éléments redondants. Nous avons également proposé au niveau de la complémentarité entre les éléments d’un agrégat une fonction de propagation qui favorise les éléments les plus loin de nœud racine. En effet, les éléments loin du nœud racine d’un document paraissent plus porteurs d’informations complémentaires que ceux situés plus haut dans le document. L’objectif ici est de favoriser les éléments qui se complètent mutuellement pour avoir une réponse plus complète. Enfin, toutes nos propositions ont été évaluées sur des collections standards issues de la campagne d’évaluation INEX 3 2009. Nous proposons également d’appliquer notre approche approche en deux modes : – dans le premier mode, l’utilisateur n’intervient pas dans le jugement des éléments pertinents. Ce mode est utilisé pour évaluer les résultats enregistrés dans le cadre de la campagne INEX 2009 selon la stratégie Focused ; – dans le deuxième mode, l’utilisateur intervient dans le jugement de la pertinence d’agrégats. Ce mode est basé sur des contextes réels d’évaluation de la redondance et la complémentarité entre les éléments du top-1 agrégat, et l’utilité de la RI agrégée contre la RIS. Les résultats montrent l’intérêt de l’approche proposée. La combinaison des deux sources d’évidence, la structure et le contenu, permet également d’améliorer les performances de manière significative. 3. INEX : INitiative for the http ://inex.is.informatik.uniduisburg Evaluation of XML Retrieval. Voir Introduction générale 6 Organisation de la thèse Ce mémoire de thèse est constitué de la présente introduction générale, des deux parties principales et d’une conclusion générale. La première partie présente le contexte général dans lequel se situe notre travail, à savoir la recherche d’information structurée et plus précisément la recherche agrégée dans des documents semi-structurés ; la seconde partie détaille notre contribution dans le domaine. La conclusion générale présente les principales conclusions ainsi que les perspectives de nos travaux. L’objectif de la première partie est de porter la lumière sur le domaine de la recherche d’information structurée, puis son application pour embrasser la RI agrégée. La première partie regroupe trois chapitres. Le chapitre 1, “La Recherche d’Information classique”, présente les notions et concepts de base de la RI. Nous présentons brièvement les fondements de la RI classique. Ensuite, nous décrivons les principaux modèles de RI. Enfin, nous présentons les protocoles d’évaluation d’un SRI. Le chapitre 2, “La Recherche d’Information Structurée”, traite les enjeux de la RIS. Nous discutons la différence entre les approches orientées base de données et approches orientées recherche d’information. Nous présentons les différentes approches d’indexation et d’interrogation développées dans ce cadre. Nous décrivons ensuite les différents modèles de recherche proposés dans la littérature. Enfin, nous abordons les protocoles d’évaluation des systèmes de RIS. Le chapitre 3,“Vers la Recherche d’Information agrégée dans des documents semi-structurés”, présente les différentes approches en RI agrégée ainsi que les cadres d’évaluation associés. Nous présentons les limites des paradigmes recherche booléenne et recherche ordonnée. Nous décrivons ensuite les motivations vers la RI agrégée ainsi que ses différents domaines d’applications et les problèmes soulevés. Nous décrivons un état de l’art de la RI structurée et la RI agrégée. Enfin, nous présentons des modèles d’évaluation en RI agrégée, notamment l’évaluation des documents XML. La deuxième partie détaille notre contribution dans le domaine de la RI agrégée dans des documents XML. Elle comprend deux chapitres. Le chapitre 4, “Un Modèle de Recherche d’Information agrégée basé sur les Réseaux Bayésiens”, présente notre approche d’agrégation des éléments XML ainsi qu’une évaluation expérimentale de cette approche. Nous présentons le cadre théorique sur lequel repose notre modèle, à savoir les RB. Nous détaillons ensuite le modèle que nous proposons. Enfin, nous illustrons le Introduction générale 7 modèle proposé à l’aide d’un exemple. Le chapitre 5, “Expérimentations”, présente les résultats des expérimentations que nous avons évalué. Ce chapitre présente une première évaluation expérimentale comparative entre notre résultat et les dix meilleurs résultats enregistrés par les participants à la collection de test INEX 2009 selon la stratégie de recherche Focused. Ce chapitre présente également une deuxième évaluation expérimentale comparative entre la RI agrégée dans des documents XML et la RI structurée. En conclusion, nous dressons le bilan de nos travaux réalisés dans le cadre de la RI agrégée dans des documents XML. Nous introduisons ensuite les perspectives liées à nos travaux réalisés ainsi que les cadres d’évaluation appropriés. Première partie Recherche d’Information agrégée dans les documents semi-structurés : Aperçu sur les modèles et les cadres d’évaluation 8 Chapitre 1 La Recherche d’Information classique 1.1 Introduction La RI (Recherche d’Information) est une discipline de recherche qui intègre des modèles et des techniques dont le but est de faciliter l’accès à l’information pertinente pour un utilisateur ayant un besoin en information. Ce besoin en information est souvent formulé en langage naturel par une requête décrite par un ensemble de mots-clés. L’objectif de tout Système de RI (SRI) est alors de retrouver dans une collection de documents ceux qui sont susceptibles d’être pertinents à une requête. Un SRI peut être défini alors comme l’ensemble des programmes et des opérations permettant la gestion, la représentation, l’interrogation, la recherche, le stockage et la sélection des informations répondants à une requête [196]. L’interrogation de la collection de documents à l’aide d’une requête exige un appariement entre cette dernière et les documents. Ces documents sont souvent considérés comme des documents textuels (plats). Ce chapitre a pour objectif de présenter les concepts de base de la RI classique. La section 1.2 présente tout d’abord les fondements de la RI classique. La section 1.3 décrit trois modèles connu en RI, à savoir le modèle booléen, le modèle vectoriel et le modèle probabiliste. La section 1.4 donne un aperçu sur les collections de test ainsi que les principales mesures d’évaluation utilisées. La dernière section 1.5 conclut le chapitre. Chapitre 1. La Recherche d’Information classique 1.2 10 Processus de RI classique Un SRI (Système de Recherche d’Information) permet de sélectionner à partir d’une collection de documents, des informations pertinentes répondant à des besoins utilisateurs, exprimés sous forme de requêtes. Dans la suite de cette section, nous abordons les concepts de base de la RI ainsi que la description du processus général d’un SRI. 1.2.1 Notions de base Plusieurs notions clés s’articulent autour de la définition d’un SRI : – Document : on appelle document toute unité d’information qui peut constituer une réponse à un besoin en information d’un utilisateur. Un document peut être un texte, une portion de texte, une image, une bande vidéo, etc. L’ensemble de documents exploitables et accessibles s’appelle collection de documents (ou fonds documentaire, corpus). – Requête : c’est une formulation du besoin d’information d’un utilisateur. Elle peut être vue comme une description sommaire des documents ciblés par la recherche. Divers types de langage d’interrogation sont proposés dans la littérature. Une requête est un ensemble de mots-clés, mais elle peut être exprimée en langage naturel, booléen ou graphique. – Pertinence : une définition simple de cette notion fondamentale est donnée dans [38] : “La pertinence est le degré de correspondance entre un document et une requête, ou encore une mesure d’informativité du document à la requête”. On trouve également d’autres définitions de la pertinence dans [194] telle que : “La pertinence est un degré de relation entre le document et la requête”. La pertinence est indispensable pour l’évaluation des SRI. Cependant, de nombreuses études menées [26, 34] autour de la notion de pertinence, montrent que la pertinence n’est pas une relation isolée entre le document et la requête et qu’elle est définie par un ensemble de critères et de préférences qui varient selon les utilisateurs. Ces critères sont des facteurs qui déterminent la pertinence accordée à l’information retrouvée par l’utilisateur dans un contexte de recherche précis. Les facteurs qui affectent les jugements de pertinence font l’objet de recherche depuis déjà des décennies [66, 34, 26]. Nous citons les critères définis par [26] et regroupés dans sept catégories : (1) le contenu informationnel des documents ; (2) le niveau d’expertise et de connaissances de l’utilisateur ; (3) les croyances et préférences de l’utilisateur ; (4) autres informations liées à l’environnement ; (5) les sources des documents ; (6) les documents comme des entités physiques ; et (7) la situation de l’utilisateur. Chapitre 1. La Recherche d’Information classique 11 Compte tenu de ces facteurs, il existe plusieurs types de “pertinence” possibles entre un document et un besoin, nous en citons les quatre les plus importantes [211] : 1. pertinence algorithmique (ou système) : c’est une mesure algorithmique basée sur le calcul de la pertinence de l’information par rapport à la requête en utilisant des caractéristiques des requêtes, d’une part, et des documents, d’autre part. Le but de tout SRI est de rapprocher la pertinence algorithmique calculée par le système aux jugements de pertinence donnés par des utilisateurs. C’est le seul type de pertinence qui est indépendant du contexte. 2. pertinence thématique : cette pertinence est définie par le degré de couverture de l’information retrouvée au thème évoqué par le sujet de la requête. C’est la mesure de pertinence utilisée par les assesseurs dans les campagnes d’évaluation TREC 1 [225]. 3. pertinence coginitive : c’est la pertinence liée au thème de la requête, selon la perception ou les connaissances de l’utilisateur sur ce même thème ; cette pertinence est caractérisée par une dynamique qui permet d’améliorer la connaissance de l’utilisateur via l’information renvoyée au cours de sa recherche. 4. pertinence situationnelle (ou contextuelle) : cette pertinence est définie par l’utilité de l’information jugée relativement au contexte ou à la situation de l’utilisateur. C’est une pertinence dynamique. Il est à noter qu’un SRI idéal doit supporter un modèle de recherche d’information qui rapproche la pertinence algorithmique calculée par le système aux jugements de pertinence donnés par des utilisateurs. 1.2.2 Mise en œuvre d’un SRI La mise en œuvre d’un SRI fait appel à plusieurs étapes représentées par ce que l’on nomme communément, le processus en U illustré par la figure 1.1. Ce processus consiste en deux principales phases : l’indexation et l’appariement. – Indexation : cette phase consiste à extraire et représenter le contenu des documents à l’aide d’un ensemble de termes significatifs, auxquels sont associés des poids pour différencier leur degré de représentativité, sous forme d’index. Cette structure d’index permet de retrouver rapidement les documents contenant les termes (mots-clés) de la requête. – Appariement : cette phase consiste à mesurer la pertinence de chaque document vis-à-vis de la requête utilisateur selon une mesure de correspondance du modèle de RI, et à renvoyer à l’utilisateur une liste ordonnée des résultats. 1. TREC : Text REtrieval Conference. Voir http ://trec.nist.gov/ Chapitre 1. La Recherche d’Information classique 12 Figure 1.1 – Processus en U de la RI 1.2.3 Indexation L’indexation couvre un ensemble de techniques visant à représenter le contenu des documents (ou requêtes) par une liste de termes significatifs, que l’on nomme : substituts ou descripteurs. Ces descripteurs forment le langage d’indexation. Dès lors, l’indexation consiste à détecter les termes les plus représentatifs du contenu du document. En RI, différents modes d’indexation existent : l’indexation manuelle, automatique ou semi-automatique. – Indexation manuelle : chaque document est analysé par un spécialiste du domaine (ou documentaliste) qui choisit les termes qu’il juge pertinents dans la description du contenu sémantique du document. Ce type d’indexation est subjective, d’une part, car elle dépend des connaissances de l’opérateur et d’autre part, inapplicable pour une collection volumineuse. – Indexation automatique : cette indexation repose sur des algorithmes associant automatiquement des descripteurs à des parties de document. Elle peut se faire selon une méthode linguistique ou statistique. – Indexation semi-automatique : c’est une combinaison des deux méthodes précédentes : un premier processus automatique permet d’extraire les termes du document. Cependant, le choix final des descripteurs est laissé au documentaliste, qui utilise un vocabulaire contrôlé sous forme de thésaurus 2 ou de base terminologique. D’une façon générale, un processus d’indexation automatique comprend un ensemble de traitements automatiques sur les documents : extraction de mots simples, élimination de mots vides, normalisation et pondération des mots. 2. Un thésaurus est une liste organisée de descripteurs (mots-clés) obéissant à des règles terminologiques propres et reliés entre eux par des relations sémantiques. Chapitre 1. La Recherche d’Information classique 13 1. Extraction de mots simples : Cette étape consiste à extraire du document un ensemble de termes ou de mots simples par une analyse lexicale permettant d’identifier les termes en reconnaissant les espaces de séparation des mots, des caractères spéciaux, des chiffres, les ponctuations, etc. 2. Élimination de mots vides : La liste de mots simples extraite précédemment peut contenir de mots non significatifs, appelés “mots vides”, tels que : les pronoms personnels, les prépositions ou même des mots athématiques qui peuvent se retrouver dans n’importe quel document (par exemple des mots comme contenir, appartenir, etc). L’élimination de ces mots peut se faire en utilisant une liste dressée de mots vides (également appelée anti-dictionnaire ou stoplist), ou en écartant les mots dépassant un certain nombre d’occurrences dans la collection. Bien que ce traitement présente l’avantage de diminuer le nombre de termes d’indexation, il peut cependant induire des effets de silence. Par exemple, en éliminant le mot “a” de “vitamine a”. 3. Normalisation (lemmatisation ou radicalisation) : Cette étape consiste à réduire les mots à leur forme canonique, à leur racine : toutes les formes d’un verbe, par exemple, sont regroupées à l’infinitif, tous les mots au pluriel sont ramenés au singulier, etc. On distingue quatre principales méthodes de normalisation : – par analyse grammaticale en utilisant un dictionnaire (ex : Tree-tagger 3 ) ; – par utilisation de règles de transformation de type condition action surtout pour l’anglais (ex : l’algorithme de Porter [179]) ; – par troncature des suffixes à X caractères (ex : la troncature à 7 caractères) ; – par la méthode des n-grammes utilisée pour le chinois et très intéressante pour la radicalisation. Il reste cependant à mentionner que ces traitements peuvent induire certains inconvénients tels que la production de normalisation agressive, par exemple, les mots university/universe, organization/organ, policy/police sont normalisés par l’algorithme de Porter, ou l’oubli de quelques normalisations intéressantes, par exemple : matrices/matrix, Europe/European, machine/machinery ne sont pas normalisés. Il existe des techniques d’analyse de corpus pour réduire ces effets négatifs [233, 43]. 4. Pondération des termes : Cette étape est généralement basée sur des formules de pondération qui affecte à chaque terme un degré d’importance (une valeur de discrimination) dans le document où il apparaı̂t. Il existe un grand nombre de formules de pondération qui exploitent deux facteurs : fréquence de terme (tf ) et fréquence inverse de document (idf ) [193], définies dans ce qui suit : 3. http ://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ Chapitre 1. La Recherche d’Information classique 14 – Fréquence de terme (tf) : La fréquence du terme (term frequency) est le nombre d’occurrences de ce terme dans le document considéré. L’idée sous-jacente est que plus un terme est fréquent dans ce document, plus il est important dans la description de celui-ci. Soient le document dj et le terme ti , la fréquence tfij du terme dans le document est souvent utilisée directement ou exprimée selon l’une des déclinaisons suivantes [146] : #tdij tfij = 1 + log(#tdij ), tfij = P k #tdkj (1.1) où #tdij est le nombre d’occurrences du terme ti dans dj . Le dénominateur est le nombre d’occurrences de tous les termes dans le document dj . La dernière déclinaison permet de normaliser la fréquence du terme pour éviter les biais liés à la longueur du document. – Fréquence inverse de document (idf) : La fréquence inverse de document (inverse document frequency) est une mesure de l’importance du terme dans l’ensemble du corpus. Elle consiste à calculer le logarithme de l’inverse de la proportion de documents du corpus qui contiennent le terme. Cette mesure est exprimée selon l’une des déclinaisons suivantes [146] : idfi = log |N − n| |N | , idfi = log n n (1.2) où n est la proportion des documents contenant le terme et N le nombre total de documents dans collection. La fonction de pondération de la forme tf − idf consiste à multiplier les deux mesures tf et idf comme suit : tf ∗ idf = log(1 + tf ) ∗ log 1.2.4 |N | n (1.3) Appariement La phase d’appariement du système implique un processus d’interaction de l’utilisateur avec le SRI illustré dans la figure 1.1. Cette interaction implique le scénario suivant : l’utilisateur exprime son besoin en information sous la forme d’une requête. Le système interprète la requête et crée son index qui sera compatible avec le modèle d’index des documents. Ensuite le système évalue la pertinence des documents par rapport à cette requête en utilisant une fonction de correspondance. Cette fonction exploite l’index généré dans la phase d’indexation dans le but de calculer un score de similarité (en anglais Relevance Status Value), notée RSV (q, d), entre la requête indexée q et les descripteurs Chapitre 1. La Recherche d’Information classique 15 du document d. Différents modèles de RI ont été proposés dans la littérature et tentent de formaliser la pertinence en partant des modèles naı̈fs basés sur l’appariement exact vers des modèles plus élaborés basés sur l’appariement rapproché [46]. Le résultat est une liste de documents triée par ordre de valeur de correspondance décroissante, et présenté à l’utilisateur. Celui ci apporte son jugement sur les documents renvoyés par le système selon des critères liés à son besoin en information et au contexte dans lequel la recherche est effectuée. Dans la suite, nous présentons les principaux modèles développés en RI. 1.3 Aperçu des principaux modèles de RI Un modèle de RI se définit par une formalisation du processus de RI et une modélisation de la mesure de pertinence. Selon Baeza-Yates et Ribeiro-Neto [23], un modèle de RI est défini formellement par par un quadruplet (D, Q, F , R(qi , dj )), où : – D est l’ensemble de documents ; – Q est l’ensemble de requêtes ; – F est le schéma du modèle théorique de représentation des documents et requêtes ; – R(qi , dj ) est la fonction de pertinence du document dj à la requête qi . Nous présentons dans la suite les principaux modèles de RI : le modèle booléen, le modèle vectoriel et le modèle probabiliste. 1.3.1 Modèle booléen Le modèle booléen [190] est le premier modèle de RI, et est basé sur la théorie des ensembles. Dans ce modèle, un document est représenté par une liste de termes d’indexation. Ces termes sont reliés par des connecteurs logiques ET, OU et NON. Un exemple de représentation d’un document est comme suit : dj = t1 ∧ t2 ∧ t3 ... ∧ tn . Une requête est une expression booléenne dont les termes sont reliés par des opérateurs logiques (OR, AND, AND NOT) permettant d’effectuer des opérations d’union, d’intersection et de différence entre les ensembles de résultats associés à chaque terme. Un exemple de représentation d’une requête est comme suit : qi = (t1 ∧ t2 ) ∨ (t3 ∧ t4 ). La fonction de correspondance est basée sur l’hypothèse de présence/absence Chapitre 1. La Recherche d’Information classique 16 des termes de la requête dans le document et vérifie si l’index de chaque document dj implique l’expression logique de la requête qi . Le résultat de cette fonction est donc binaire. Cette fonction est décrite comme suit : RSV (qi , dj ) = {1, 0}. Cette décision binaire sur laquelle est basée la sélection d’un document ne permet pas d’ordonner les documents renvoyés à l’utilisateur selon un degré de pertinence parce que les termes ne sont pas pondérés. 1.3.2 Modèle vectoriel Initialement proposé par Salton et implémenté dans le système SMART [191], dans ce modèle la pertinence d’un document vis-à-vis d’une requête est définie par des mesures de distance dans un espace vectoriel. Le modèle vectoriel préconise la représentation des requêtes utilisateurs et des documents sous forme de vecteurs, dans l’espace engendré (à n dimensions) par tous les termes d’indexation [191]. Les dimensions sont constituées par les termes du vocabulaire d’indexation. Chaque document est représenté par le vecteur d~j =(w1,j , w2,j , w3,j , ..., wn,j ). Chaque requête est également représentée par un vecteur q~i = (w1,i , w2,i , w3,i , ..., wn,i ). Avec wk,j (resp. wk,i ) est le poids du terme tk dans le document dj (resp. dans la requête qi ). La fonction de correspondance mesure la similarité entre le vecteur requête et les vecteurs documents. Une mesure classique utilisée dans le modèle vectoriel est le cosinus de l’angle formé par les deux vecteurs : RSV (qi , dj ) = cos(~ qi , d~j ) (1.4) Plus deux vecteurs sont similaires, plus l’angle formé est petit, et plus le cosinus de cet angle est grand. À l’inverse du modèle booléen, la fonction de correspondance évalue une correspondance partielle entre un document et une requête, ce qui permet de retrouver des documents qui ne satisfont la requête qu’approximativement. Les résultats peuvent donc être ordonnés par ordre de pertinence décroissante. Le modèle vectoriel suppose l’indépendance entre termes. En effet, la représentation vectorielle considère chaque terme séparément alors qu’on peut avoir des termes qui sont en relation sémantique entre eux. 1.3.3 Modèle probabiliste Le modèle probabiliste a été développé dans les années 70, et sa fonction de pertinence se base sur le calcul de la probabilité de pertinence d’un document vis-à-vis d’une requête [183, 147]. Le principe de base consiste à retrouver des documents qui ont en même temps une forte probabilité d’être pertinents, et Chapitre 1. La Recherche d’Information classique 17 une faible probabilité d’être non pertinents. Étant donné une requête utilisateur qi et un document dj , il s’agit de calculer la probabilité de pertinence du document pour cette requête. Deux événements se présentent : R, dj est pertinent pour qi et R, dj n’est pas pertinent pour qi . Le score d’appariement entre le document D et la requête Q, noté RSV (Q, D), revient à calculer le rapport entre la probabilité de pertinence d’un document et sa probabilité de non pertinence. Ce score est donné par : RSV (qi , dj ) = P (R|dj ) P (R|dj ) (1.5) En utilisant la règle de Bayes après simplification, cela vient à ordonner les documents selon : P (dj |R) RSV (qi , dj ) = (1.6) P (dj |R) Pour estimer les probabilités P (dj |R) et P (dj |R), un document sera décomposé en un ensemble d’événements dj (t1 , t2 , ..., tN ). Chaque événement dénotera la présence ou l’absence d’un terme ti dans un document dj . En supposant l’indépendance des termes des documents, la formule précédente devient : RSV (qi , dj ) = N X i=1 log P (wij |R) P (wij |R) (1.7) où wij indique la présence ou l’absence terme ti dans le document dj . Après transformation, l’équation 1.7 s’écrit : RSV (qi , dj ) = N X i=1,ti ∈q log P (wij = 1|R)P (wij = 0|R) P (wij = 1|R)P (wij = 0|R) (1.8) Un des inconvénients de ce modèle réside dans la représentation du document. En effet, ce modèle ne prend pas en compte les fréquences des termes dans le document. Pour pallier cet inconvénient, Robertson et al. [185, 227] a proposé le modèle 2-Poisson basé notamment sur la notion de termes élites qui intègre différents aspects relatifs à la fréquence locale des termes, leur rareté et la longueur des documents [183]. Ceci a donné lieu à la formule BM25 : wij = log( Avec – – – N − df + 0.5 (k1 + 1) ∗ tf )× dl df + 0.5 k1 ∗ ((1 − b) + b ∗ avgdl ) + tf (1.9) : dl est la longueur du document dj ; avgdl est la longueur moyenne des documents dans la collection ; k1 et b sont des paramètres qui dépendent de la collection ainsi que du type de la requête. Chapitre 1. La Recherche d’Information classique 18 Les expérimentations ont montré que les paramètres k1 = 1, 2 et b = 0, 75 ont donné les meilleurs résultats, en termes de performances, sur les collections TREC considérées. Les modèles probabilistes comprennent également le modèle bayésien ou d’inférence [220] et le modèle de langue [178, 126]. 1.4 Évaluation des performances des systèmes de RI La validation expérimentale des SRI consiste à mesurer ses performances par comparaison de ses résultats retournées à l’aide des métriques standards à l’aide des collections de test contrôlées. Le premier paradigme qui constitue le cadre de référence dans lequel s’inscrivent les expérimentations et la validation des SRI, se base sur une approche de type laboratoire (laboratory-based model), appelé paradigme de Cranfield, initié par Cleverdon [60] dans le cadre du projet Cranfield Project II. Dans cette approche, on parle d’évaluation qualitative, car l’idée de base est de comparer, pour une requête donnée, les documents retrouvés par le système dans la collection de test, aux réponses idéales établies pour cette requête dans la collection de test, réponses qui ont été identifiées manuellement par des documentalistes (experts du domaine). Il s’agit donc bien de comparer une notion de pertinence système à une notion de pertinence utilisateur. Cette approche est souvent adoptée dans les campagnes d’évaluation des SRI tells que TREC, INEX, CLEF 4 , etc. 1.4.1 Collections de test Généralement, chaque collection de test est composée : d’une collection de documents, aussi appelée corpus de documents, d’une liste de requêtes et des jugements de pertinence des documents par rapport à ces requêtes. – Collection de documents : c’est un corpus de documents sur lesquels les SRI posent des requêtes et récupèrent les documents pertinents. Le choix d’une collection dépend de la tâche de recherche que l’on veut évaluer, pour garantir une représentativité par rapport à la tâche. De même que la spécification du volume des collections de documents utilisées dans l’évaluation est relativement dépendante de la tâche de recherche impliquée dans le SRI à évaluer, pour garantir une diversité des 4. CLEF : Cross Language Evaluation Forum. Voir http ://clef.iei.pi.cnr.it/ Chapitre 1. La Recherche d’Information classique 19 sujets et du vocabulaire. Les premiers corpus de test développés au début des années 1960 renferment quelques milliers de documents. Les corpus de test plus récents (par exemple, ceux d’INEX et de TREC) contiennent en général des millions de documents. Le travail concernant la sélection des documents des corpus est d’ailleurs très déterminant et fait l’objet de nombreuses recherches [86]. – Requêtes : ce sont souvent présentées sous forme de “topics” qui expriment un besoin d’information de l’utilisateur. Pour exploiter au mieux les caractéristiques de la collection de documents et avoir une évaluation assez objective, il est important de créer un ensemble de requêtes qui correspondent aux thèmes abordés dans les documents. Les requêtes doivent d’abord être extraites de log et ensuite, si ce n’est pas possible de les créer artificiellement par les assesseurs. – Jugements de pertinence : pour la construction d’un corpus de test, les jugements de pertinence constituent la tâche la plus ardue. Les jugements de pertinence indiquent pour chaque document du corpus s’il est pertinent, et parfois même à quel degré il l’est, pour chaque requête. Pour établir ces listes de documents pour toutes les requêtes, les utilisateurs doivent examiner chaque document de la base de document, et juger s’il est pertinent par rapport à une requête donnée. Dans les programmes d’évaluation tels que TREC, les collections de documents contiennent plus d’un million de documents, ce qui rend impossible le jugement exhaustif de pertinence. Ainsi, dans le cas de grandes collections, les jugements de pertinence sont construits selon la technique de pooling, effectuée à partir des 100 premiers documents retrouvés par les systèmes participants. Les campagnes d’évaluation ont apporté plusieurs évolutions importantes. La première évolution réside dans la taille des collections, qui se veut la plus réaliste possible par rapport aux contextes réels de la RI ; on vise ainsi des collections de plusieurs centaines de milliers à plusieurs millions de documents, construites de manière collaborative par les participants aux campagnes. La seconde évolution est l’organisation de programmes d’expérimentation : les collections sont établies en vue d’expérimentations particulières (par exemple la RI multilingue, le Web, Question-Réponse, etc.). La dernière concerne dans l’aspect compétitif des expérimentations à INEX : les participants testent leur système au cours des mêmes campagnes, et les résultats comparatifs sont présentés dans des conférences spécifiques. Ainsi se perpétue, et même se renforce, la tradition d’expérimentation de la RI [55]. 1.4.2 Protocole d’évaluation Le protocole d’évaluation dans le modèle d’évaluation orienté-laboratoire définit une méthodologie rigoureuse et efficace pour comparer plusieurs SRI, Chapitre 1. La Recherche d’Information classique 20 stratégies de recherche, ou algorithmes sur une même base, en spécifiant trois composants non indépendants qui sont : le nombre de topics utilisés, les mesures d’évaluation utilisées et la différence de performance requise pour considérer qu’une stratégie de recherche est meilleure qu’une autre [44]. L’évaluation de l’efficacité de chaque stratégie de recherche consiste à évaluer la liste des résultats obtenus pour chaque requête de test. Cette évaluation est à la base de la correspondance entre la pertinence algorithmique calculée par le système et la pertinence donnée par les assesseurs. L’efficacité globale d’une stratégie de recherche est calculée comme étant la moyenne des précisions calculées selon une mesure donnée sur l’ensemble des topics dans la collection de test. Les protocoles d’évaluation se basent sur des mesures que nous présentons les principales dans le section suivante. 1.4.3 Mesures d’évaluation Rappel et précision : Le rappel mesure la capacité d’un SRI à retrouver tous les documents pertinents à une requête et la précision mesure sa capacité à ne retrouver que ces documents pertinents. Généralement les SRI retournent les documents classés par ordre décroissant de leur pertinence. Plusieurs travaux se sont penchés sur cette notion de pertinence [119, 40], affirmant la subjectivité, la gradualité de cette notion. L’efficacité d’un système mesure sa capacité à satisfaire l’utilisateur en terme de pertinence des documents restitués vis-à-vis d’une requête. Le tableau de contingence 1.1 permet de mesurer cette pertinence en fonction des documents restitués et non restitués. Restitués Non restitués Pertinent Non pertinent A∩B A ∩ B̄ A Ā ∩ B Ā ∩ B̄ Ā B B̄ N Table 1.1 – Tableau de contingence de la pertinence Avec – – – – : A est l’ensemble des documents pertinents pour une requête Q ; B est l’ensemble des documents restitués par le système ; N est le nombre de documents de la collection ; |.| désigne la cardinalité. Chapitre 1. La Recherche d’Information classique 21 Selon le tableau de contingence 1.1, nous pouvons définir les mesures de rappel (recall) et de précision (precision) comme suit : rappel = |A ∩ B| A précision = |A ∩ B| B (1.10) (1.11) Une façon d’évaluer un SRI est de tracer une courbe de précision-rappel. Ainsi, si le résultat de recherche dépend d’un certain paramètre, par exemple le rang d’un document restitué, alors pour chaque point de rappel, les valeurs de précision peuvent être calculées. Un SRI est parfait si et seulement si les documents retrouvés sont tous pertinents, avec une précision et un rappel de 100%. En pratique, ces deux taux varient en sens inverse, la précision diminue au fur et à mesure que le rappel augmente. La figure 1.2 illustre la forme générale de la courbe rappel-précision d’un SRI. Figure 1.2 – Forme générale de la courbe rappel-précision d’un SRI Comparaison entre SRI : pour comparer deux systèmes de RI, il faut les tester avec la même collection de test (ou plusieurs collection de test). Un système dont la courbe de rappel/précision est au-dessus de celle d’un autre est considéré comme un meilleur système. D’autres mesures ont été proposées telles que : – Precision@X (P@X) : cette précision mesure la proportion des documents pertinents retrouvés parmi les premiers X documents retournés par le système. Elle permet en particulier de s’intéresser à la haute précision, lorsque peu de documents sont restitués. Chapitre 1. La Recherche d’Information classique 22 – R-precision (RPrec) : précision après que R documents ont été retrouvés, où R est le nombre de documents pertinents pour la requête considérée. Cette mesure a été introduite dans TREC2 pour limiter l’influence du nombre de documents pertinents : ce nombre varie en fonction des requêtes. – Précision moyenne interpolée (MAiP) : cette précision est calculée à différents niveaux de rappel (0%, 10%, 20%, ...,100%). Pour chaque niveau de rappel, les valeurs calculées sont moyennées sur tout l’ensemble des requêtes. La MAiP est calculée comme suit : M AiP = P AiPq |Q| q∈Q (1.12) Avec : – AiPq est la précision interpolée moyenne d’une requête q ; – Q est l’ensemble des requêtes ; – |Q| est le nombre de requêtes. Dans [154], S. Mizzaro a fait une étude complète des différentes mesures d’évaluation utilisées en RI. Ceci a permis de dégager d’autres mesures de performance relativement importantes telles que : – F-mesure (ou F-score) : la moyenne harmonique F-mesure qui consiste à combiner le rappel et la précision en un nombre compris entre 0 et 1 [182]. Cette moyenne harmonique a des valeurs élevées uniquement lorsque les taux de rappel et de précision sont élevés. F = 2 ∗ précision ∗ rappel précision + rappel (1.13) Dans le cas de collections volumineuses, la construction de jugements de pertinence complets est difficile ou même impossible puisque elle est très coûteuse en terme de temps. Dans la mesure MAP, les documents non jugés sont considérés comme des documents non pertinents. Afin de pallier cet inconvénient, Buckley et Voorhees ont proposé la mesure BPREF [44] (Binary PREFerence-based measure). – BPREF : cette mesure se focalise sur les documents réellement jugés et elle prend en compte les documents pertinents et les documents non pertinents afin de réduire l’effet du jugement de pertinence qui n’est réalisé que sur certains documents. La mesure BPREF est donnée par la formule suivante : |n| 1X 1− (1.14) BP REF = R r R Avec : – R le nombre de documents pertinents pour la requête ; – r est un document pertinent ; – n est le nombre de documents non pertinents classés avant le document pertinent r. Chapitre 1. La Recherche d’Information classique 23 – Mean Reciprocal Rank (MRR) : c’est une autre mesure, proposée par Voorhees [224], qui permet d’évaluer le nombre de documents qu’il faut considérer avant de retrouver le premier document pertinent. Elle est égale à la moyenne calculée sur l’ensemble des requêtes, du rang du premier document pertinent. M RR = Q 1 X 1 |Q| i=1 ranki (1.15) MRR est nulle pour une requête si aucun document pertinent n’est retourné par le système. Cependant, MRR donne un score élevé pour un système qui retourne des documents pertinents en haut de la liste présentée à l’utilisateur. Cette mesure est couramment utilisée dans les systèmes Question-Réponse où l’utilisateur s’intéresse à recevoir la bonne réponse en premier rang. 1.5 Conclusion Nous avons présenté dans cette première partie le processus de la RI dans le cadre de la RI classique, les concepts de base ainsi que le fonctionnement global de tout SRI. Nous avons aussi décrit les modèles les plus connus de la RI ainsi que les techniques développées pour l’évaluation de tout SRI. Ce type de SRI fonctionne sur des documents textuels plats. L’avènement des documents structurés, de type XML par exemple, a apporté une nouvelle problématique liée en particulier à la manière d’exploiter non seulement le contenu textuel de ces documents mais aussi l’information liée à la structure. Ceci amène l’utilisateur à affiner sa requête en intégrant des contraintes sur la structure de l’information recherchée. Nous présentons dans le chapitre suivant (2) les modèles traitant conjointement le contenu et la structure des documents structurés. Chapitre 1. La Recherche d’Information classique 24 Chapitre 2 La Recherche d’Information Structurée 2.1 Introduction Le développement du document électronique et du Web ont conduit à l’émergence des formats de données structurées, tels que SGML 1 , HTML 2 et XML 3 , permettant de représenter les documents sous une forme plus riche que le simple contenu [226]. À l’aide de ces formats, l’information textuelle et l’information structurelle sont représentées conjointement dans un document. Des modèles de RI intégrant cette relation formelle entre structure et contenu sémantique d’un document ont été développés. En particulier, les documents semi-structurés ont donné naissance à une nouvelle thématique de la RI : la RIS (Recherche d’Information Structurée). Bien qu’elle présente de nouvelles problématiques spécifiques, la RIS s’appui fortement sur des approches déjà développées en RI. Dans le contexte de la RI dans les documents semi-structurés, appelée également RIS, la question majeure soulevée par ce type de document concerne la manière de prendre en compte efficacement de l’information du contenu et de structure pour mieux répondre aux besoins de l’utilisateur. Ces besoins peuvent être formulés par le biais de requêtes formées que de mots clé ou par des requêtes comportant des mots-clés et des contraintes structurelles (des balises). Les systèmes d’accès aux documents structurés sont confrontés à des nouveaux problèmes dans toutes les étapes du processus de recherche à savoir : 1. SGML : Standard Generalized Markup Language 2. HTML : HyperText Markup Language 3. XML : eXtensible Markup Language Chapitre 2. La Recherche d’Information Structurée 26 – Indexation : Faut-il adapter l’indexation classique afin de prendre en considération la structure des documents ? Comment indexer le contenu par rapport au structure ? Comment pondérer les termes en tenant compte de la structure ? – Appariement : Quelle unité d’information faut-il sélectionner ? En effet, les techniques classiques de RI (plein texte) considèrent souvent le document entier comme un granule d’information indivisible, or dans le cas des documents XML tout élément (sous-arbre d’un document XML) peut être une réponse potentielle à la requête de l’utilisateur. Le défi à relever est alors d’arriver à identifier automatiquement l’unité d’information, en l’occurrence les parties du document XML, répondant à la fois de manière exhaustive et spécifique [168] à la requête de l’utilisateur. Ceci a conduit à l’élaboration de langages de requêtes spécifiques et à de nouveaux modèles de recherche. Ce chapitre traite les enjeux de la RIS. Nous abordons dans la section 2.2 les différents problèmes soulevés par la RI. Dans la section 2.3, nous discutons la différence entre les approches orientées base de données et approches orientées recherche d’information. Nous présentons respectivement dans les sections 2.4 et 2.5 les différentes approches d’indexation et d’interrogation développées dans ce cadre. Nous décrivons ensuite les différents modèles de recherche proposés dans la littérature dans la section 2.6. Ces modèles de recherche visent à répondre à des requêtes basées sur le contenu seul ou à des requêtes basées sur le contenu et la structure. Dans la section 2.7, nous mettons l’accent sur les techniques d’évaluation des systèmes de RIS où nous abordons la campagne d’évaluation INEX ainsi que les différentes mesures dédiées à l’évaluation des approches et des systèmes dans le cadre de la RIS. La section 2.8 conclut le chapitre. 2.2 Enjeux de la RIS Avant d’aborder les approches de la RIS, nous présentons brièvement les enjeux de la RIS en termes unité d’information retournée et son expression de besoin. 2.2.1 Granularité de l’information recherchée En RI classique, les SRI renvoient des documents entiers comme réponse à une requête utilisateur. Cette granularité “document” ne satisfait pas toujours l’utilisateur vu que ce granule peut contenir du bruit, ou bien l’information Chapitre 2. La Recherche d’Information Structurée 27 pertinente peut être dispersée sur tout le document. Il serait plus intéressant de ne retourner que la partie du document qui semble pertinente vis-à-vis de la requête. Ces hypothèses ont été largement étudiées dans la recherche de passages en RI classique (passage retrieval) [192]. Les documents semi-structurés contiennent outre le contenu textuel, de l’information structurelle permettant ainsi de traiter l’information avec une granularité plus fine. Le but de la RIS est alors d’identifier de manière automatique les unités de documents les plus pertinentes. Ceci a nous amène à affiner le concept de granule renvoyé à l’utilisateur. Une granule est une unité d’information auto-explicatif, c’est-à-dire l’information contenue ne dépend pas d’une autre unité d’information pour être comprise [97]. Généralement, l’objectif d’un SRI, dans ce contexte, est de renvoyer des unités d’information auto-explicatives à l’utilisateur, et non des points d’entrée dans les documents. Dans le contexte de la RIS dans des documents XML, l’unité d’information correspond à un nœud de l’arbre du document (ou un sous-arbre) appelé aussi élément 4 . La pertinence d’un élément, réponse à une requête, peut être évalué selon deux dimensions : exhaustivité et spécificité [88]. On dit qu’une unité d’information est exhaustive à une requête si elle contient toutes les informations requises par la requête et qu’elle est spécifique si tout son contenu concerne la requête [81]. De ce fait, un système de RIS devrait retrouver l’unité d’information la plus exhaustive et la plus spécifique répondant à une requête. 2.2.2 Expression du besoin en information De part leur structure, l’utilisateur interroge les collections de documents XML selon deux types de requêtes : – Requêtes de type CO (Content Only) : ces requêtes sont composées de simples mots-clés, et le SRI détermine la granularité de l’information à renvoyer. – Requêtes de type CAS (Content And Structure) : ces requêtes portent sur la structure et le contenu des unités d’information, dans lesquelles l’utilisateur spécifie des besoins précis sur certains éléments de structure. Dans ce type de requêtes, l’utilisateur peut utiliser des conditions de structure pour indiquer le type des éléments qu’il désire voir renvoyer. Afin de pouvoir effectuer une recherche d’information qui tient compte de la structure logique des documents, des nouvelles techniques d’indexation et d’appariement ont été proposées. Ces techniques sont décrites dans les prochaines sections. 4. Nous utilisons dans la suite de ce rapport le terme élément pour décrire un sous-arbre d’un document XML. Chapitre 2. La Recherche d’Information Structurée 2.3 28 Les approches de la RIS Les approches proposées pour traiter spécifiquement la RIS peuvent être classées en deux principales catégories : (i) l’approche orientée données (data-centric) utilise des techniques développées par la communauté des Bases de Données (BD), (ii) l’approche orientée documents (document-centric) est prise en charge par la communauté RI. Le tableau 2.1 illustre les principes de chaque communauté pour le traitement des documents semi-structurés. Besoin en information Résultat Requête Modèle RI Vague Approché CO ou CAS Modèles de RI (probabiliste,...) BD Précis Exact SQL Théorie des ensembles Table 2.1 – RI vs. BD 2.3.1 Approches orientées documents Les approches orientées documents considèrent les documents XML comme une collection de documents textes comportant des éléments et des relations entre ces éléments. Les éléments sont utilisés comme moyen pour mieux identifier la pertinence d’une unité de document vis-à-vis d’une autre unité. La majorité des travaux ont, en fait, adapté les modèles de RI reconnus pour traiter les documents XML [127, 95, 200, 177, 12, 160, 168]. 2.3.2 Approches orientées données Les approches orientées BD s’intéressent davantage à la structure du document. Plusieurs langages ont été définis [45], Lorel [11], XML-QL [135], XQL [54], XML-GL [52]. Ces approches permettent de traiter efficacement la structure des documents XML étant donné que les mots-clés sont examinés de façon binaire (présent/absent). Cependant, elles sont limitées pour le traitement de la partie textuelle des documents. Dans [195], Salton et al. ont démontré qu’en RI textuelle la prise en compte des poids des mots-clés dans un document est primordiale, voire nécessaire. Ceci permet de mesurer un degré de pertinence d’un document (ou d’une unité d’information) vis-à-vis d’une requête et donc Chapitre 2. La Recherche d’Information Structurée 29 de renvoyer à l’utilisateur une liste triée de résultats, comme le proposent les approches de RI. Nos travaux portent sur la RI et par conséquent, les problématiques examinées dans la suite de ce chapitre sont abordées sous la perspective des approches orientées documents. 2.4 Indexation de documents semi-structurés Les SRI ont très longtemps utilisé des représentations de données très simples pour opérer des requêtes sur les textes, ou classer ceux-ci en différentes catégories. Si les SRI ont très longtemps utilisé des représentations de données vectorielles pour opérer des requêtes sur les textes, à partir du début des années 1990, ces représentations ont commencé à prendre en compte la structure des documents pour mener des travaux sur deux axes : la “recherche de passages” et la “recherche de sous-structures”. Les premiers se limitent généralement à découper un document en sous-documents, et à ré-appliquer à ces unités d’informations les modèles habituels (souvent donc vectoriels) de la RI. La prise en compte “simultanée” du document et de ses sections pour opérer des recherches plus fines n’est introduite qu’à partir de 1994 par Wilkinson [229]. En RIS, l’objectif de l’indexation n’est plus seulement de stocker l’information textuelle mais aussi l’information structurelle et de pouvoir présenter les relations entre les deux types d’information. De ce fait, un schéma d’indexation de documents XML devrait principalement permettre la reconstruction du document XML décomposé dans les structures de stockage et la recherche par mot clé et par expressions de chemin sur la structure XML. L’indexation de documents XML peut être rangée selon le type de l’information en question (textuelle ou structurelle). Cette catégorisation permet de mieux comprendre les différents enjeux soulevés par chaque type d’information. 2.4.1 Indexation de l’information textuelle L’indexation de l’information textuelle consiste à extraire et pondérer les termes représentatifs. En RIS, et notamment avec les documents XML, la seule différence par rapport à la RI classique est comment lier les informations textuelles (ou termes) aux informations structurelle ? C’est ce qu’on appelle la “portée des termes d’indexation”. Chapitre 2. La Recherche d’Information Structurée 2.4.1.1 30 Portée des termes d’indexation Afin de relier les termes à l’information structurelle, dans la littérature, deux solutions ont été proposées : une qui agrège le contenu des nœuds (c’est l’approche d’indexation des sous-arbres imbriqués) et l’autre qui indexe tous les contenus des nœuds séparément (c’est l’approche d’indexation des unités disjointes). – Sous-arbres imbriqués : ces approches considèrent que le contenu de chaque nœud de l’index est une unité atomique [12, 202, 110]. Les termes des nœuds feuilles sont donc propagés dans l’arbre des documents. Comme les documents XML possèdent une structure hiérarchique, les nœuds de l’index sont imbriqués les uns dans les autres et par conséquent, l’index contient des informations redondantes. Dans [151], Mass et al. ont considéré que seuls quelques types de nœud sont informatifs (dans la collection d’INEX 2005, ils ont par exemple sélectionné : article, paragraphe, section, sous-section). Un sous-index est ensuite construit pour chaque type de nœud. L’index est l’ensemble des sous-index associés. – Unités disjointes : dans ces approches, le document XML est décomposé en unités disjointes, de telle façon que le texte de chaque nœud de l’index est l’union d’une ou plusieurs parties disjointes [159, 79, 89, 118, 187]. Une fois les unités d’indexation spécifiées, il reste à pondérer les termes. Cette tâche est une adaptation des fonctions de pondération déjà proposées en RI classique. 2.4.1.2 Pondération des termes d’indexation Dans la RI classique, la pondération des termes est basée sur les notions de tf et idf [193]. Dans la RIS, le poids d’un terme dans un élément dépend non seulement de son importance dans cet élément ou dans la collection mais aussi de son importance dans le contenu du nœud même, dans le contenu de ses descendants, dans le contenu de ses voisins directs et dans le contenu des nœuds auxquels il est relié [141, 118]. Ce dernier poids est défini par la mesure ief (Inverse Element Frequency). Dans la littérature, plusieurs travaux ont utilisé ief, par exemple [230, 90, 200, 149, 171]. Des adaptations des formules de pondération utilisées en RI classique à la RIS sont proposées dans [216]. Une adaptation de la formule tf.idf permettant de calculer la force discriminatoire d’un terme t pour une balise b relative à un document d, est également présentée dans [236]. La nouvelle formule adaptée est définie par tf.itdf (Term FrequencyInverse Tag and Document Frequency). Pinel-Sauvagnat et Boughanem [171] ont utilisé d’autres paramètres pour l’évaluation de l’importance de termes tels que la longueur de l’élément et la Chapitre 2. La Recherche d’Information Structurée 31 longueur moyenne des éléments de la collection. 2.4.2 Indexation de l’information structurelle Différentes approches ont été proposées pour indexer l’information structurelle selon des granularités variées [144]. Dans le processus d’indexation, toute l’information structurelle n’est pas forcément utilisée. Dans la littérature, on trouve trois approches pour l’indexation de l’information structurelle : Indexation basée sur les champs, Indexation basée sur des chemins et Indexation basée sur des arbres. 2.4.2.1 Indexation basée sur des champs Cette technique permet d’associer à chaque terme le nom du champ dans lequel il apparaı̂t. Avec ce type d’indexation, on filtre, au moment de la recherche, les champs contenant le texte en question [93]. Le tableau 2.2 illustre le résultat d’indexation du document illustré par la figure 2.1. termes recherche information indexation textuelle structurelle fréquence 1 3 3 1 1 champs (titre, 1) (titre, 1), (sec1, 1), (sec2, 1) (titre, 1), (sec1, 1), (sec2, 1) (sec1, 1) (sec1, 2) Table 2.2 – Indexation basée sur les champs Figure 2.1 – Exemple d’indexation de l’information structurelle Chapitre 2. La Recherche d’Information Structurée 2.4.2.2 32 Indexation basée sur des chemins Cette technique a pour but de retrouver rapidement des documents ayant des valeurs connues pour certains éléments ou attributs [113, 101]. Elle facilite aussi la navigation dans les documents de manière à résoudre efficacement des expressions XPATH et d’utiliser des index pleins textes sur les contenus. Cette technique souffre cependant souvent de la difficulté de retrouver les relations ancêtres-descendants entre les différents éléments des documents. Le tableau 2.3 illustre ce type d’indexation correspondant au document de la figure 2.1. En 2009, une nouvelle approche d’indexation basée sur les chemins a été proposée par BenAouicha et al. [18]. Les auteurs ont proposé d’exprimer les relations entre un élément et ses descendants à l’aide d’arcs virtuels au niveau de la structure d’un document XML. Par exemple, dans la figure 2.1, le lien entre les deux éléments rapport et sec1 est un arc virtuel, etc. termes recherche information indexation textuelle structurelle fréquence 1 3 3 1 1 chemins (/rapport/chapitre/titre) (/rapport/chapitre/titre), (/rapport/chapitre/sec1), ... (/rapport/chapitre/titre), (/rapport/chapitre/sec2), ... (/rapport/chapitre/sec1) (/rapport/chapitre/sec2) Table 2.3 – Indexation basée sur les chemins 2.4.2.3 Indexation basée sur des arbres Dans cette technique, chaque élément (nœud) du graphe représentant le document XML est identifié par un identifiant unique (UID) [133]. Les termes sont associés à cet identifiant afin de pouvoir localiser leurs emplacement dans les éléments et de retrouver les relations hiérarchiques entres les éléments [201]. L’UID peut également être un chemin d’accès (XPath absolu, avec les numéros des éléments) de l’élément [231]. Le tableau 2.4 illustre ce type d’indexation pour le document XML de la figure 2.1. Parmi les travaux utilisant cette technique d’indexation, nous citons [113, 101]. D’autres techniques d’indexation structurelle basée sur les arbres sont proposées dans la littérature telles que l’approche EDGE et BINARY [77], l’architecture BUS [104], etc. Afin de bénéficier au mieux de toutes les caractéristiques du document XML, de nouvelles approches ont été proposées. Elles consistent à combiner l’approche orientée données et l’approche orientée documents [87, 214, 42, 168]. Ces approches permettent également d’indexer le contenu textuel des documents et Chapitre 2. La Recherche d’Information Structurée 33 de pondérer les termes, ce qui rend ensuite possible un calcul de pertinence des éléments. termes recherche information indexation textuelle structurelle fréquence 1 3 3 1 1 nœuds (3) (3), (4), (5) (3), (4), (5) (4) (5) Table 2.4 – Indexation basée sur les arbres 2.5 Interrogation des documents XML Comme mentionné précédemment, l’interrogation des documents XML peut se faire selon deux types de requêtes : – Requêtes de type CO : ces requêtes sont composées de simples motsclés et imposent au SRI de décider la granularité de l’information à retourner. Elles sont utilisées lorsque l’utilisateur n’a pas une idée précise de ce qu’il recherche ou n’a pas de connaissance concernant la structure des documents. – Requêtes de type CAS : ces requêtes sont composées de contraintes sur le contenu et la structure. C’est le cas lorsque l’utilisateur peut spécifier des conditions de structures pour préciser son besoin et indiquer quel type d’éléments qu’il désire lui renvoyer. Ce type de requête nécessite au moins une connaissance partielle de la structure de la collection des documents XML à interroger. De nombreux langages de requêtes ont été proposés dans la littérature. D’une manière générale, ces langages de requêtes supportent conjointement des contraintes de contenu et de structure. Nous nous proposons d’en détailler quelques uns dans ce qui suit, suivant leur ordre chronologique d’apparition. 2.5.1 XQuery XQuery [53] est un langage de requête pour XML proposé par le W3C dont la version 1.0 finale date de janvier 2007, et dont l’élaboration a demandé près de huit années. Il se base sur XPath pour extraire et travailler sur des fragments de documents XML. Les requêtes basiques de XQuery sont identiques à celles définies par XPath. Si l’on désire faire des requêtes simples, XPath peut donc parfaitement suffire. Chapitre 2. La Recherche d’Information Structurée 34 XQuery est intéressant dès le moment où l’on désire faire des requêtes complexes ou encore faire appel à la récursivité. XQuery supporte des fonctions orientées systèmes documentaires : en particulier, un prédicat CONTAINS est intégré pour la recherche par mots-clés. On trouvera ci-dessous un exemple d’une requête XQuery qui retourne les prénoms et les dates de naissance de touts les employés ayant le nom Dupont : For $E in document (”exemple.xml”)//Employe Where $E/nom = ”Dupont” return <dupont>{ $E/prenom, $E/date naissance }</dupont> On notera enfin que le W3C a proposé un Working Draft, qui a pour but d’étendre les caractéristiques de recherche de XQuery à la recherche plein-texte. Le langage TexQuery [16] en est une application. 2.5.2 NEXI Le langage NEXI a été défini dans [218, 219] pour répondre aux besoins de la campagne d’évaluation INEX. Les requêtes étaient en effet précédemment exprimées en XML (pour 2002) ou XPath (pour 2003), mais dans le premier cas, le langage n’était pas assez puissant, et il était trop complexe et dans le second cas 63% des requêtes exprimées par les participants (experts en RI) contenaient des erreurs de syntaxe ! NEXI a alors été conçu comme un sous-ensemble extensible d’XPath interprétable de manière vague (il s’agit d’un langage de requête orienté RI et non BD). On utilise la syntaxe pour désigner l’élément descendant et rajoute une clause “about” pour apporter plus de précision. NEXI peut également supporter des spécifications plus complexes en utilisant les parenthèses ainsi que les opérateurs booléens. L’exemple suivant est une requête qui renvoie une section sec qui est un élément du document article et qui contient un autre élément paragraphe p et qui parle de “information retrieval”. //article//sec[about(.//p,information retrieval)] Chapitre 2. La Recherche d’Information Structurée 2.5.3 35 XFIRM Le langage de requêtes XFIRM [168] est une extension de XPath. Ce langage permet de formuler la requête de l’utilisateur selon quatre degrés de précision comme les illustrent les exemples suivants : – Degré de précision P1 : Toulouse OU (ville ET rose) Ce type de requête permet à l’utilisateur d’exprimer son besoin en information en utilisant des mots-clés indépendamment de la structure de l’unité d’information renvoyée. – Degré de précision P2 : section[la ville rose] Dans cet exemple l’utilisateur désire récupérer des éléments de type section parlant de la ville rose. Avec ce type de requête, nous pourrons préciser le type des éléments à renvoyer ainsi que des conditions sur le contenu ou la valeur de ses attributs. – Degré de précision P3 : //article[France]//section[Toulouse] Avec ce type de requête, l’utilisateur peut définir la structure hiérarchique entre les éléments renvoyés. Dans cet exemple, l’utilisateur désire récupérer les éléments articles parlant de la France et ayant des descendants de type section parlant de Toulouse. – Degré de précision P4 : //article[]//ec :section[Toulouse]//par[Capitole] Dans cet exemple, l’utilisateur souhaite obtenir un élément de type section parlant de Toulouse ayant comme ancêtre un élément de type article et comme descendant un élément de type paragraphe parlant de Capitole. L’avantage du langage XFIRM est que l’utilisateur n’est pas obligé à spécifier le type de l’unité d’information qu’il désire voir retournée. De plus, ce langage permet d’exprimer des chemins indéterminés ou partiellement connus, et permet de combiner de façon booléenne des conditions sur la structure. 2.6 Modèles de RIS Dans la littérature, les modèles de RI classiques ont été adaptés pour tenir compte de la source d’évidence, l’information structurelle, contenue dans les documents XML, et des granularités variées de l’information. Ces modèles cherchent à répondre à des requêtes de type CO ou bien à des requêtes de type Chapitre 2. La Recherche d’Information Structurée 36 CAS. D’une manière générale, et indépendamment des modèles de RIS, l’appariement est effectué selon deux catégories d’approches différentes [173]. – Approches par propagation des termes : ces approches indexent des sous-arbres imbriqués et propagent les termes des nœuds feuilles dans l’arbre du document ; – Approches par propagation de pertinence : ces approches indexent des unités disjointes et calculent les scores de pertinence au niveau des feuilles des arbres XML. Ces scores sont ensuite propagés vers les nœuds internes. Dans cette section, nous nous proposons de détailler les différentes méthodes proposées pour adapter le modèle booléen (théorie des ensembles), le modèle vectoriel (algébrique) ou encore le modèle probabiliste. Nous nous attardons ensuite sur les modèles de RIS basés sur les RB. Notons simplement à titre d’illustration que : – les approches présentés dans le cadre du modèle vectoriel étendu, [82, 151, 90, 200, 64, 149, 64, 150, 18] utilisent une propagation des termes et dans [83, 17, 100, 212, 168], il s’agit d’une propagation de pertinence. – les approches de [217, 131] présentés dans le cadre du modèle booléen pondéré, utilisent une propagation des termes. – les approches présentés dans le cadre du modèle probabiliste [56, 127, 79, 89], ou du modèle inférentiel [177, 223, 67, 134, 131, 22, 70, 68, 132, 137] ou du modèle de langue [202, 230, 138, 12, 160, 110, 157], fonctionnent tous également grâce à une propagation des termes. 2.6.1 Modèle vectoriel étendu Le modèle vectoriel étendu permet de séparer l’information structurelle de l’information de contenu [151, 149, 150]. Dans les approches issues de ce modèle, une mesure de similarité de chaque élément à la requête est calculée, et ce à l’aide de mesures de distance dans un espace vectoriel. Les éléments sont représentés par des vecteurs de termes pondérés. Dans la littérature, nous trouvons deux catégories d’approches. La première indexe des sous-arbres imbriqués (section 2.4.1), c’est-à-dire elles propagent les termes des nœuds feuilles dans l’arbre du document. Les éléments sont renvoyés à l’utilisateur par ordre décroissant de pertinence. Fuller et al. [82] ont proposé une des premières adaptations du modèle vectoriel à la RIS. La pertinence d’un nœud est calculée à part, puis combinée avec la pertinence des nœuds descendants. Le modèle peut être généralisé en permettant le traitement des requêtes orientées contenu et structure. L’idée de base est là encore d’appliquer le modèle récursivement à chaque sous-arbre de Chapitre 2. La Recherche d’Information Structurée 37 la hiérarchie pour ensuite effectuer une agrégation des scores. Mass et al. [151, 149] ont proposé un système de recherche, appelé JuruXML, qui indexe les éléments selon leur type (un index par type d’élément) et applique ensuite le modèle vectoriel pour la pondération des éléments. Schlieder et Meuss [200] ont développé une autre extension du modèle vectoriel, et qui consiste à intégrer la structure des documents dans la mesure de similarité du modèle vectoriel. La formulation des requêtes se fait sans besoin de connaı̂tre la structure exacte des données vu que leur modèle de requête est basé sur l’inclusion d’arbres. Afin de répondre à des requêtes orientées contenu et structure, les auteurs combinent ainsi le modèle vectoriel et le “tree matching”. BenAouicha et al. [18] proposent le modèle XIVIR 5 qui permet la RIS par la structure et/ou le contenu en utilisant une approche par propagation des termes : – Recherche par le contenu : la propagation du texte situé au niveau des nœuds feuilles vers ses ancêtres se fait selon deux approches. La première consiste à représenter le contenu de chaque nœud feuille par un ensemble de termes pondérés. Ces derniers seront propagés vers les ancêtres de ce nœud tout en diminuant leurs poids en fonction de la distance parcourue au moment de la propagation. C’est la propagation du texte en profondeur. Quant à la deuxième approche, propagation du texte par profondeur et largeur, elle sera réalisée en fonction de la distance qui sépare le nœud feuille qui contient du texte et le nœud interne qui est censé recevoir le texte. Le facteur de propagation est calculé en fonction de cette distance. – Recherche par la structure : le document XML est représenté sous forme d’un arbre défini comme un ensemble de chemins entre deux nœuds A → B où A est le nœud parent du nœud B. La relation entre A et B peut être directe (parent/fils-direct) ou indirecte (parent/descendant). Afin de refléter l’importance de la relation entre les nœuds A et B, un poids est calculé pour chaque chemin. Si la relation est directe, le poids est égal à 1, sinon, le poids w est calculé comme suit : w = exp(λ ∗ (1 − d(A, B))) (2.1) où d(A, B) est la distance qui sépare les deux nœuds A et B, et λ est un coefficient d’atténuation. Pour la recherche par structure, le score de structure entre une requête q et un document d, RSV s, est calculé comme suit : X RSVs = wq ∗ wd (2.2) wq wd Aq →Bq ∈Eq ≡Ad →Bd ∈Ed 5. XIVIR : XML Information retrieval based on VIRtual links Chapitre 2. La Recherche d’Information Structurée 38 où Eq (resp. Ed ) est l’ensemble de tous les chemins pondérés de la requête (resp. du document). Soient Aq l’élément A dans la requête q et Ad est l’élément A dans le document d, Aq ≡ Ad signifie que Aq est l’équivalent 0,37 1 à Ad . Par exemple, chapter → p ≡ chapter → p[2] sur la figure 2.2. Selon la structure entre la requête et le document, le score est RSV s(Eq , Ed ) = 2 + 0, 37 ∗ 0, 37 = 2, 14. – Combinaison des scores : Le traitement séparé du contenu et de la structure de chaque élément XML engendre deux scores : un score pour le contenu et un score pour la structure. Leur combinaison en un score définitif permet de les ordonner selon leur pertinence potentielle. Dans ce contexte, deux techniques pour la combinaison des scores sont proposées : une technique basée sur une combinaison linéaire et une deuxième technique basée sur les distributions des scores. Les résultats obtenus au niveau de la mesure stricte de la tâche VVCAS montrent l’efficacité de ce modèle. Cette tâche est par essence la plus complexe, elle impose l’installation de méthodes de recherche orientées structure, et de se dissocier des méthodes traditionnelles de RI et des méthodes d’interrogation par des requêtes semblables de SQL ou XQuery. Figure 2.2 – Exemple de recherche par structure avec le système XIVIR [18] On trouvera également la deuxième catégorie d’approches qui indexent des unités disjointes (section 2.4.1), c’est-à-dire elles calculent les scores de pertinence au niveau des feuilles des arbres XML et propagent ces scores ensuite vers les nœuds internes. Dans [83], Geva a proposé un modèle simple qui a obtenu de très bons résultats pendant les campagnes d’évaluation INEX 2003 et INEX 2004. Ce modèle est basé sur un fichier inverse pour l’indexation d’un document XML. La recherche est réalisée par propagation des scores des éléments feuilles. Ce système a obtenu les meilleurs résultats dans la campagne d’évaluation INEX 2005 [84]. Chapitre 2. La Recherche d’Information Structurée 39 Dans [212], Theoblad et Weikum proposent le moteur de recherche XXL qui utilise une fonction de score basée sur tf et idf . XXL offre des fonctionnalités pour la recherche orientée pertinence de chemins, c’est à dire que la recherche est effectuée avec des conditions de chemins vagues. XXL repose sur une syntaxe SQL (select-from-where). Dans [168, 172, 169], Pinel-Sauvagnat et al. proposent le système XFIRM 6 qui est basé sur un modèle de données générique permettant l’implémentation de nombreux modèles de RIS et le traitement de collections hétérogènes. Le traitement des requêtes est effectué en deux étapes : une première qui consiste à évaluer la similarité des nœuds feuilles de l’index à la requête (on parle alors de calcul des poids des nœuds feuilles) et une seconde qui consiste à rechercher les sous-arbres pertinents. La pertinence des sous-arbres est évaluée en effectuant la propagation des poids des nœuds feuilles dans l’arbre du document. Le langage de requêtes utilisé est déjà détaillé dans la section 2.5.3. – Calcul du score des nœuds feuilles : les scores des nœuds feuilles identifiés dans l’arbre du document sont calculés grâce à la fonction de similarité RSV (q, nf ). Si la requête est composée de termes et des poids associés, on a : RSV (q, nf ) = T X wiq ∗ winf , avec wiq = tfiq et winf = tfinf ∗ iefi ∗ idfi (2.3) i=1 Avec : – wiq et winf sont respectivement le poids du terme i dans la requête q et le nœud feuille nf ; – tfiq et tfinf sont respectivement la fréquence du terme i dans la requête q et dans le nœud feuille nf ; – idfi = log(|D|/|di |) permet d’évaluer l’importance du terme i dans la collection de documents ; – |D| est le nombre total de documents de la collection ; – |di | est le nombre de documents contenant i ; – iefi = log(|N F ||nfi |) permet d’évaluer l’importance du terme i dans la collection de nœuds feuilles ; – |N F | est le nombre total de nœuds feuilles de la collection ; – |nfi | est le nombre de nœuds feuilles contenant le terme i. – Propagation de la pertinence des nœuds feuilles : une valeur de pertinence est ensuite calculée pour chaque nœud de l’arbre de document, en utilisant les poids des nœuds feuilles qu’il contient [172]. Les termes apparaissant près de la racine d’un sous-arbre paraissent plus porteurs d’information pour le nœud associé que ceux situés plus bas dans le sousarbre. Il semble ainsi intuitif que plus grande est la distance entre un nœud et son ancêtre, moins il contribue à sa pertinence. Cette intuition est modélisée par l’utilisation dans la fonction de propagation du pa6. XFIRM : XML Flexible Information Retrieval Model Chapitre 2. La Recherche d’Information Structurée 40 ramètre dist(n, nfk ), qui représente la distance entre le nœud n et un de ses nœuds feuille nfk dans l’arbre du document, c’est-à-dire le nombre d’arcs séparant les deux nœuds. Il paraı̂t aussi intuitif que plus un nœud possède de nœuds feuilles pertinents, plus il est pertinent. Le paramètre |Fnp |, qui est le nombre de nœuds feuilles descendants de n ayant un score non nul est alors introduit dans la fonction de propagation. Une première évaluation de la pertinence pn d’un nœud peut être calculée selon la formule 2.4 : pn = |Fnp | ∗ X αdist(n,nfk )−1 ∗ (RSVm (q, nfk )) (2.4) nfk ∈Fn où Fn est l’ensemble des nœuds feuilles nfk descendants de n, et α ∈]0, 1] est un paramètre permettant de quantifier l’importance de la distance séparant les nœuds dans la formule de propagation. On peut également intégrer dans la mesure du score la pertinence que l’on accorde au document entier. On parle alors de pertinence contextuelle. La valeur de pertinence d’un nœud interne est définie alors comme suit : pn = p ∗ |Fnp | ∗ X αdist(n,nfk )−1 ∗ RSV (q, nfk ) + (1 − ρ) ∗ pracine (2.5) nfk ∈Fn Avec : – Fn l’ensemble des nœuds feuilles nfk descendants de n ; – |Fnp | le nombre de nœuds feuilles descendant de n ayant un score non nul ; – RSV (q, nfk ) calculé d’après 2.3 ; – ρ ∈ [0, 1] est un paramètre servant de pivot et permettant d’ajuster l’importance de la pertinence du nœud racine. Les nœuds sont ensuite renvoyés à l’utilisateur par ordre décroissant de pertinence à la requête. Ce modèle a montré de bonnes performances au sein de la campagne d’évaluation INEX [170, 174, 171]. Enfin, on trouvera d’autres adaptations du modèle vectoriel dans [148, 17, 64, 228, 109, 100]. 2.6.2 Modèle probabiliste Les modèles probabilistes constituent un outil puissant pour les modèles de RIS vu qu’ils permettent de traiter d’une manière efficace l’incertitude intrinsèque au processus de RI. Ces modèles calculent la probabilité de pertinence des documents étant donnée une requête ou la probabilité de satisfaire Chapitre 2. La Recherche d’Information Structurée 41 la requête étant donné le document. 2.6.2.1 Modèle inférentiel La naissance du modèle d’inférence est le résultat de l’extension de deux idées : (i) la proposition d’utiliser des logiques non classiques pour déterminer le degré auquel un document implique ou correspond à une requête ; (ii) la notion d’inférence plausible et la possibilité de combiner plusieurs sources pour inférer la probabilité de pertinence d’un document étant donnée une requête. Dans la RIS, les diagrammes d’inférence ont été adaptés pour exprimer les relations de causalité entre termes et structures. Plus récemment, des travaux ont essayé d’exploiter l’apport des RB pour définir des modèles de RIS. L’avantage apporté par l’utilisation des RB a été principalement de pouvoir combiner des informations provenant de différentes sources pour restituer les documents qui seraient les plus pertinents étant donnée une requête. Parmi les travaux les plus récents, citons celui Piworwarski et al. [177, 175]. Les auteurs ont proposé un modèle probabiliste basé sur les RB où les dépendances de hiérarchisation sont exprimées par des probabilités conditionnelles. La probabilité de pertinence d’un élément e sachant son parent p pour une requête q est P (e|p, q) est la suivante : P (e = a|p = b, q) ≃ 1 1 + eFe,a,b(q) (2.6) où Fe,a,b(q) est la pertinence de l’élément e selon le modèle Okapi. Une requête q structurée est décomposée en un ensemble de n sous-requêtes élémentaires qi . Chacune de ces sous-requêtes reflète une entité structurelle et un besoin d’information. Le score final est donné par la formule suivante : RSV (ei , q) = RSV q1 (ei , q) ∗ ... ∗ RSV qn (ei , q) (2.7) Ce modèle est étendu, dans [223], au traitement des requêtes orientées contenu et structure. De Campos et al. [67] ont également proposé un modèle de recherche basé sur les RB où le diagramme d’inférence est basé sur la probabilité conditionnelle. Deux types de diagrammes sont proposés : SID (Simple Inference Diagram) et CID (Context based Inference Diagram). Un diagramme se compose de deux parties : une partie qualitative (représentation des variables et des inférences) et une partie quantitative (probabilités des nœuds). Plusieurs modèles ont été proposés pour l’interrogation de corpus hétérogènes. La majorité des solutions s’orientent vers la classification de documents [134, Chapitre 2. La Recherche d’Information Structurée 42 131, 22]. La recherche se fait alors au niveau des classes de documents. Denoyer et al. [70] ont conçu un format intermédiaire qui permet de classifier les documents en suivant un calcul basé sur la probabilité conditionnelle. Denoyer et Gallinari [68] ont également traité le problème de classification de documents structurés à l’aide de RB. Chaque nœud du RB comporte un libellé et des informations contextuelles. Deux sortes de variables sont envisagées : 1. Une variable structurelle sid (d : document) qui dépend de ses ascendants. 2. Une variable contextuelle tid qui ne dépend que de ses variables structurelles. La probabilité de jointure d’un document d à un modèle C est calculée comme suit : P (d, C) = P (c) |d| Y P (sid /pa(sid , C))P (tid /sid , C) (2.8) i=1 Avec : – tid est une séquence de mots ; – pa(s) est le parent d’un nœud. Ce modèle génératif permet de considérer des documents hétérogènes (texte plus image), où l’image est considérée comme un ensemble de pixels. Il est par la suite transforme en classifieur discriminant en utilisant la méthode Fisher Kernel [103]. Abiteboul et al. dans [10] visent à proposer un format médian dans lequel tous les documents du corpus (et éventuellement les requêtes) peuvent être transformés pour ensuite appliquer des techniques traditionnelles de traitement des requêtes structurées. D’autres approches, comme celle proposée par Lee et al. dans [132] ou Lian et Cheung dans [137] visent à proposer des algorithmes de classification. Dans la première approche, les auteurs proposent un algorithme de matching entre deux documents grâce à une séquence d’opérations de transformations. Dans la deuxième approche, les auteurs proposent un algorithme pour classifier les documents en se basant sur le paramètre distance et la notion de sous-graphe qui sont codés par des chaı̂nes de bits. 2.6.2.2 Modèle de langue Sigurbjörnsson et al. [202] proposent un modèle de langue pour traiter des requêtes de type CO. Les auteurs considèrent que comme n’importe quel élément XML peut potentiellement être renvoyé à l’utilisateur, chaque élément est indexé afin d’assurer la même fonction qu’un fichier inverse en RI classique Chapitre 2. La Recherche d’Information Structurée 43 et chaque document est indexé pour des calculs statistiques. L’arbre XML est indexé en se basant sur le post et le pré-ordre des nœuds. Par conséquent, pour chaque élément, le texte qu’il contient ainsi que le texte contenu dans ses descendants est indexé (voir approches d’indexation basées sur les sousarbres imbriqués, section 2.4.1.1). Un modèle de langue est ensuite estimé pour chaque élément de la collection. Pour une requête donnée, les éléments sont triés par rapport à la probabilité que le modèle de langue de l’élément génère la requête. Ceci revient à estimer la probabilité P (e, q), ou e est un élément et q une requête : P (e, q) = P (e) ∗ P (q|e) (2.9) Deux probabilités doivent donc être estimées : la probabilité a priori de l’élément P (e) et la probabilité qu’il génère la requête P (q|e). La première probabilité est estimée comme suit : |e| P (e) = (2.10) |C| Avec : – |e| est le nombre de mots dans l’élément e ; – |C| est le nombre de mots contenus dans tous les documents. Pour la seconde probabilité, les auteurs considèrent que les termes de la requête sont indépendants, et utilisent une interpolation linéaire du modèle d’élément et du modèle de collection pour estimer la probabilité d’un terme de la requête. La probabilité d’une requête t1 , t2 , ..., tn est ainsi calculée de la façon suivante : P (t1 , ..., tn |e) = n Y (λ ∗ P (ti |e) + (1 − λ) ∗ P (ti )) (2.11) i=1 Avec – – – : P (ti |e) est la probabilité d’observer le terme ti dans l’élément e ; P (ti ) est la probabilité d’observer le terme dans la collection ; λ est un paramètre de lissage. Le calcul des probabilités peut être réduit à la formule de calcul des scores 2.12, pour un élément e et une requête t1 , ..., tn . X s(e, t1 , ..., tn ) = β ∗ log( t Avec – – – n X λ ∗ tf (ti , e) ∗ ( t df (t)) ) log(1 + tf (t, e)) + P (1 − λ) ∗ df (ti ) ∗ tf (t, e) i=1 (2.12) P : tf (t, e) est la fréquence du terme t dans l’élément e ; df (t) est le nombre d’éléments contenant t ; λ est le poids donné au modèle de langue de l’élément en lissant avec le modèle de la collection ; – β est un paramètre servant à combler le fossé entre la taille de l’élément moyen et la taille de l’élément moyen pertinent. Chapitre 2. La Recherche d’Information Structurée 44 Dans [230], l’utilisation de la fréquence inverse d’élément ief est proposée pour faciliter les pondérations par élément : un nouveau poids probabiliste pour les termes est alors formulé, utilisant ief et la fréquence du terme dans chaque élément. Les poids des termes de la requête peuvent être étendus avec des conditions sur l’appartenance du terme à un certain élément ou chemin. On trouvera d’autres approches basées sur les modèles de langues pour la RIS dans [138, 12, 160, 110, 157]. 2.6.2.3 Autres approches Bogers et al. dans [32] proposent une approche basée sur le modèle de langue afin d’effectuer une recherche dans d’une collection des livres. Leur principal objectif est d’examiner l’efficacité de l’utilisation des fonctions sociales pour re-classer les résultats de recherche initiales basées sur le contenu. Ils se concentrent en particulier sur l’utilisation de techniques de filtrage collaboratif pour améliorer leurs résultats de recherche basés sur le contenu. Dans [30], Bhaskar et al. décrivent un système hybride de contextualisation de tweets. Le système de RI concentré est basé sur l’architecture Nutch et le système de résumé automatique est basé sur le classement de phrases par TF-IDF et des techniques d’extraction de phrases. Une autre approche basée sur le modèle vectoriel est proposée par Crouch et al. dans [65]. Cette approche réalise tout d’abord une recherche sur les documents afin d’identifier les articles pertinents à l’aide du système SMART [191]. Afin de produire d’extraits de documents correspondant à chaque article, les auteurs utilisent une approche appelée Flex pour recherche flexible [63]. L’évaluation de ces différentes approches de RIS est présentée dans la section suivante. 2.7 Évaluation des performances des systèmes de RIS Aujourd’hui, il existe une seule campagne d’évaluation des différents systèmes de RIS. Cette campagne d’évaluation est INEX (INitiative for the Evaluation of XML retrieval). Elle a eu lieu depuis 2002. Elle offre un forum international pour évaluer et comparer les résultats enregistrés par les différents participants, mais aussi pour discuter les différentes problématiques qui se présentent. La Chapitre 2. La Recherche d’Information Structurée 45 collection de test est un ensemble de documents XML, requêtes, tâches de recherche et jugements de pertinence. Le langage de requête utilisé dans INEX est NEXI [219, 218]. INEX a proposé plusieurs tâches telles que la tâche ad-hoc, la tâche multimedia, la tâche relevance feedback, la tâche hétérogène, etc. 2.7.1 Collections de test Afin d’améliorer la qualité de l’évaluation, les collections de test proposées dans la cadre de la campagne INEX ne cessent d’évoluer. Entre 2002 et 2004, INEX a utilisée une collection composée des articles de la revue scientifique “IEEE Computer Society”, balisés au format XML et d’une taille totale aux alentours 500 Mo. En 2005, la collection a été étendue pour comporter environ 17 000 articles issus de 21 revues pour une taille totale d’environ 750 Mo. À partir de 2006, la collection IEEE a été complétée par de documents en anglais extraits de l’encyclopédie en ligne “Wikipedia”, a été utilisée dans la plupart des tâches. Cette collection de 6 Go, est composée de 659 388 de documents d’une profondeur moyenne 6,72. En 2009, une extension de la collection Wikipedia est fournie [199]. Elle est composée de 2 666 190 articles Wikipedia annotés et elle a une taille de 50,7 GB. Cette collection est utilisée dans la tâche adhoc ainsi que dans d’autres tâches. D’autres collections sont aussi fournies par la campagne d’évaluation pour évaluer d’autres tâches telles que la collection “mmwikipedia” pour une sous-tâche de la tâche multimedia, ou encore les collections fournies pour la tâche hétérogène. Le Guide de Planète Solitaire a été aussi utilisé et depuis 2007 une collection de livres parcourus a aussi été rendue disponible pour des tâches de recherche de livre. 2.7.2 Requêtes Les participants à INEX ont créé deux types de requêtes (ou topics) : – CO : les mots-clés de cette requête peuvent être regroupés sous forme d’expressions et précédés par les opérateurs “+” (signifiant que le terme est obligatoire) ou “-” (signifiant que le terme est exclu des éléments renvoyés à l’utilisateur). – CAS : les contraintes de cette requête portent sur la structure des documents. Chapitre 2. La Recherche d’Information Structurée 46 Pour chaque topics, différents champs permettant d’expliciter le besoin de l’utilisateur. Par exemple, le champ title donne une définition simplifiée de la requête, le champ keywords contient un ensemble de mots-clés qui ont permis l’exploration du corpus avant la reformulation définitive de la requête, et les champs description et narrative, explicités en langage naturel, indiquent les intentions de l’auteur. À partir de 2006, ces deux types de requêtes ont été regroupés dans un seul type CO+S en rajoutant un nouveau champ castitle donnant la forme structurée de la requête. 2.7.3 Tâches de recherche INEX propose plusieurs tâches d’évaluation afin d’explorer plusieurs voix de recherche dans les documents XML. Nous détaillons dans ce qui suit quelques tâches. – Tâche adhoc : c’est la tâche principale de la campagne d’évaluation INEX. Elle est considérée comme une simulation de l’interrogation d’une bibliothèque, où un ensemble statique de documents XML. Plusieurs stratégies de recherche sont étudiées dans ce contexte en utilisant différents types de requêtes (CO ou CAS). Nous citons quelques-unes : 1. La stratégie Thorough consiste à renvoyer à l’utilisateur les éléments fortement pertinents ; 2. La stratégie Focused suppose qu’un utilisateur préfère ne pas avoir d’éléments imbriqués dans la réponse ; 3. La stratégie Fetch and Browse appelée aussi All in Context, consiste à classer les résultats par article ou document. L’évaluation concerne alors d’une part les documents et d’autre part le classement des éléments dans un document donné ; 4. La stratégie Best in Context permet d’évaluer les meilleurs points d’entrée dans un article donnée. – Tâche hétérogène : lorsque les documents sont issus de différentes collections, ils ne possèdent pas la même DTD. Notamment avec l’apparition et l’utilisation des systèmes distribués, la tâche hétérogène s’avère un véritable challenge qui pose un certain nombre de défis : 1. avec des requêtes de type CO, des nouvelles approches doivent être développées indépendamment des DTDs ; 2. avec des requêtes de type CAS, s’ajoute le problème de faire correspondre des conditions structurelles appartenant à différentes DTDs. – Tâche recherche de livres : il s’agit d’explorer des techniques permettant de traiter des requêtes complexes (qui va au-delà de la pertinence et qui peuvent inclure des aspects comme le genre, la nouveauté, le bien Chapitre 2. La Recherche d’Information Structurée 47 écrit, etc.) et des sources d’information complexes (qui incluent des profils utilisateurs, des catalogues personnels et les descriptions de livres) en utilisant une collection basée sur des données provenant de Amazon et de LibraryThing. – Tâche contextualisation de tweets : l’objectif est de fournir un contexte sur le sujet d’un tweet afin d’aider le lecteur à comprendre. Cette tâche consiste à répondre aux questions de la forme “Au sujet de quoi ce tweet ?” Qui peut être répondu par plusieurs phrases ou par une agrégation de textes de différents documents Wikipédia. Ainsi, l’analyse de tweet, XML/recherche par passage et le résumé automatique sont combinés afin de se rapprocher des besoins réels en information. – Tâche recherche d’extraits de documents : cette tâche s’intéresse à la façon de générer des extraits d’information pour les résultats de recherche. Ces extraits doivent fournir suffisamment d’informations pour permettre à l’utilisateur de déterminer la pertinence de chaque document, sans avoir besoin de consulter le document lui-même. 2.7.4 Mesures d’évaluation Afin de traiter les besoins supplémentaires induits par la RIS, une extension des mesures traditionnelles utilisées dans la RI classique a été proposée. Cette extension concerne plusieurs mesures d’évaluation selon les tâches et les années. Nous présentons dans cette section les mesures d’évaluation à INEX 2005 et INEX 2007. 2.7.4.1 Métriques à INEX 2005 Les mesures proposées avant INEX 2005 ne prennent pas en compte d’un problème essentiel de l’évaluation : la surpopulation de la base de rappel [116]. Cette surpopulation est due aux règles d’inférence utilisées lors de l’élaboration des jugements de pertinence [176] : si un élément est jugé pertinent, ses ancêtres doivent aussi être jugés pertinents, même si leur degré de pertinence est moindre (et ce notamment à cause de la propagation de l’exhaustivité dans l’arbre du document). Par conséquent, un taux de rappel idéal ne peut être obtenu que par les systèmes référençant tous les composants de la base de rappel, y compris les éléments imbriqués. Afin de solutionner ce problème, Kazai et al. établissent dans [116] la définition d’une base de rappel idéale, qui supporterait la procédure d’évaluation suivante : les éléments de la base de rappel idéale doivent être retournés par les systèmes, les éléments proches de ceux contenus dans la base de rappel idéale peuvent être vus comme des succès partiels, mais les autres systèmes ne doivent pas être pénalisés s’ils ne les renvoient pas. Les Chapitre 2. La Recherche d’Information Structurée 48 mesures xCG sont proposées pour répondre à ces besoins. Les mesures xCG (XML Cumulated Gain) sont des extensions du “gain cumulatif” proposé par Järvelin et Kekäläinen dans [106]. xCG(i) = i X xG(j) (2.13) j=1 où xG(j) est le score obtenu pour l’élément classé à la position j par le système. La métrique xCG inclut les mesures de gain cumulé étendu normalisé (nxCG) données par : xCG(i) nxCG(i) = (2.14) xCI(i) où xCI(i) est le gain cumulé idéal. Les mesures de gain cumulatif ont été développées pour évaluer les systèmes selon le degré de pertinence des documents retournés. La motivation derrière XCG est d’étendre les mesures de gain cumulatif au problème des éléments imbriqués. Les premiers tests de fiabilité de la mesure sont encourageants [117]. 2.7.4.2 Métriques proposées depuis INEX 2007 Depuis 2007, les mesures officielles sont basées sur l’interpolation du Rappel/Précision sur 101 niveaux [112]. – Précision interpolée selon quatre niveaux de rappel sélectionnés : iP [jR],j ∈ [0, 00; 0, 01; 0, 05; 0, 1] La précision à un rang r est définie comme suit : Pr rsize(pi ) (2.15) P [r] = Pi=1 r i=1 size(pi ) Avec : 1. pi est la partie du document assignée au rang i (avec i ≤ r) dans la liste de résultats Lq des parties de documents retournées par un système de recherche pour une requête q. 2. rsize(pr ) est la taille du texte pertinent contenu dans pr en nombre de caractères (ce texte est déterminé grâce aux jugements de pertinence qui contiennent le bon élément avec sa taille) et size(pr ) est la taille totale du texte contenu dans pr en nombre de caractères. Le rappel à un rang r est défini comme suit : R[r] = Pr rsize(pi ) T rel(q) i=1 (2.16) où T rel(q) est la quantité totale du texte pertinent pour une requête q. Chapitre 2. La Recherche d’Information Structurée 49 La mesure de précision interpolée iP [x] est la suivante :   iP [x] =  max (P [r] ∧ R[r] ≥ x) if x ≤ R[|Lq |], 1≤r≤|Lq | 0 if x > R[|Lq |]. (2.17) où R[|Lq|] est le rappel pour tous les documents restitués. La mesure officielle utilisée pour comparer les différents systèmes est iP [0, 01]. – Moyenne des précisions moyennes interpolées selon 101 niveaux de rappel (MAiP) : Pour n requêtes, M AiP est calculée comme suit : M AiP = 1X AiP (t) n t (2.18) où Aip est la précision moyenne interpolée, elle est obtenue par la moyenne des scores de précision interpolées selon 101 niveaux standards de rappel : AiP = X 1 iP (x) 101 x=0,00;0,01;...;1,00 (2.19) Nous utilisons ces mesures dans notre première série d’expérimentations du chapitre 5, section 5.3.3. 2.8 Conclusion Dans ce chapitre, nous avons passé en revue les méthodes, modèles et algorithmes fondamentaux utilisés en RIS. La dimension structurelle apportée au contenu textuel des documents permet de considérer l’information avec une autre granularité que le document tout entier. Le but pour les systèmes de RIS est alors de renvoyer les unités d’information (ou portions de documents) les plus spécifiques et exhaustives à la requête utilisateur. Nous avons aussi donné un aperçu sur les nouveaux concepts d’évaluation des systèmes de RIS. Nous constatons qu’avec la structure la RI dans ses documents peut être plus spécifique et précise. Généralement, les approches actuelles renvoient des éléments indissociables, or il existe des requêtes qui nécessitent l’agrégation de résultats. Ainsi, au lieu de récupérer une liste d’éléments qui sont susceptibles de répondre à la requête, notre contribution consiste à agréger des éléments XML en utilisant des RB. L’avantage d’utiliser un modèle de RIS basé sur les RB et leur capacité à combiner des informations provenant de différentes sources pour restituer une liste d’agrégats qui seraient les plus pertinents étant donnée une requête. Chapitre 2. La Recherche d’Information Structurée 50 Nous allons présenter dans le chapitre suivant (3) les principales motivations développées en RI agrégée comme une alternative prometteuse car elle peut assembler dans la réponse des éléments plus pertinents, non-redondants et complémentaires. Chapitre 3 Vers la Recherche d’Information agrégée dans des documents semi-structurés 3.1 Introduction Les modèles de RI peuvent être regroupés selon le type de modèle mathématique utilisé, à savoir : le modèle ensembliste 1 , le modèle vectoriel 2 et le modèles probabiliste 3 . Ils peuvent également être regroupés selon le type de sortie à savoir une liste de documents non-ordonnés ou une liste de documents ordonnés selon un degré de pertinence. Les premiers travaux en RI étant basés sur le premier paradigme alors, actuellement, c’est le second le plus utilisé. Il y a peu de temps, lorsqu’on soumet une requête à un moteur de recherche quel qu’il soit, ce dernier effectuait par défaut la recherche sur un serveur principal qui indexe les pages Web en HTML. Ce modèle a évolué en effet, les moteurs de recherche créent de plus en plus des moteurs annexes ou verticaux pour d’autres types de contenus, soit la plupart du temps : images, vidéos, actualités, livres, etc. Cette avancée majeur des moteurs de recherche permet donc d’ajouter des résultats complémentaires provenant d’autres sources à la 1. ces modèles trouvent leurs fondements théoriques dans la théorie des ensembles. On distingue le modèle booléen pur, le modèle booléen étendu et le modèle basé sur les ensembles flous. 2. ces modèles sont basés sur l’algébrique, plus précisément le calcul vectoriel. Ils englobent le modèle vectoriel, le modèle vectoriel généralisé, Latent Semantic Indexing et le modèle connexioniste. 3. ces modèles se basent sur les probabilités. Ils comprennent le modèle probabiliste général, le modèle de réseau de document ou d’inférence et le modèle de langue. Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 52 liste ordonnée de documents Web. La RI agrégée représente l’une des alternatives la plus prometteuse qui permet de répondre à ce type d’attente. La RI agrégée peut également offrir une vision plus riche de l’information issue des différentes sources de données. Nous présentons dans ce chapitre un aperçu des différentes approches en RI agrégée ainsi que les cadres d’évaluation associés. La section 3.2 décrit en détail les problématiques des paradigmes recherche booléenne et recherche ordonnée. La section 3.3 décrit les motivations vers un nouveau paradigme de RI à savoir la RI agrégée. La section 3.4 décrit un état de l’art de la RI structurée et la RI agrégée. La section 3.5 décrit différents modèles d’évaluation orientés RI agrégée, notamment l’évaluation des documents XML. La dernière section 3.6 conclut le chapitre. 3.2 Limites de la recherche ordonnée La majorité des approches de RI renvoient les résultats de recherche sous forme d’une liste de documents ordonnée selon un critère, souvent leur pertinence vis-à-vis de la requête. L’ordre des résultats permet souvent de placer des résultats pertinents en-tête de la liste. Ceci correspond au principe de classement. Dans [186], Robertson affirme qu’un SRI est optimal s’il devrait ordonner les résultats selon leur probabilité de pertinence. Typiquement, les résultats sont ordonnés selon une fonction de classement qui combine différents facteurs générés à partir de la requête et la collection de documents. Ces facteurs sont également spécifiques au modèle RI [196, 184, 37, 178, 38]. Ce paradigme de recherche devient moins efficace lorsque les informations, que l’utilisateur souhaite avoir dans sa réponse, ne sont pas contenues dans un document unique [158]. Dans ce cas, une liste ordonnée n’est peut être pas le bon moyen de présenter les résultats car l’utilisateur doit fouiller au sein de différents documents pour collecter soi-même les informations qui satisfont son besoin d’information. Outre le fait qu’un tel parcours risque de s’avérer couteux en temps, onéreux et fastidieux ; tout le problème est de savoir quand s’arrêter ? Pour certaines requêtes, les résultats de recherche ne sont pas diversifiés tant en termes de contenu que de présentation [61]. Ce paradigme de recherche donnerait une présentation uniforme à tous les résultats. Toutefois, il convient qu’il est parfois nécessaire de rechercher des images, des vidéos, des cartes ou bien encore des informations appartenant à une thématique très précise. Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 53 Par exemple, les requêtes “images of Niagara Falls”, “videos of Niagara Falls” et “Niagara Falls” auront tous retournées des extraits de pages Web à partir d’une recherche traditionnelle sur le Web. Idéalement, les deux premières requêtes doivent renvoyées respectivement des images et des vidéos, tandis que la troisième requête peut avoir des résultats divers (images, vidéos, pages web, ...). En fait, la diversification des résultats de la recherche a un intérêt croissant dans la RI selon [59, 14]. Plusieurs requêtes peuvent être ambigües en termes de besoin d’information. L’exemple référence est la requête “Jaguar”, qui peut se référer à une voiture, un animal, un système d’exploitation et ainsi de suite. Idéalement, nous devrions renvoyer une réponse par interprétation de la requête [203]. Cela peut être par plusieurs listes ordonnées ou un ensemble de résultats liés. 3.3 3.3.1 Vers la RI agrégée Motivations L’objectif de la RI agrégée est de rassembler des informations à partir diverses sources pour construire des réponses pertinentes à la requête. Comme nous l’avons déjà mentionné, dans le contexte de la liste ordonnée, l’utilisateur doit parcourir linéairement la liste en consultant les documents un à un jusqu’à avoir le sentiment d’avoir collecté suffisamment d’informations. Outre le fait qu’un tel parcours risque de s’avérer fastidieux, tout le problème est de savoir quand s’arrêter. À partir de quel moment est-on certain d’avoir collecté assez d’informations ? Il est bien connu que dans le contexte de la recherche Web, l’utilisateur se limite principalement à des résultats au premier, deuxième et parfois (au plus) troisième rang [209]. Selon une étude rapportée dans [105], il a été montré que sur 10 documents affichés, 60% des utilisateurs ont consulté moins de 5 documents et près de 30% ont lu un seul document. De ce fait, il est important de renvoyer à l’utilisateur des résultats plus diversifiés pour fournir une bonne couverture de l’information disponible sur le Web concernant la requête [50, 180]. Autrement, les résultats retournés devraient donner un aperçu de différents intentions de l’utilisateur derrière sa requête. La question de la diversité des résultats retournés est encore plus importante pour les requêtes courtes ou ambigües. Par exemple, pour la requête “travelling to London”, il serait plus bénéfique de retourner des cartes, blogs, données météorologiques, etc. La RI agrégée permet d’apporter des solutions à cette problématique. En effet, son objectif est d’intégrer d’autres types de documents (pages Web, images, vidéos, cartes, actualités, etc.) dans la page de résultats. Ce type d’agrégation est aujourd’hui adopté par la majorité des moteurs de recherche : Google’s Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 54 Universal Search 4 , Yahoo !7 5 , Ask 6 et Microsoft’s Live 7 , etc. Les utilisateurs ont accès ensuite à différents types de résultats dans une seule interface. Ceci peut être favorable pour certaines requêtes, de type par exemple “jaguar”. En effet, cette même requête est soumise aux deux moteurs de recherche Web Yahoo ! et ASK (consultés en novembre 2012) qui renvoient des résultats dans des pages agrégées indiquées dans les figures 3.1 et 3.2, respectivement. La page agrégée retournée par Yahoo !7 contient des informations appropriées aux différents contextes de la requête (e.g. jaguar cars, jaguar cats, etc.). Quant au moteur ASK, il affiche en plus une liste de sujets proposés associés à la requête sur le panneau latéral (e.g. jaguar Cubs, jaguar Clipart, jaguar Food Chain, etc.). Figure 3.1 – Agrégation des résultats renvoyés par Yahoo !7 pour la requête “jaguar” 4. 5. 6. 7. http ://www.google.com/intl/en/press/pressrel/universalsearch 20070516.html http ://au.search.yahoo.com/ http ://www.ask.com/ http ://www.live.com/ Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 55 Figure 3.2 – Agrégation des résultats renvoyés par ASK pour la requête “jaguar” Une autre façon d’aborder l’agrégation et aller ainsi au-delà de la notion de liste ordonnée, est de présenter ces résultats sous forme de clusters. Dans [237], Zeng et al. proposent une approche basée sur le regroupement (clustering). Ils considèrent que le regroupement des résultats de recherche dans des clusters permet d’avoir des documents qui se concentrent sur certains aspects de la requête. Exemple de moteur de recherche qui se base sur la technique de regroupement, on trouve clusty 8 . Une autre approche commune pour fournir une telle vue d’ensemble est le résumé multi-documents. On trouve plusieurs systèmes qui adoptent cette technique pour agréger des résultats de recherche. Par exemple, WebInEssence [73], NewsInEssence [72], NewsBlaster [152] et QCS [74]. D’autres approches combinent à la fois deux techniques à savoir le regroupement et le résumé multi-documents proposé par Sushmita et al. [209]. En fait, il s’agit de construire un document fictif à partir d’un regroupement des résultats par un moteur de recherche sous forme des clusters. Ce document fictif est considéré comme la réponse à la requête ou chaque chaque cluster correspond à des résumés de documents web retournés. Une amélioration considérable de l’espace résultat de l’utilisateur est constatée. Le modèle de recherche orienté liste ordonnée devient moins efficace lorsque les informations demandées par l’utilisateur ne sont pas contenues dans un 8. http ://www.clusty.com Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 56 document unique, ou même dans une seule catégorie de ressource. On peut citer plusieurs exemples de requêtes pour lesquelles il est nécessaire de collecter et d’assembler les informations pertinentes sous forme d’une réponse (“Avatar trailer”, “kamini”, “Chelsea fc”, etc.). Ce nouveau paradigme de RI agrégée a été défini lors de l’atelier SIGIR’2008 : “Aggregated search is the task of searching and assembling information from a variety of sources, placing it into a single interface” [158]. 3.3.2 Domaines d’application de la RI agrégée La question d’agrégation de résultats a été abordée dans différents domaines. Nous illustrons dans ce qui suit les différentes instances de la RI agrégée vu sous des angles différents. 3.3.2.1 RI agrégée relationnelle Un des cadres de RI qui demande l’agrégation des résultats est la RI agrégée relationnelle. Ce type de RI agrégée porte sur deux approches à savoir la recherche orientée entité ainsi que la recherche relationnelle. – Recherche orientée entité : les entités nommées sont des concepts communs qui appartiennent à des catégories tels que les emplacements, noms de personnes, organisations, etc. Ils sont aussi appelés des instances de classes [24, 15, 122, 125]. Kato et al. [115] ont montré qu’environ 71% des requêtes de recherche Web contiennent des entités nommées. Une autre étude récente [27] sur les fichiers logs a révélé qu’environ 73% à 87% des requêtes contiennent des entités nommées et qu’environ 18% à 39% des requêtes sont des entités nommées. Quand on interroge sur l’entité, on peut alors retourner un lot des informations de ce sujet. Dans la littérature, il existe des approches qui prennent une entité comme une requête et retourne un contenu connexe tel que la page d’accueil Wikipedia de l’entité [24, 25], d’images [31], de profil d’une personne dans un réseau social [235], etc. – Recherche relationnelle : les approches d’extraction des entités tels que les noms de personnes, lieux, organisations, etc. permettent aussi de déterminer leurs relations tels que “John works for Motorola”. Dans [48], les auteurs identifient les différents types de requêtes qui peuvent être satisfaites par la recherche relationnelle. Pour illustrer, nous pouvons donner quelques exemples tels que “French wines”, “Capital of France”, “features of iPhone” [122]. La première requête peut être répondue avec une liste d’instances (entités nommées) alors que la seconde avec un at- Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 57 tribut et le troisième avec de nombreux attributs. La recherche relationnelle utilise des techniques d’extraction d’information [15] et de fouille des données semi-structurées [47]. Les techniques existantes peuvent découvrir des extraits d’information et leurs relations. Néanmoins, leur utilisation pour la RI reste limitée. 3.3.2.2 Recherche verticale La recherche verticale [20, 71, 158, 206, 124, 123] traite l’agrégation des résultats de recherche provenant de différents moteurs verticaux. Un moteur vertical peut être un moteur d’images, vidéos, actualités, etc. Ce type de recherche permet aux utilisateurs d’interroger différents moteurs verticaux à partir de la même interface. Le contenu pertinent peut être clairsemé dans les différentes sources. 3.3.2.3 Autres perspectives de la RI agrégée La RI agrégée peut être appliquer dans des domaines spécifiques. Les approches ci-après sont parfois trop spécifiques, mais il est important de les présenter parce qu’elles sont intéressantes et bien répandu dans la littérature. – La RI agrégée est appliquée dans un service de recherche unifiée de NAVER [164], le premier moteur de recherche coréen. Ce moteur de recherche permet aux utilisateurs de rechercher dans diverses collections de documents. – La RI agrégée est exploitée dans la recherche dans des bibliothèques numériques. Strotmann et al. [205] introduisent deux graphes à base de structure pour aider à naviguer dans des résultats de recherche. Le premier est un graphe sur les documents regroupés par auteur. Le second est un graphe des auteurs avec des liens basés sur l’analyse de co-citation. – La RI agrégée est utilisée également en sciences sociales. Kaptein et Marx [161] extraient et agrègent les concepts retrouvés, leurs relations, les méthodes de recherche et l’information contextuelle. Les résultats peuvent ensuite être consultées par la méthode, la relation ou le concept de recherche. Pour chaque concept de recherche, l’utilisateur reçoit un résumé de l’information contextuelle. – Le regroupement des actualités en fonction de la similitude et le temps a montré un effet bénéfique [189, 96]. Articles de presse à thèmes similaires et date de publication peuvent représenter l’historique d’un thème. Une telle organisation peut aider l’utilisateur à concentrer sa recherche dans un sujet et un intervalle de temps [139]. Un contenu multimédia peut être juxtaposé à cette historique [188]. C’est Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 58 le cas pour Google News 9 (voir figure 3.3). Rohr et al. [188] proposent un calendrier afin de montrer l’évolution d’un thème. Figure 3.3 – Résultats retournés par Google News pour la requête “chelsea”, consulté en avril 2009 [121] – La recherche géographique est devenu un axe de recherche très intéressant en RI [221, 108, 198]. L’information se rapporte à la situation géographique où les choses se passent dans un lieu géographique déterminé. Les personnes et leurs tâches sont liées à leurs positions. Cette relation devient importante lorsqu’on recherche des entités géographiques ou lorsqu’on personnalise la recherche en fonction du lieu de l’utilisateur [94, 156, 39]. Les entités géographiques peuvent être associées à d’autres types de contenu : des images [145, 120], entités liées nommés [222], actualités, etc. Ces relations peuvent devenir utiles pour d’autres RI agrégée inter-verticale ou de recherche Web. – Enfin, on trouvera d’autres approches utilisant le paradigme de RI agrégée dans la recherche fédérée [21, 13, 102, 49, 91], les applications mashup 10 [92, 181], les approches QR 11 [155, 232], les approches de GAT 12 9. http ://news.google.com/ 10. Les mash-up sont des outils agrégateurs et manipulateurs interactifs de données. Elles combinent d’une manière séquentielle ou parallèle des sources (contenu ou service) provenant de plusieurs applications plus ou moins hétérogènes dans des domaines spécifiques 11. QR : Question-Réponse 12. GAT : Génération Automatique de Textes Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 59 [162, 210, 163] et les discours politiques [114]. 3.3.3 Problématique de la RI agrégée Bien qu’il paraı̂t un peu abstrait au départ, plusieurs questions se posent dans la RI agrégée. Dans ce qui suit, nous citons quelques-unes mentionnées dans [121] : Identifier le type de réponse : le contenu des réponses renvoyées aux requêtes peut être différent. Pour certaines requêtes, une seule unité d’information suffit comme réponse, d’autres demandent de multiples unités. Des requêtes telles que “Capital of France”, “BBC home page”, “height of Everest”, “definition of Brontosaurus” peuvent être répondues par une seule unité d’information, tandis que des requêtes telles que “French wines by region”, “ratings of Nokia E72”, “Chinese restaurants at New York” et “all about Nokia E72” demandent de multiples unités. Identifier les unités d’information les plus pertinentes : en RI agrégée, nous pouvons récupérer des unités d’information avec des granularités différentes et de types différents. Cela permet d’avoir une réponse finale plus exhaustive. Il n’est pas anodin d’identifier les unités qui devraient être utilisées pour composer la réponse finale. Quand devrionsnous utiliser une unité d’information au lieu d’un document entier ? Quand devrions-nous utiliser le contenu multimédia (images, vidéos, etc.) ? Quand devrions-nous utiliser les moteurs de recherche spécialisés (recherche d’images, de recherche de vidéos de recherche nouvelles, etc.) ? C’est une des questions les plus difficiles dans ce domaine. Assembler les différentes unités d’information dans un document cohérent : la RI agrégée peut impliquer toutes les manières possibles d’assembler les résultats de recherche. Cela peut être un résumé, deux images et une définition, une table relationnelle, etc. L’un des objectifs de la RI agrégée est de choisir la meilleure agrégation selon les résultats de recherche disponibles. Quelle est la forme à laquelle le résultat final pourrait ressembler, il doit être lisible et cohérent. La principale question est de savoir comment assembler et évaluer la pertinence des résultats agrégés vis-à-vis de la requête, sachant qu’il est impossible de construire a priori toutes les combinaisons possibles des résultats. 3.4 3.4.1 RI agrégée dans les documents semi-structurés Problématique Comme nous l’avons mentionné dans le chapitre précédent, un problème principal de la RIS est comment sélectionner l’unité d’information qui répond le mieux à une requête de type CO [111, 80]. La plupart des approches en RIS Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 60 [202, 160, 127, 128, 177] considère que les unités retournées sont sous forme d’une liste d’éléments disjoints. Pour notre part, nous considérons que cette unité pertinente n’est pas nécessairement des éléments adjacents ou un document, elle pourrait aussi être une agrégation d’éléments de ce document. Soit par exemple, un document XML de structure illustrée par la figure 3.4. Si nous supposons que l’unité d’information pertinente est composée d’éléments “title” et “paragraph[2]”, situés au niveau de l’élément “section[2]”. Les autres éléments ne sont pas sollicités par l’utilisateur. La majorité des systèmes de RIS retournent le document en entier comme réponse à la requête. Afin d’élaguer les éléments non-pertinents de la réponse, nous considérons que l’unité d’information retournée est l’agrégat (ensemble d’éléments) formé des deux éléments “title” et “paragraph[2]”. Figure 3.4 – Exemple d’une structure d’un document XML L’idée derrière la sélection d’un ensemble d’éléments au lieu d’un élément tout seul vient du fait qu’un élément pourrait être partiellement pertinents pour une requête, alors qu’un ensemble d’éléments pourrait produire une meilleure réponse à l’utilisateur. Nous présentons dans ce qui suit les premières tentatives proposées permettant de répondre à cette problématique, à savoir la RI agrégée dans des documents XML. 3.4.2 Agrégation des documents XML La question de l’agrégation des éléments XML a reçu peu d’attention dans la littérature. En fait, le seul travail qui fait de l’agrégation dans des documents XML, au sens strict du terme, est celui proposé par Bessai et Alimazighi [29]. Pour cela, elles présentent un modèle pour la RIS, basé sur les réseaux possibilistes. Les relations document-éléments et éléments-termes sont modélisées par des mesures de possibilité et de nécessité. Dans ce modèle, la requête de l’utilisateur déclenche un processus de propagation pour retrouver des documents ou des unités d’information nécessairement ou au moins possiblement pertinents Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 61 par rapport à la requête. De plus, elles interprètent la notion de pertinence par deux dimensions : – une dimension qui mesure à quel point il est certain qu’une “composition d’éléments d’un document” est pertinente vis-à-vis de la requête ; – une dimension qui mesure à quel point il est possible qu’une “composition d’éléments d’un document” est possiblement pertinente pour la requête. Pour évaluer leur approche, les expérimentations sont menées sur une souscollection d’INEX 2005 (utilise un ensemble d’articles IEEE). On trouve également des approches qui représentent les résultats d’une requête sous forme des résumés de documents XML. Par exemple, eXtract [99] est un système de RIS qui génère des résultats sous forme des fragments à partir des documents XML (films 13 ). Un fragment XML est qualifié comme résultat s’il répond à quatre caractéristiques : autonome (compréhensif par l’utilisateur), distinct (différent des autres fragments), représentatif (des sujets de la requête) et succinct. On trouve également d’autres approches qui s’adressent au problème d’affichage des résultats de la recherche dans des documents XML [98, 142]. 3.4.3 Motivations Contrairement aux approches citées précédemment, nous proposons un modèle permettant de sélectionner automatiquement des éléments XML qui répondent le mieux à une requête de type CO à partir de chaque document ainsi que leur agrégation dans un même résultat. Afin d’assurer que les éléments assemblés ne véhiculent pas la même information et afin de diversifier les résultats retournés par notre modèle, nous avons ajouté une première hypothèse de nonredondance sur les deux sources d’évidence (le contenu et la structure). Nous proposons également une deuxième hypothèse de complémentarité ne permettant d’assembler que des éléments porteurs de l’information pertinente et additionnelle. Le défi majeur de ce travail est de sélectionner et d’assembler des éléments pertinents, non redondants et complémentaires, et s’ils sont susceptibles de mieux répondre à la requête tous ensemble qu’une liste d’éléments pris séparément. Le modèle que nous proposons trouve ses fondements théoriques dans les réseaux bayésiens. La structure réseau fournit une manière naturelle de représenter les liens entre les éléments du corpus de documents XML et leurs contenus. Quant à la théorie des probabilités, elle permet d’estimer de manière qualitative et quantitative les différents liens sous-jacents. Elle permet notamment d’exprimer le fait qu’un terme est probablement pertinent vis-à-vis d’un élément et de 13. http ://infolab.standford.edu/pub/movies Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 62 mesurer à quel point une réponse à la requête contient des éléments pertinents, non-redondants et complémentaires. 3.5 Évaluation des systèmes de RI agrégée L’évaluation d’un SRI consiste à mesurer ses performances et estimer sa capacité à répondre aux besoins en information des utilisateurs. La performance ou la qualité d’un SRI est mesurée en comparant les réponses du système renvoyés à l’utilisateur pour une requête donnée, aux réponses idéales que l’utilisateur espère recevoir. Dans la littérature, différents modèles d’évaluation des SRI sont proposés tels que les modèles d’évaluation orientés laboratoire, les modèles d’évaluation par utilisation des contextes réels (user studies), etc. 3.5.1 Limites des modèles d’évaluation orientés laboratoire en RI agrégée Les premiers modèles d’évaluation des SRI sont basées sur une approche de type laboratoire (où laboratory-based model) initiée par Cleverdon [60] dans le cadre du projet Cranfield project II. Cette approche fournit des ressources de base pour l’évaluation d’un SRI, notamment une collection de requêtes, une collection de documents et des jugements de pertinence associés à chaque requête. Ce modèle d’évaluation orienté laboratoire est adopté dans les campagnes d’évaluation telles que TREC, INEX, etc. L’évaluation de la RI agrégée engendre de nouvelles problématiques liées, en particulier, à la notion de document en RI agrégée et l’absence des métriques d’évaluation spécifiques. 3.5.1.1 Absence de la notion de document en RI agrégée De manière générale, la RI agrégée peut être vue comme un moyen permettant d’assembler dans un même agrégat, du contenu pertinent provenant de plusieurs sources susceptibles de comporter une partie de l’information pertinente pour la requête. Dans le but de comparer les agrégats résultats fournis par un système de RI agrégée et les agrégats que souhaite recevoir l’utilisateur, il faut spécifier pour chaque requête l’ensemble de réponses idéales du point de vue utilisateur. La spécification des jugements de pertinence d’agrégats associés à la requête Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 63 constituent la tâche la plus difficile dans la construction d’une collection de test. À la différence des modèles d’évaluation orientés laboratoire où les documents pertinents doivent être connus et complets pour chaque requête. En bref, la notion de document n’existe pas dans la RI agrégée. 3.5.1.2 Insuffisance des métriques quantitatives Les métriques d’évaluation classiques tels que le rappel et la précision sont des mesures quantitatives considérées insuffisantes pour l’évaluation des systèmes de RI agrégée. En effet, l’évaluation par le biais de ces mesures se fait par rapport au nombre de documents retrouvés par le système. Ces mesures ne permettent pas d’évaluer la qualité d’un agrégat construit. Il s’agit d’évaluer, à un rang donné, un ensemble d’éléments qui peut comporter des bons et mauvais éléments : un tout pertinent ou non ! Il n’existe cependant pas des métriques spécifiques pour estimer cette qualité. 3.5.2 Modèles d’évaluation orientés RI agrégée Jusqu’à présent, différentes méthodes d’évaluation ont été menées pour mesurer les performances des systèmes de RI agrégée. Ces méthodes sont assez hétérogènes parce qu’elles ont été conçues avec des objectifs différents. Nous pouvons les classer par rapport à leur objectif. Dans [20, 136, 140], l’objectif principal est d’évaluer la sélection des sources. Dans [206, 208, 213], l’objectif principal est de comparer les interfaces de la RI agrégée inter-verticale. Dans [19], l’objectif d’évaluer les résultats de la RI agrégée. Dans [29], l’objectif principal est de montrer l’intérêt de la RI agrégée dans des corpus de documents XML. Nous allons décrire ci-après les différentes méthodes d’évaluation. Un protocole commun pour évaluer la sélection des sources est de demander aux participants de choisir qu’elles sont les sources pertinentes pour une requête. Liu et al. [140] ont effectué ce type de jugement de pertinence sur 2153 requêtes Web génériques. Dans [20], Arguello et al. ont évalué les résultats de recherche de 25195 requêtes en utilisant des données des utilisateurs issus des fichiers logs d’un moteur de recherche. Ce type d’évaluations est rapide, mais pas nécessairement exacte. Dans ce type jugement, on pourrait ne pas deviner le besoin d’information réelle ou négliger certaines interprétations de la requête et certaines requêtes peuvent exiger des connaissances spécifiques. Dans [206, 208], Sushmita et al. comparent l’efficacité de différentes interfaces pour la RI agrégée inter-verticale. Ils montrent que les utilisateurs trouvent des résultats plus pertinents lorsque les résultats de la RI agrégée inter- Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 64 verticale sont placés ensemble avec des résultats Web. Ils montrent également que placer les résultats de la RI agrégée inter-verticale au-dessus, au-dessous ou au milieu des résultat Web peut affecter la qualité de la recherche. Dans les deux études, les participants ont montré un grand intérêt d’avoir des résultats issus des sources différentes. Sushmita et al. proposent d’examiner le comportement d’utilisateurs envers les concepts proposés tels que digest pages (pages sommaires) et aggregated digest pages. Dans [35], diverses simulations des situations de tâches sont conçues à cette fin. Les résultats et les observations déduits par ces simulations peuvent informer les auteurs si les concepts proposés mèneront à une augmentation d’espaces de résultat et s’ils font que les approches sont les plus efficaces et pourquoi. Au lieu d’évaluer les performances des systèmes via les jugements des utilisateurs, les évaluations de pertinence ont été simulées à l’aide de fichiers logs d’un moteur de recherche [207, 71, 208]. Dans [71], Diaz montre que les requêtes qui obtiennent un taux élevé dans les fichiers logs des actualités sont probablement plus intéressantes. Les fichiers logs sont également utilisés dans [208]. Sushmita et al. ont montré que pour certaines sources telles que la vidéo, les comportements d’utilisateurs sont déterminés à partir de fichiers logs et différents. Bien que les fichiers logs permettent une évaluation à grande échelle automatique, ils ne peuvent pas être aussi réalistes qu’une utilisation des contextes réels. Récemment, Arguello et al. [19] ont proposé une méthodologie pour évaluer le classement des résultats de la RI agrégée. La pertinence des évaluations sont par paires de préférences entre des ensembles de résultats. Chaque ensemble de résultats contient des résultats issus d’une seule source. Ce travail ne se concentre pas sur la notion de pertinence de la source, mais plutôt sur l’efficacité relative au classement des résultats. Zhou et al. [240] proposent de bâtir une référence d’évaluation (benchmark) pour la RI agrégée inter-verticale à travers la réutilisation des références d’évaluation existantes. Les auteurs utilisent la tâche ClueWeb dans TREC [57] et construisent artificiellement des collections verticales par classification. Puis, ils choisissent des requêtes qui couvrent de nombreuse sources. Ce travail est considéré comme une étape vers l’évaluation des performances des SRI, même si un effort plus substantiel est nécessaire dans ce sens pour rendre la distribution des requêtes, des sources et des évaluations plus réalistes. Bessai et Alimazighi [29] ont proposé une méthode d’évaluation afin de valider leur modèle de RI agrégée dans des documents XML. Un questionnaire a été conçu afin de récupérer les jugements des utilisateurs et permettre l’analyse des résultats. Ce questionnaire contient une description de la tâche d’évaluation, des requêtes ainsi que des questions sur le résultat obtenu par le prototype. Chapitre 3. Vers la RI agrégée dans des documents semi-structurés 3.5.3 65 Discussion L’évaluation des performances des systèmes de RI agrégée reste un problème ouvert. Il existe différents types d’évaluation de pertinence, différentes mesures, alors qu’il n’y a pas encore un protocole d’évaluation commun. En particulier, il n’est pas clair quels sont les avantages de ces approches ?, et comment devraientelles être évaluées ? Nous savons que la RI agrégée inter-verticale peut fournir une orientation sur la diversité et l’exhaustivité des résultats, mais nous ne savons pas pourquoi et à quel point cette recherche peut contribuer à la RI. Les travaux de recherche doivent examiner de plus sur l’intérêt des méthodes d’évaluation orientées RI agrégée. 3.6 Conclusion Nous avons donnée dans ce chapitre un bref aperçu sur la question de la RI agrégée. Nous avons montré quelques exemples de domaines dans lesquels la RI agrégée a un sens. Nous avons présenté le processus général suivi par ce type de recherche ainsi que les problématiques liées à chacune des étapes. Nous avons également montré que peu de travaux de recherche ont assuré la RIS sous l’angle de l’agrégation des résultats. Nous avons également mis en évidence les problèmes liés à l’évaluation de ce type de recherche. Dans cette optique, nous développons dans la deuxième partie de ce manuscrit notre modèle de RI agrégée dans des documents XML. Deuxième partie Un Modèle de Recherche d’Information agrégée dans des documents XML basé sur les Réseaux Bayésiens 66 Chapitre 4 Un Modèle de RI Agrégée basé sur les Réseaux Bayésiens 4.1 Introduction L’agrégation des éléments XML en RIS a été peu étudiée en littérature. En fait, comme nous l’avons signalé précédemment, la seule approche qui traite de cette problématique est celle de Bessai et Alimazighi [29]. Unes de limites de cette approche vient du fait que les agrégats peuvent contenir des éléments redondants et/ou non complémentaires. Ces propriétés ne sont pas pris en compte dans cette approche alors que la nôtre les permis. De plus le modèle proposé se base sur un cadre possibiliste alors que dans notre cas, nous nous appuyons sur un cadre probabiliste. Dans ce chapitre, nous proposons une approche de RI agrégée des éléments XML basée sur les RB. En effet, nous proposons d’assembler automatiquement les éléments qui répondent le mieux au besoin de l’utilisateur formulé à travers une liste des mots-clés. On se limite à de requêtes de type CO. Chaque agrégat, qualifié comme réponse à la requête à partir d’un document XML, doit satisfaire aux trois propriétés suivantes : pertinence, non-redondance et complémentarité. Le modèle que nous proposons trouve ses fondements théoriques dans les RB. La structure réseau fournit une manière naturelle de représenter les documents, les éléments ainsi que la requête. La La théorie des probabilités permet de mesurer les différentes valeurs sous-jacentes du modèle. Ces valeurs permettent notamment de mesurer à quel point un agrégat contient des éléments potentiellement pertinents, non-redondants et complémentaires. Ce chapitre est organisé comme suit. La section 4.2 présente brièvement le Chapitre 4. Un Modèle de RI agrégée basé sur les RB 68 cadre théorique sur lequel repose notre modèle, à savoir les RB. Nous détaillons dans la section 4.3 le modèle que nous proposons. Ce modèle est basé sur un RB défini par une composante qualitative et une composante quantitative : – la composante qualitative représente les nœuds documents, éléments, termes d’indexation et la requête et les relations de dépendance existant entre eux ; – la composante quantitative mesure les poids des nœuds par les degrés de probabilité. La section 4.4 illustre ce modèle par un exemple. La dernière section 4.5 conclut le chapitre. 4.2 Les Réseaux bayésiens Les réseaux bayésiens, qui doivent leur nom aux travaux de Thomas Bayes au XVIIIe siècle sur la théorie des probabilités, sont le résultat de recherches effectuées dans les années 1980, dues à J. Pearl à UCLA et à une équipe de recherche danoise à l’Université de Aalborg. Aujourd’hui, les réseaux bayésiens se sont révélés des outils très pratiques pour la représentation de connaissances incertaines, et le raisonnement à partir d’informations incomplètes. Définition 1 (Réseau bayésien) Un réseau bayésien B=(G, θ) peut être formellement défini par : G = (V ,E), un graphe acyclique orienté où V est l’ensemble des nœuds de G, et E l’ensemble des arcs de G. θ = {P (Vi |P a(Vi )} ensemble des probabilités de chaque nœud Vi conditionnellement à l’état de ses parents P a(Vi ) dans G. Ainsi, un graphe est appréhendé selon un aspect qualitatif et un aspect quantitatif. L’aspect qualitatif du graphe indique les dépendances (ou indépendances) entre les variables et donne un outil visuel de représentation des connaissances, outil plus facilement appréhendable par ses utilisateurs. De plus, l’utilisation de probabilités permet de prendre en compte l’incertain, en quantifiant les dépendances entre les variables, c’est l’aspect quantitatif. Dans [165], J. Pearl a aussi montré que les réseaux bayésiens permettaient de représenter de manière compacte la distribution de probabilité jointe sur l’ensemble des variables : P (V1 , V2 , .., Vn ) = n Y i=1 P (Vi |P a(Vi )) (4.1) Chapitre 4. Un Modèle de RI agrégée basé sur les RB 69 Cette décomposition d’une fonction globale en un produit de termes locaux dépendant uniquement du nœud considéré et de ses parents dans le graphe, est une propriété fondamentale des réseaux bayésiens. Elle permet de calculer P (V ) d’une manière plus rapide lorsqu’il y a des dépendances entre les variables. Elle est à la base des premiers travaux portant sur le développement d’algorithmes d’inférence, qui calculent la probabilité de n’importe quelle variable du modèle à partir de l’observation même partielle des autres variables. 4.3 4.3.1 Un modèle de RI agrégée basé sur les RB Motivations Les travaux qui nous proposons ont pour but de définir un modèle de RIS permettant l’agrégation des éléments XML. D’une manière générale, quel que soit le modèle proposé dans la littérature, et particulièrement ceux qui assemblent les résultats de la recherche soit par regroupement, résumé multidocuments ou agrégation, la non-redondance et la complémentarité des résultats renvoyés ne sont pas considérées. Nous nous sommes particulièrement penchés dans nos travaux sur la résolution de trois points qui nous paraissent essentiels pour un modèle efficace et fiable en RI agrégée sur des documents XML : – dans le premier point, nous estimons que la pertinence d’un terme dans un élément d’une configuration donnée dépend d’une part de l’ensemble d’éléments constituant la configuration et d’autre part de la collection de documents. De ce fait, l’information non disponible dans un élément à un impact sur l’importance de cet élément dans l’ensemble d’éléments récupérés. Notre modèle est basé sur les RB, les mesures de probabilités permettent de représenter l’importance d’un élément dans un document et dans la collection. – le second point traite la redondance d’éléments véhiculant la même information. En effet, nous estimons que le fait de renvoyer des éléments qui sont similaires induit à du bruit. Nous suggérons tout d’abord d’appliquer une contrainte au niveau de la structure : les éléments d’un agrégat ne doivent pas avoir une relation d’inclusion entre eux (non-overlapping). La seconde contrainte renforce la première et sera appliquée au niveau de contenu. – le dernier point, la complémentarité, est étroitement lié au premier point. Il découle de fait qu’on cherche à assembler dans un agrégat d’éléments qui ajoutent ce qui manquait en matière d’informations pertinentes. Notre objectif est de permettre à un utilisateur de localiser les informations Chapitre 4. Un Modèle de RI agrégée basé sur les RB 70 les plus pertinentes, non-redondantes et complémentaires répondant complètement à ses besoins. 4.3.2 Architecture générale du modèle Le modèle que nous proposons est représenté par un réseau bayésien de topologie illustrée par la figure 4.1. D’un point de vue qualitatif, le graphe permet de représenter un document XML, ses éléments, les termes d’indexation et la requête. Les arcs orientés permettent de représenter les relations de dépendances entre les différents nœuds. Ces relations sont issues de la représentation DOM 1 d’un document XML. D’un point de vue quantitatif, notre modèle estime des valeurs sur les nœuds à l’aide des mesures de probabilité. Le noeud D représente un document de la collection C. Un document D est représenté par une variable aléatoire binaire, prenant ses valeurs dans le domaine D = {d, ¬d}. L’instanciation (ou activation) d’un nœud document, D = d (resp. ¬d) signifie que le document est pertinent (resp. non pertinent) étant donnée une requête. Nous nous intéressons qu’au cas où le document D = d est activé, et nous le notons d. Les noeuds E1 , E2 ,..., En représentent les éléments du document d. Chaque noeud Ej représente une variable aléatoire binaire prenant des valeurs dans l’ensemble {ej , ¬ej }. L’instanciation Ej = ej signifie que l’élément Ej est indexé par au moins un noeud terme. Les noeuds T1 , T2 ,..., Tm sont les noeuds termes d’indexation. Chaque noeud terme Ti représente une variable aléatoire binaire prenant des valeurs dans le domaine dom(Ti )={ti , ¬ti } où l’instanciation Ti = ti signifie que le terme Ti est présent dans le noeud père auquel il est relié c’est-à-dire le noeud balise ej contient ce terme ti . Il faut noter qu’un terme est relié aussi bien au noeud qui le comporte ainsi qu’à tous les ascendants de ce noeud. Une requête Q, prend ses valeurs dans le domaine dom(Q)={q, ¬q}. Nous sommes intéressés par l’instanciation de la requête, nous ne considérons que le cas où la requête est instanciée positivement Q = q, c’est-à-dire la requête introduit de l’information à travers le RB, et nous noterons Q indifféremment lorsque cela ne prête pas à confusion. Le passage du document vers la représentation sous forme de RB se fait de manière assez simple. Il consiste à garder la structure du document d et assigner des valeurs aux différents noeuds. 1. DOM : Document Object Model Chapitre 4. Un Modèle de RI agrégée basé sur les RB 71 Figure 4.1 – Architecture simplifiée par document du modèle proposé Considérons le sous-réseau composé du noeud document et des éléments. Les arcs sont orientés du noeud document vers les noeuds éléments exprimant les relations de dépendance entre les deux types de noeuds. Considérons maintenant le sous-réseau composé des noeuds éléments et termes d’indexation. Les termes de ce sous-réseau n’ont une existence que parce qu’ils apparaissent dans ces noeuds éléments qui sont leurs parents. Chaque élément ej (variable structurelle), ej ∈ E avec E = {e1 , ..., en } dépend directement de son noeud parent dans le RB du document d. Chaque terme ti ∈ T avec T = {t1 , ..., tm }, dépend uniquement des éléments où il apparaı̂t. Il faut également noter que la représentation fait apparaı̂tre un seul document (voir figure 4.1). En fait, nous considérons que les documents sont indépendants les uns des autres, et donc nous pouvons raisonner en considérant le sous-réseau qui représente le document que nous le traitons. Considérons à présent le sous-réseau constitué de la requête et ses termes d’indexation. La requête exprime une demande d’information à travers une liste de termes mais elle peut aussi en exclure d’autres. La requête propage l’information aux noeuds termes qui figurent dans la collection. Ces noeuds termes forment les noeuds parents de la requête. Un terme d’indexation de la requête n’apparaissant pas dans un document donné sera considéré comme un noeud terme racine, n’ayant pas de parents. Le système est instancié par la soumission de la requête. L’instanciation de la requête propage l’information à travers le réseau en activant les noeuds termes d’indexation, parents de la requête. Cette instanciation consiste à injecter la requête à travers les arcs activés du réseau pour rechercher les documents et Chapitre 4. Un Modèle de RI agrégée basé sur les RB 72 les éléments pertinents par rapport à la requête. Soit θi cette instanciation, θi = {E1 , E3 , E5 } noté {e1 , e3 , e5 } est un exemple d’une configuration déduite à partir de la figure 4.1. Une configuration donnée est considérée comme un résultat de la recherche. L’ensemble des instances possibles est noté θ. Nous supposons que la requête Q est composée d’une simple liste de motsclés : Q = {t1 , ..., tm }. L’importance relative des termes entre eux est ignorée et nous notons T (Q) l’ensemble des termes d’indexation de la requête Q, et T (E) l’ensemble des termes d’indexation des éléments du document d. Les termes de la requête qui indexent les éléments de documents, ti ∈ (T (Q) ∧ T (E)), sont évalués dans le contexte de leurs parents par P (ti |ej ), et séparés des termes de la requête absents des éléments de documents. 4.3.3 Évaluation de la requête par propagation L’évaluation de la requête est effectuée par la propagation de l’information apportée par la requête à travers le réseau. Dans notre modèle, le processus de propagation est similaire à la propagation probabiliste bayésienne [28, 33]. Le processus d’évaluation consiste à propager l’information injectée par le noeud requête vers le noeud document. Les arcs reliés à la requête sont instanciés dans le but de calculer pour chaque configuration potentielle (instanciation de noeuds éléments) sa valeur de pertinence et complémentarité étant donnée cette requête. À l’issue du processus de propagation, chaque configuration aura un score global de pertinence et de complémentarité. La configuration retenue est celle qui présente le plus grand score. Cette configuration représentative d’un document forme un agrégat. Cet agrégat est le résultat de la recherche dans ce document pour une requête donnée. Nous décrivons dans ce qui suit, les différentes étapes pour propager une requête donnée vers le noeud document. Le modèle est instancié à la réception de la requête. Il existe une configuration possible des parents de la requête qui correspond aux noeuds termes, qui représentent la requête sous sa forme la plus stricte (exactement telle que formulée par l’utilisateur). Le processus de propagation évalue les valeurs de probabilité entre tous les éléments d’une configuration θi . Dans ce modèle, la probabilité jointe d’observer une requête Q et son résultat de recherche (réponse) θi dans un document d est donnée par : P (Q, θi , d) = X −−−→ T (Q) P (Q|T (Q)) × P (T (Q)|θi ) × P (θi |d) × P (d) (4.2) Chapitre 4. Un Modèle de RI agrégée basé sur les RB 73 −−−→ T (Q) représente l’ensemble des configurations possibles des parents de Q. La quantification totale de la pertinence et complémentarité d’une configuration d’éléments revient à quantifier chaque membre de la formule 4.2. Afin de simplifier notre modèle 2 , nous nous restreignons tout d’abord au cas où T (Q) ne contient que des instanciations positives des termes figurant dans la requête. Ensuite, des probabilités a priori sont affectées aux documents de la collection, égales à P (d) = N1 (en fait, un seul document est instancié à la fois, excluant l’instanciation des autres documents de la collection), mais elles sont supprimées du calcul de la propagation globale parce que ce membre de la formule 4.2 est considéré comme un coefficient uniforme appliqué à tous les documents de la collection. Donc, la formule 4.2 sera simplifiée par : P (Q, θi , d) = P (Q|T (Q)) × P (T (Q)|θi ) × P (θi |d) (4.3) La section 4.3.4 décrit les différentes façons que nous proposons pour estimer la valeur de probabilité du premier membre de la formule 4.3. Par la suite, nous donnons les pondérations attribuées aux termes d’indexation des éléments dans les configurations dans la section 4.3.5. Ceci correspond bien au deuxième membre de la formule 4.3. Dans la section 4.3.6, nous élaguons les configurations qui sont superflus avec la contrainte structurelle de redondance. Finalement, nous traitons le troisième membre de la formule 4.3. Il s’agit d’estimer la valeur de la complémentarité entre les éléments d’une configuration donnée dans la section 4.3.7. 4.3.4 Agrégation des termes de la requête La probabilité de la requête étant donnée les termes d’indexation, P (Q|T (Q)), dépend de l’interprétation de la requête. Plusieurs interprétations sont possibles. Les termes de la requête peuvent être connectés par une conjonction, une disjonction, ou par une somme probabiliste, ou encore une somme probabiliste pondérée. Ces deux dernières agrégations ont déjà été proposées dans les travaux de Turtle [220] et Boughanem et al. [36]. L’idée majeure de l’agrégation des termes de la requête est de mesurer 2. L’utilisation des RB en RI a été un challenge à cause de deux principaux problèmes liés à leur utilisation : (i) le temps de calcul des distributions de probabilité et l’espace nécessaire à leur stockage augmentent d’une manière exponentielle avec le nombre de noeuds dans le réseau ; (ii) la complexité de la propagation de l’information, c’est-à-dire les inférences nécessaires à propager l’information, dans un réseau est un problème NP-complet [62] (Ceci parce que dans les réseaux généraux, il peut exister plusieurs chemins entre les paires de noeuds du graphe). Chapitre 4. Un Modèle de RI agrégée basé sur les RB 74 la conformité d’une configuration possible, en l’occurrence celle trouvée dans un élément donné, avec la configuration des termes de la requête. Pour ce −−−→ faire, pour toute configuration, T (Q) de T (Q), la probabilité conditionnelle P (Q|T (Q)) est spécifiée par des fonctions d’agrégation en fusionnant les fonctions de ressemblance élémentaires P (Q|Tk = tk ). Chaque P (Q|tk ) est le poids de la conformité entre l’instance tk du terme Tk avec celle de la requête (dans Q). Une fonction de ressemblance élémentaire évalue donc à quel point une instance d’un terme dans une configuration donnée ressemble à l’instanciation de ce même terme dans la requête. Cette configuration est en fait la configuration telle que trouvée dans un document. Le stockage de toutes les configurations possibles des termes de la requête est coûteux en espace et le temps de calcul croı̂t de manière exponentielle avec le nombre de termes parents de la requête. En effet, une requête, Q de domaine binaire, composée de 20 termes de domaines binaires aussi, nécessite 2×220 calculs de configurations possibles. Dans notre cas, nous nous intéressons uniquement au cas Q = q, que nous notons Q pour simplifier. Une organisation possible serait de pondérer chaque terme de la requête et de calculer le poids de la jointure des termes de la requête. Lorsque l’utilisateur ne fournit aucune information sur les opérateurs d’agrégation de sa requête, l’unique connaissance disponible est l’importance du terme dans la collection. Cette connaissance est disponible pour chaque terme. Nous supposons aussi que les termes sont indépendants. En fait, les modèles basés sur les RB existants supposent l’indépendance entre les termes pour faciliter les calculs, toutefois cette supposition entrave l’exactitude de ces modèles. Mais, les conclusions des expérimentations sur différentes collections d’évaluation sont mitigées. En effet, la prise en compte des relations de dépendances entre les termes ne sont pas toujours avérées efficaces en termes de précision [41]. Le premier membre de la formule 4.3 sera transformé en : P (Q|T (Q)) = P (Q|T1 , ..., Tm ) = Y P (Q|Tk ) (4.4) Tk ∈T (Q) Nous donnons dans ce qui suit les différentes techniques que nous proposons pour agréger les termes de la requête. Ces techniques sont inspirées des travaux de Boughanem et al. [36, 40] Chapitre 4. Un Modèle de RI agrégée basé sur les RB 4.3.4.1 75 Agrégations booléennes des termes de la requête Conjonction : pour une requête booléenne, ET, le processus d’évaluation restitue les éléments contenant tous les termes de la requête. Ainsi, P (Q|Tk ) = ( 1 0 si Tk = tk , sinon. (4.5) La probabilité de la requête Q étant donnée une configuration possible, T (Q), −−−→ de T (Q) de tous ses parents est donnée par : P (Q|T (Q)) = ( 1 0 si ∀Tk ∈ T (Q), Tk = tk , sinon. (4.6) Dans 4.6, il faut que chaque terme Tk parent de la requête Q soit instancié dans T (Q) comme dans la requête. Les éléments pertinents pour ce type de requête sont les éléments contenant simultanément tous ses termes. Disjonction : pour une requête booléenne, OU, un élément est plus ou moins pertinent s’il contient au moins un terme d’indexation de la requête. La pertinence finale d’une configuration augmente avec le nombre de termes de la requête présents. La conjonction pure est manipulée en remplaçant ∀ par ∃ dans la requête conjonctive 4.6. P (Q|T (Q)) = ( 1 0 si ∃Tk ∈ T (Q), Tk = tk , sinon. (4.7) Cette interprétation est trop large pour discriminer entre les éléments. Dans le cas de la disjonction, le système restitue les éléments contenant au moins un terme de la requête. La configuration contenant tous les termes de la requête peut être restituée avec un score de pertinence plus faible qu’une autre configuration ne contenant qu’un terme de la requête. Dans notre approche, le calcul de la pertinence d’une configuration vis-à-vis d’une requête dépend de la valeur maximum des instances des configurations des parents de la requête. Ce maximum atteint rapidement la valeur 1, il suffit pour cela qu’au moins un terme de la requête soit instancié telle que dans la configuration. Le score de pertinence finale d’une configuration donnée dépend des poids des termes de la requête présents et absents dans l’ensemble d’éléments en question. Ainsi, soit une requête Q composée des deux termes t1 , t2 . Il n’est pas impossible que l’élément e1 contenant le terme t1 se retrouve avec un score de pertinence plus élevé que celui d’un élément e2 contenant les deux termes de la requête. Négation : la requête peut contenir la négation d’un terme, signifiant que l’utilisateur ne veut pas voir ce terme dans l’élément restitué. Lorsque l’élément contient ce terme alors la pertinence est nulle. La négation d’un terme est une Chapitre 4. Un Modèle de RI agrégée basé sur les RB 76 opération unaire. Ainsi : P (Q|Tk ) = ( 1 0 si Tk = ¬tk , sinon. (4.8) Le terme parent de la requête doit être instancié à non représentatif lorsque la requête contient la négation du terme. 4.3.4.2 Quantification des termes de la requête Supposons qu’une requête est satisfaite par un élément si elle contient au moins K termes communs avec l’élément. Nous considérons une fonction croissante, f ( K(Tn(Q) ), tel que K(T (Q)) est le nombre de termes de la requête instanciés dans une configuration donnée de T (Q), et que la requête contient n termes. Nous posons f (0) = 0 et f (1) = 1. f est un quantificateur flou [234]. Par exemple, ( i 1 si i ≥ K(Tn(Q)) , (4.9) f( ) = 0 sinon. n Pour l’agrégation donnée par 4.9 il faut qu’au moins K termes de la requête soient en conformité avec T (Q). D’une manière générale, f peut être une fonction non booléenne. L’approche quantifiée pour calculer la probabilité d’une requête Q étant donnée une configuration T (Q) de tous ses parents, est donnée par : P (Q|Tk ) = f ( K(T (Q)) ) n (4.10) Le tableau 4.1 présente les résultats d’une quantification sur une requête Q contenant trois termes T 1, T 2, T 3. Pour cette quantification, la configuration est considérée “conforme” si au moins deux termes ont la même instanciation que dans la requête. Le choix du nombre de termes satisfaits de la requête reste arbitraire. Dans ce cas, cette attribution peut être une fonctionnalité du système, ou bien l’utilisateur peut spécifier dans sa requête le nombre de termes indexant l’élément à partir du quel il considère sa requête comme satisfaite. Par exemple, il peut introduire des quantificateurs du type “au moins deux termes”. D’autre part, cette quantification, comme dans le cas d’une agrégation disjonctive de la requête, ne permet pas de discriminer entre les documents de la collection. En effet, seul le nombre de termes satisfaits est considéré. L’importance du terme satisfait (par exemple terme rare, terme fréquent dans la collection) n’est pas considérée. Chapitre 4. Un Modèle de RI agrégée basé sur les RB T1 T2 T3 P (Q|T (Q)) t1 t1 t1 t1 ¬t1 ¬t1 ¬t1 ¬t1 t2 t2 ¬t2 ¬t2 t2 t2 ¬t2 ¬t2 t3 ¬t3 t3 ¬t3 t3 ¬t3 t3 ¬t3 1 1 1 0 1 0 0 0 77 Table 4.1 – Agrégation quantifiée des termes de la requête P (Q|T (Q)) La combinaison des termes de la requête peut être basée sur le “noisy-Or” [107, 36, 166]. Cet opérateur permet de quantifier les termes de la requête instanciés dans une configuration donnée comme dans la requête. Par souci de simplification de calcul, nous nous limitons à des agrégations booléennes dans notre modèle. 4.3.5 Pertinence Nous présentons dans cette section les pondérations que nous avons proposées pour les termes d’indexation. Ces pondérations sont reliées aux relations de dépendance existantes entre un noeud terme et ses parents s’ils existent. En effet, lors du calcul de la pertinence d’une configuration de termes dans une configuration d’éléments, certains termes apparaissent dans les éléments et la requête et d’autres n’apparaissent pas dans les éléments. Dans nos travaux actuels, les termes absents dans une configuration sont considérés lors des calculs de la pertinence afin d’éviter le problème d’éléments nuls. Un terme en relation sémantique ou statistique à un terme de la requête et présent dans un élément peut apporter de l’information supplémentaire et peut constituer un élément intéressant à intégrer dans le calcul de la pertinence d’une configuration donnée. Pour évaluer la probabilité qu’une configuration de termes d’indexation fasse partie dans une configuration d’éléments, le deuxième membre de la formule 4.3 sera transformé en : P (T (Q)|θi ) = P (T1 , ..., Tm |θi ) = Y P (Tk = tk |θi ) Y P (tk |θi ) Tk ∈T (Q) = tk ∈T (Q) (4.11) Chapitre 4. Un Modèle de RI agrégée basé sur les RB 78 Dans une configuration donnée, un terme représentatif d’un élément est un terme qui contribue à sa restitution en réponse à une requête. La probabilité que le terme tk fasse partie d’une configuration θi est calculée par P (tk |θi ). En fait, nous avons besoin de cette probabilité pour déterminer la pertinence de cette configuration de termes d’indexation dans une configuration d’éléments. Cette probabilité est estimée par : seulement les termes instanciés et qui apparaissent à la fois dans la configuration de termes T (Q) et la configuration d’éléments θi sont considérés. Nous supposons que les termes de T (Q) sont indépendants. La probabilité P (tk |θi ) peut être estimée en utilisant une estimation du maximum de vraisemblance sur la fréquence du terme ti dans θi . Ceci correspond au premier facteur de la formule 4.12. Afin d’éviter le problème des fréquences nulles des quelques termes (quand un terme ne figure pas dans une configuration θi et éventuellement dans ses éléments), il faut ajouter la fréquence du terme dans la collection avec celle calculée avec le document (premier facteur de la formule 4.12). Ceci correspond au deuxième facteur de la formule 4.12. La formule 4.12 correspond en fait à une technique de lissage de type Dirichlet [238] mais appliquée à chaque élément XML. tf (tk ) tf (tk , θi ) + λt P ∀t∈d tf (t, d) ∀t∈C tf (t) P tf (tk ) ∀e ∈θ tf (tk , ej ) + λt P = (1 − λt ) P j i ∀t∈d tf (t, d) ∀t∈C tf (t) P (tk |θi ) = (1 − λt ) P Avec : (4.12) 1. tf (tk , θi ) est la fréquence du terme tk dans l’ensemble des éléments formant la configuration θi . 2. tf (t, d) est la fréquence du terme t dans le document d. 3. tf (tk , ej ) est la fréquence du terme tk dans l’élément ej . 4. tf (tk ) est la fréquence du terme tk dans la collection de documents C. 5. λt = µ . |d|+µ λt ∈ [0; 1] est un paramètre de lissage. 6. µ est une constante égale à µ=300. 4.3.6 Redondance Définition 2 (Redondance) Nous considérons que deux éléments sont redondants si et seulement si ils véhiculent la même information. Dans chaque configuration, nous nous sommes intéressés à l’agrégation d’éléments qui ne véhiculent pas la même information. La redondance est traitée dans notre modèle au niveau structurel avec une première hypothèse (H1) quand un agrégat est construit à partir d’un document. Une deuxième Chapitre 4. Un Modèle de RI agrégée basé sur les RB 79 hypothèse (H2) sera appliquée au niveau du contenu quand notre processus est généralisée : agrégat multi-documents 3 . – H1 : cette hypothèse est qualifiée comme contrainte de structure ou d’inclusion permettant d’éliminer les redondances. Nous considérons que la présence d’une relation ancêtre-descendant entre deux éléments signifie que l’un est inclus dans l’autre. Autrement, nous supposons qu’un utilisateur préfère ne pas avoir des éléments imbriqués dans une configuration donnée parce que ces éléments véhiculent les mêmes informations mais à des granularité différentes. Par exemple, dans la figure 4.1, les éléments e4 et e5 ne doivent pas figurer dans la même configuration. De même pour l’élément e2 et e5 . Par contre, dans une telle configuration, nous pouvons avoir à la fois les éléments e3 et e5 qui portent des informations différentes. – H2 : cette hypothèse est considérée comme une contrainte de contenu ou de détection de nouveauté/redondance. Nous supposons qu’un utilisateur préfère retrouver dans une configuration donnée des éléments non redondants à partir de plusieurs documents. Par souci de simplicité, nous supposons que la détection de nouveauté/redondance est effectuée entre les éléments d’une configuration donnée qui sont censés être pertinents. Nous formulons cette problématique par la mesure suivante Redondance(ei , θi ) basée sur l’hypothèse que la redondance d’un élément ej dépend de la configuration θi . Dans la littérature et dans le cadre de la campagne d’évaluation TREC, nous trouvons les approches les plus étroitement liés à la détection de nouveauté/redondance de Clarke et al. [59] qui proposent un cadre d’évaluation dans TREC afin de mesurer systématiquement la nouveauté et la diversité. La mesure proposée se base sur le gain cumulé nxCG (voir formule 2.14). Nous trouvons également d’autres approches qui se basent sur la technique de clustering pour mesurer la redondance d’un document par sa distance à chaque cluster dans [153, 204, 78]. Zhang et al. proposent dans [239], une autre mesure de la redondance en se basant sur la distance entre un document et chacun des autres documents. Pour simplifier notre modèle, nous utilisons la mesure de similarité cosinus 4 pour détecter la redondance entre les éléments de résultats de recherche. Nous supposons que la redondance d’un élément ej dépend de θi , l’ensemble des éléments qualifiés comme réponse à la requête Q. Nous utilisons Redondance(ej , θi ) pour mesurer si ej est redondant avec θi . Une façon de calculer cette redondance est de considérer ej et θi représentés sous forme de vecteurs de termes. − → → Redondance(ej , θi ) = cosinus(− ej , θi ) (4.13) Une autre façon de faire ce calcul est de mesurer la similarité entre ej et 3. C’est un agrégat généré à partir de plusieurs documents. 4. cosine similarity, en anglais. Chapitre 4. Un Modèle de RI agrégée basé sur les RB 80 chacun des éléments ep de θi . Redondance(ej , θi ) = max j6=p,∀ep ∈θi → → cosinus(− ej , − ep ) (4.14) Dans notre modèle, nous utilisons la formule 4.14 pour détecter les éléments redondants dans une configuration donnée θi . 4.3.7 Complémentarité Définition 3 (Compléméntarité) Nous considérons que deux éléments sont complémentaires si et seulement si l’un apporte de l’information pertinente et additionnelle à l’autre. Le troisième membre de la formule 4.3, P (θi |d), mesure la complémentarité entre les éléments d’une configuration possible. On considère que les éléments regroupés dans une telle configuration sont indépendants alors les hypothèses d’indépendance conditionnelle nous permettent ensuite d’écrire : P (θi |d) = Y P (ej |d) (4.15) ej ∈θi L’intérêt de propager une information complémentaire d’un élément ej vers la racine du document d dans une configuration donnée θi indique à quel point cet élément ajoute ce qu’il manquait en matière d’information à cette configuration. On suppose que les éléments loin du noeud racine du document d paraissent plus porteurs d’informations complémentaires que ceux situés là-haut du document. Intuitivement, plus la distance entre un élément et la racine est grande, plus il contribue à la complémentarité des éléments de la configuration θi . Nous modélisons cette intuition par l’utilisation dans la fonction de propagation de complémentarité les deux variables dist(d, ej ) et dist(d, deepdown(ej )), qui représentent respectivement la distance entre le noeud racine d et un de ses noeuds descendants ej du document (relativement à une configuration donnée θi ), et la profondeur maximale de la branche qui passe par le noeud interne ej noté deepdown(ej ). La distance entre deux noeuds quelconques est déterminée par le nombre d’arcs qui les séparent. La mesure de probabilité de propagation d’un élément ej , supposé complémentaire dans une configuration θi , vers le noeud racine d est quantifiée comme suit : P (ej |d) = dist(d, ej ) dist(d, deepdown(ej )) (4.16) La formule 4.16 indique que plus un noeud est proche de la racine, moins il contribue à la complémentarité d’une configuration donnée. À titre d’exemple et dans la figure 4.1, les contributions des éléments E2 et E4 notés respectivement Chapitre 4. Un Modèle de RI agrégée basé sur les RB 81 e2 et e4 (dans ce cas, l’élément le plus profond est E5 et sera noté par e5 ), dans la complémentarité d’une configuration θi seront estimés comme suit : P (e2 |d) = 1 dist(d, e2 ) = dist(d, e5 ) 3 (4.17) P (e4 |d) = dist(d, e4 ) 2 = dist(d, e5 ) 3 (4.18) Finalement, la probabilité jointe de la formule 4.3 se simplifie en : P (Q, θi , d) = Y tk ∈T (Q) P (Q|tk ) × Y tk ∈T (Q) P (tk |θi ) × Y P (ej |d) (4.19) ej ∈θi Dans notre modèle la configuration qui sera sélectionnée est celle qui, comporte les termes de la requête, maximise la pertinence et la complémentarité de ses éléments et élimine ceux qui sont redondants. Cette configuration représentative d’un document forme un agrégat : un résultat de la recherche de la requête dans le document. Les deux notions redondance et complémentarité seront discutées dans la section 5.4.5 du chapitre suivant (5). 4.4 Illustration du modèle proposé Le but de cette section est de faire une exécution à la main de notre modèle. Pour illustrer notre approche, nous avons pris un exemple d’une requête de type CO : “pyramids of Egypt”, cherchant des éléments (title, abstract, section, paragraph, etc.) dans des documents XML sur les pyramides d’Egypte. Un exemple de document XML (un extrait d’un document) ainsi que le RB qui lui est associé sont présentés respectivement dans les figures 4.2 et 4.3. Figure 4.2 – Extrait d’un document XML Chapitre 4. Un Modèle de RI agrégée basé sur les RB 82 Figure 4.3 – Réseau bayésien relatif à la requête et au document XML Pour cet exemple, l’ensemble des éléments relatifs au document est présenté par E = {e1 = T itle, e2 = Abstract, e3 = Section, e4 = T itleSection, e5 = P aragraph}. L’ensemble des termes d’indexation des éléments, calculé en utilisant le contenu de chaque élément ainsi que celui de ses éléments fils dans chaque configuration, est tel que T (E) = {t1 = Egypt, t2 = P yramid, t3 = T echnique, t4 = Construction}. L’ensemble des termes d’indexation de la requête est T (Q) = {t1 = Egypt, t2 = P yramid}. On ne considère que quelques termes pour ne pas encombrer l’exemple. Il s’agit de répondre à la requête Q contenant une fois chacun des termes t1 et t2 . La réception de la requête conduit à la propagation vers le noeud document. Le processus de propagation de l’information apportée par la requête entraı̂ne le calcul des probabilités conditionnelles de chaque configuration d’un document étant donnée la requête selon la topologie du graphe dans la figure 4.3. Pour calculer les valeurs de pertinence et complémentarité de chaque configuration possible dans un document donné, nous avons besoin de calculer la probabilité jointe P (Q, θi , d) donnée par la formule 4.19. D’une manière générale, le processus d’évaluation des configurations étant donnée une requête est déclenché pour tous les documents de la collection contenant au moins un terme de la requête. L’instanciation positive d’un document D, D = d, entraine le développement suivant : Agrégation booléenne des termes de la requête : le tableau 4.2 donne les valeurs de la probabilité conditionnelle de la requête Q dans le contexte de ses parents, T (Q). Les valeurs sont proposées pour une agrégation booléenne de type conjonctive, ET , et disjonctive, OU pour chaque configuration possible Chapitre 4. Un Modèle de RI agrégée basé sur les RB 83 des parents. T1 T2 t1 t2 t1 ¬t2 ¬t1 t2 ¬t1 ¬t2 ET OU 1 0 1 0 1 1 0 0 Table 4.2 – Probabilités conditionnelles des parents de la requête, T (Q) Lorsque la requête est en conjonction de termes, il n’existe qu’une seule configuration possible qui la satisfait, à savoir t1 , t2 . Dans l’exemple que nous présentons, le seul élément du document qui n’est indexé ni par t1 ni t2 est e4 . Logiquement, l’ensemble θ est égale à 25 − 1 configurations possibles parce que nous avons cinq éléments dans T (E) et la configuration vide n’est pas considérée. Et comme l’élément e4 n’est pas indexé par aucun élément de la requête, le nombre des configurations possibles devient alors égale à 24 − 1. Redondance : l’ensemble des configurations générées doit vérifier la première hypothèse H1. Cette hypothèse, qualifiée comme étant une contrainte d’inclusion, exige que deux éléments dans une même configuration possible θi ne se chevauchent pas (not overlapping). En appliquant H1, pas mal des configurations seront élaguées à partir de θ. Nous avons réellement 11 configurations possibles parmi les 24 − 1. En effet, dans une configuration donnée de la figure 4.3, nous ne pouvons pas avoir les deux éléments e3 et e5 parce qu’ils se chevauchent. Le tableau 4.3 donne toutes les configurations possibles θ déduites à partir de la figure 4.3 qui respecte l’hypothèse H1. Pertinence des termes dans les configurations : Le tableau 4.4 donne les probabilités conditionnelles des termes instanciés positivement étant donné une une configuration possible. Nous rappelons qu’un terme est relié aussi bien au noeud qui le comporte ainsi qu’à tous les ascendants de ce noeud. Certaines valeurs considérées dans le tableau 4.4 sont prises à titre d’exemple. Elles ne correspondent pas toujours aux résultats des formules considérées car nous ne disposons pas de tous les paramètres pour effectuer le calcul. Un point intéressant qui peut être remarqué, c’est que quand un terme de requête ne figure pas dans une configuration donnée, cette probabilité est lissée par la fréquence des termes dans la collection comme défini par la formule 4.12. Ces valeurs ne laissent pas de place pour une telle ignorance possible. Chapitre 4. Un Modèle de RI agrégée basé sur les RB θi e1 e2 e3 e5 θ1 θ2 θ3 θ4 θ5 θ6 θ7 θ8 θ9 θ10 θ11 1 1 1 1 1 1 0 0 0 0 0 1 1 1 0 0 0 1 1 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 84 Table 4.3 – Ensemble des configurations possibles P (tk |θi ) P (tk |θ1 ) P (tk |θ2 ) P (tk |θ3 ) P (tk |θ4 ) P (tk |θ5 ) P (tk |θ6 ) P (tk |θ7 ) P (tk |θ8 ) P (tk |θ9 ) P (tk |θ10 ) P (tk |θ11 ) t1 0,17 0,22 0,19 0,114 0,121 0,24 0,075 0,091 0,094 0,026 0,049 t2 0,25 0,34 0,219 0,108 0,17 0,1001 0,121 0,143 0,0911 0,0897 0,081 Table 4.4 – Distribution de probabilité P (tk |θi ) Complémentarité : la tableau 4.5 présente les probabilités conditionnelles d’un élément étant donné la racine du document où il apparaı̂t. Les valeurs déterminées dans ce tableau sont basées sur la formule 4.16 à partir de la figure 4.3. Sélection de l’agrégat : la probabilité jointe de la formule 4.19, pour chaque configuration, est déterminée dans le tableau 4.6. Ainsi, la configuration qui sera qualifiée comme réponse à la requête dans le document D est celle qui possède le meilleur score. Nous appelons cette configuration agrégat. Dans notre exemple, θ2 est qualifié comme agrégat. Chapitre 4. Un Modèle de RI agrégée basé sur les RB ei e1 e2 e3 e5 85 P (ej |d = Article) 1 =1 1 1 =1 1 1 =0,5 2 2 =1 2 Table 4.5 – Distribution de probabilité P (ej |d) θi θ1 θ2 θ3 θ4 θ5 θ6 θ7 θ8 θ9 θ10 θ11 Score 0,02125 0,0748 0,04161 0,006156 0,02057 0,024024 0,0045375 0,013013 0,0085634 0,0011661 0,003969 Table 4.6 – Calcul du score de chaque configuration possible D’une manière générale, les agrégats sont alors restitués par ordre décroisant de leur probabilité de pertinence et complémentarité. Nous montrons dans le chapitre des expérimentations (Chapitre 5) des agrégats assemblant des éléments pertinents, non redondants et complémentaires et nous discutons leurs effets sur les performances du système de RI ainsi que l’utilité d’une telle agrégation dans des documents XML. 4.5 Conclusion Nous avons décrit dans ce chapitre un nouveau modèle de RI agrégée dans des documents XML. Ce modèle traite la pertinence, la redondance et la complémentarité des éléments assemblés dans des agrégats d’une manière originale basée sur la théorie des probabilités et particulièrement les réseaux bayésiens. Les noeuds dans ce réseau représente un document XML, ses éléments, les termes d’indexation et la requête. Les arcs entre les noeuds permettent de représenter les relations de dépendances entre les différents noeuds. Ces noeuds sont quantifiés par une mesure de probabilité afin de calculer un score pour chaque configuration possible. La configuration qui possède le meilleur score et qui répond à la première contrainte d’inclusion structurelle, sera qualifiée Chapitre 4. Un Modèle de RI agrégée basé sur les RB 86 comme le résultat de recherche dans le document d étant donné une requête Q. Et cette configuration sera appelé agrégat. Nos contributions peuvent être essentiellement en trois directions : – assembler des éléments pertinents par documents ; – élaguer ceux qui sont redondants en appliquant l’hypothèse H1. Si nous souhaitons générer des agrégats multi-documents, nous appliquons dans ce cas l’hypothèse H2 ; – favoriser dans la formule de calcul de score d’une configuration (cf. formule 4.15) les éléments qui se complètent mutuellement pour avoir une réponse plus complète (pertinence additionnelle). Il est indéniable que les points cités ci-dessus sont étroitement liés. Finalement, nous avons tenté de proposer des poids aux termes dans le but de calculer le degré de spécificité dans une collection des documents. Ces poids ont été utilisés dans notre approche pour mesurer l’absence des termes de la requête des éléments d’une configuration lors de calcul des valeurs de pertinence (cf. formule 4.12). D’autre part, nous avons considéré que la restitution d’un agrégat en réponse à une requête peut être considérée dans un cadre d’inférence. En effet, la restitution d’un agrégat est “causée” par la soumission d’une requête au système. Les techniques sur lesquelles se basent la plus part des modèles en littérature pour restituer des agrégats ou une liste d’éléments en réponse à un besoin informationnel ne traitent pas les deux notions : redondance et complémentarité, alors que le mien les permis. Plutôt, ils se limitent à la notion pertinence. Le dernier chapitre est consacré à la phase de mise à l’épreuve de nos propositions sur la collection de test INEX 2009. Chapitre 5 Expérimentations 5.1 Introduction Les expérimentations que nous décrivons dans ce chapitre ont été effectuées sur la collection de test fournie dans la cadre de la campagne d’évaluation INEX 2009. Nous avons développé un système de recherche agrégée basée sur le modèle inférentiel que nous avons proposé. Nous avons mené deux types d’expérimentations. La première série d’évaluation mesure les performances de notre modèle en comparant notre résultat avec les meilleurs résultats enregistrés par les participants à INEX 2009. La seconde série d’évaluation concerne du coeur de notre modèle, évaluer l’intérêt de la pertinence d’un agrégat pour répondre à une requête ainsi que les impacts de la redondance et la complémentarité sur les performances des résultats enregistrés. Ce chapitre est organisé comme suit. La section 5.3 présente la première série d’évaluation. Dans cette section, nous décrivons rapidement la collection de test utilisée, à savoir INEX 2009, la stratégie d’évaluation utilisée ainsi qu’une évaluation comparative avec les meilleurs résultats enregistrés selon la stratégie Focused. La seconde série d’expérimentations est décrite dans la section 5.4, en l’absence de protocole ainsi que de collections de test appropriés, nous avons élaboré notre propre cadre. Nous avons exploité aussi la collection INEX 2009 pour ce cadre. Dans cette section, nous présentons le protocole d’évaluation ainsi que l’analyse des résultats enregistrés de différentes expérimentations dans ce cadre afin d’évaluer l’impact de la RI agrégée. Chapitre 5. Expérimentations 5.2 88 Collection de test Pour l’évaluation des performances, nous nous appuyons sur la collection de test fournie dans le cadre de la campagne d’évaluation INEX 2009. 5.2.1 Collection de documents À partir de 2006 et jusqu’à 2008, la collection “Wikipedia” [69] a été utilisée dans la plupart des tâches. Cette collection de 6 Go, est composée de 659 388 documents d’une profondeur (nombre de niveaux) moyenne de 6,72. Le nombre moyen de nœuds XML par document est 161,35. Cette collection est également utilisée dans la tâche multimedia, elle contient environ 246 730 images. En 2009, une extension de la collection Wikipedia est fournie [199]. Elle comporte 2 666 190 articles Wikipedia annotés et ayant une taille totale aux alentours de 50,7 Go. Cette collection contient 101 917 424 éléments XML ayant au moins 50 caractères (y compris les espaces blancs). Cette collection est utilisée dans la tâche adhoc ainsi que dans d’autres tâches. 5.2.2 Topics Les topics adhoc ont été créés par les participants suivant des instructions précises. Les topics contenaient une courte requête CO, une option de requête structuré CAS, un titre, une ligne décrivant la requête et le récit avec quelques détails de la requête et le contexte de travail dans lequel le besoin d’information se pose. Pour les topics sans le champ < castitle >, par défaut requête CAS est ajouté sur la base de la requête CO : //*[about(., ”CO-requête”)]. La figure 5.1 présente un exemple d’une topic adhoc. En fait, 115 topics ont été sélectionnés pour faire l’évaluation dans la campagne INEX 2009 et sont numérotées 2009001-2009115 [85]. Chapitre 5. Expérimentations 89 Figure 5.1 – Topic 2009114 de la campagne INEX 2009 5.3 Évaluation du modèle selon la stratégie de recherche Focused d’INEX En absence de cadre approprié pour l’évaluation de la pertinence des agrégats, nous avons adapté notre agrégat pour répondre à la stratégie de recherche Focused définis dans la cadre d’INEX. Nous allons décrire dans ce qui suit la stratégie de recherche Focused, la collection évaluée ainsi que la manière dont nous avons adapté notre résultat pour pouvoir effectuer ces évaluations. 5.3.1 Stratégie de recherche Focused d’INEX Plusieurs stratégies de recherche sont proposées dans la tâche ad-hoc, parmi lesquelles on peut citer la stratégie “focused”. Cette stratégie consiste à décider quels éléments doivent être retournés en se focalisant sur le besoin de l’utilisateur. Ces éléments doivent être les plus exhaustifs et spécifiques et ne doivent pas être imbriqués les uns dans les autres. Ce type de recherche suppose que l’utilisateur préfère l’élément (un seul) le plus pertinent d’un sous arbre pertinent [112]. 5.3.2 Adaptation de notre résultat Nous rappelons que dans notre approche, nous renvoyons des agrégats. Un agrégat comporte un ensemble d’éléments non redondants et complémentaires. Dans cette expérimentation, nous trions les éléments d’un agrégat selon un score de pertinence. Ainsi, nous comparons les éléments de notre agrégat avec la liste d’éléments renvoyés par les meilleurs résultats enregistrés par les participants à Chapitre 5. Expérimentations 90 INEX 2009. Pour que les résultats soient comparables, nous avons transformé nos agrégats sous forme d’une liste. Pour cela, nous parcourons les agrégats en largeur et en longueur afin de construire une liste d’éléments équivalente à celle retournée par les participants selon la stratégie de recherche Focused. 5.3.3 Résultats Dans cette expérimentation, nous utilisons les mesures officielles pour l’évaluation de notre résultat à savoir la précision interpolée selon certains niveaux de rappel sélectionnés iP [x] et la moyenne de ces précisions interpolées moyennées M AiP selon 101 niveaux de rappel [112]. L’intérêt de ces mesures est d’évaluer la pertinence des fragments de document et pas du document entier. Pour cela, le rappel et la précision ne sont pas calculés en terme de nombre de documents mais plutôt en terme de quantité d’information exprimée grâce au nombre de caractères. Ces mesures sont déjà présenté dans le chapitre 2, section 2.7.4.2. Le tableau 5.1 présente les meilleures résultats obtenus par les participants à INEX 2009 selon la stratégie Focused en utilisant uniquement des requêtes CO. La dernière ligne de ce tableau présente les résultats enregistrés par notre approche. La première colonne détermine le rang des runs. La deuxième colonne donne l’identifiant de chaque run. De la troisième à la cinquième colonne, nous donnons la précision interpolée aux points de rappel 0%, 1% et 5%. La dernière colonne donne la M AiP sur les 101 niveaux de rappel (0%, 1%, ..., 100%). D’après les résultats enregistrés, l’approche proposée est moins performantes que les approches existantes. En comparant notre résultat aux autres, nous remarquons que seulement sept résultats utilisent des requêtes de type CO. Les trois résultats suivants : le cinquième (p6-UamsFSsec2docbi100), le sixième (p5BM25BOTrangeFOC) et le septième (p16-Spirix09R001) utilisent des requêtes de type CAS. Le premier résultat (p78-UWatFERBM25F) effectue une recherche par passage (passage retrieval). Le deuxième résultat (p68-I09LIP6Okapi), le quatrième résultat (p60-UJM15525) et le septième résultat (p16Spirix09-R001) récupèrent seulement des articles complets. Par élimination, il nous reste à comparer notre résultat avec ceux qui sont les plus spécifiques, à savoir le troisième (p10-MPII-COFoBM), le huitième (p48-LIG-2009-focused1F), le neuvième (p22-emse2009-150) et le dixième (p25-ruc-term-coF), puisque notre approche récupère uniquement les éléments les plus spécifiques. Ça montre bien que notre résultat vient juste après ces quatre. Chapitre 5. Expérimentations Rang 1 2 3 4 5 6 7 8 9 10 11 Participant p78-UWatFERBM25F p68-I09LIP6Okapi p10-MPII-COFoBM p60-UJM-15525 p6-UamsFSsec2docbi100 p5-BM25BOTrangeFOC p16-Spirix09R001 p48-LIG-2009-focused-1F p22-emse2009-150 p25-ruc-term-coF Notre résultat 91 iP[0,00] 0,6797 0,6244 0,6740 0,6241 0,6328 0,6049 0,6081 0,5861 0,6671 0,6128 0,5659 iP[0,01] 0,6333 0,6141 0,6134 0,6060 0,5997 0,5992 0,5903 0,5853 0,5844 0,4973 0,4935 iP[0,05] 0,5006 0,5823 0,5222 0,5742 0,5140 0,5619 0,5342 0,5431 0,4396 0,3307 0,3112 MAiP 0,1854 0,3001 0,1973 0,2890 0,1928 0,2912 0,2865 0,2702 0,1470 0,0741 0,06547 Table 5.1 – Comparaison des résultats enregistrés dans le cas de la tâche CO de la collection INEX 2009 selon la stratégie Focused 5.4 Évaluation du modèle d’agrégation En raison de l’absence d’un cadre approprié pour évaluer la pertinence des agrégats, nous avons adopté une stratégie d’évaluation basée sur l’utilisation des utilisateurs sollicités pour évaluer la pertinence des éléments agrégés. Pour réaliser cette série d’expérimentations, nous avons sélectionné un ensemble de vingt requêtes CO. Ces requêtes sont numérotés 2009n avec n : 001-006, 010-015, 020, 023, 026, 028, 029, 033, 035, 036. Pour les participants, nous avons sollicité vingt-trois utilisateurs (doctorants et étudiants en M2) de notre laboratoire pour évaluer ces requêtes. La tâche d’évaluation est la suivante. Pour chaque requête soumise au système, le résultat de la recherche est une liste ordonnée des agrégats (voir formule 4.19). En moyenne, cinq agrégats par requête évalués par les utilisateurs. Chaque requête a été évaluée par quinze utilisateurs. L’utilisateur juge chaque agrégat en fonction de trois dimensions : la pertinence (voir la section 5.4.2 pour plus de détails), la redondance (voir la section 5.4.3 pour plus de détails) et la complémentarité (voir la section 5.4.4 pour plus de détails). Chapitre 5. Expérimentations 5.4.1 92 Distribution d’éléments Dans cette expérimentation, nous mesurons le nombre moyen d’éléments retourné par agrégat et par requête. L’objectif est d’étudier l’effet de la première hypothèse H1 (voir section 4.3.6). En fait, les agrégats ne sont pas des éléments uniques. Nous arrivons à récupérer un agrégat par document qui est souvent formé de plusieurs éléments. Ensuite, nous construisons une série de cinq agrégats par requête. Nous faisons la somme des éléments constituant les agrégats formés et nous divisons cette somme par cinq afin de déterminer le nombre moyen d’éléments par agrégat et par requête. La figure 5.2 présente la répartition des vingt requêtes CO sur la base des éléments retournés. En moyenne, il y avait cinq éléments par agrégat qui sont retournés. Nous constatons que pour les requêtes suivantes : Q001, Q002, Q003, Q010, Q012, Q014, Q020, Q026, Q028, Q033, Q035 et Q036, le nombre d’éléments retournés est inférieur à la moyenne globale. Ceci est du en raison de l’hypothèse H1 qui permet d’élaguer les éléments qui se chevauchent. Figure 5.2 – Impact de l’hypothèse H1 sur le nombre d’éléments par agrégat et par requête Chapitre 5. Expérimentations 5.4.2 93 Évaluation de la pertinence d’agrégats Notre objectif dans cette section est d’évaluer la pertinence d’un agrégat. Pour cela, nous avons demandé aux utilisateurs de juger la pertinence d’un agrégat en fonction de trois niveaux de pertinence définis comme suit : Définition 4 (Agrégat totalement pertinent) Un agrégat est totalement pertinent si tous ses éléments sont pertinents. Définition 5 (Agrégat partiellement pertinent) Un agrégat est partiellement pertinente s’il contient des éléments pertinents. Définition 6 (Agrégat non pertinent) Un agrégat est non pertinent s’il ne contient que des éléments non pertinents. Dans cette première expérimentation, nous étudions la pertinence des agrégats avant d’appliquer l’hypothèse H2 (voir section 4.3.6). Ainsi, il est possible d’avoir des éléments redondants dans un agrégat. La figure 5.3 liste le pourcentage d’agrégats pertinents, non pertinents et partiellement pertinents par requête sur l’ensemble des utilisateurs. Les premiers résultats intéressants montrent que 87% d’agrégats sont pertinents, soit 29% totalement ou 58% partiellement pertinents. Les résultats montrent que seulement 13% des agrégats ne sont pas pertinents (la moyenne de la partie verte de la figure 5.3). Figure 5.3 – Distribution de la pertinence d’agrégats par requête Chapitre 5. Expérimentations 94 Afin d’obtenir une analyse plus fine de ces résultats, nous étudions le nombre d’éléments pertinents renvoyés par agrégat et par requête. Pour cela, nous mesurons la précision dans les top-5 agrégats. Nous définissons tout d’abord la précision d’un agrégat k par : Pag(k) N ombre d′ éléments pertinents dans ag(k) = N ombre total d′ éléments dans ag(k) (5.1) où ag(k) est un agrégat au rang (k). La précision moyenne pour une requête q, notée APq @k, est calculée par la moyenne des précisions pour les top-k agrégats comme suit : APq @k = Pk Pag(i) |k| i=1 (5.2) Ainsi, la moyenne des précisions moyennes M AP @k pour toutes les requêtes est calculée comme suit : M AP @k = P APq @k |Q| q∈Q (5.3) Avec : 1. APq @k est la précision moyenne pour une requête q. 2. Q est l’ensemble des requêtes. Dans cette deuxième expérimentation, nous testons la précision par requête pour les top-k agrégats à Pag(1) , Pag(2) , Pag(3) , Pag(4) et Pag(5) . Les résultats sont présentés sur la figure 5.4. Figure 5.4 – Pertinence d’agrégats par requête à Pag(1) , Pag(2) , Pag(3) , Pag(4) , Pag(5) Chapitre 5. Expérimentations 95 Pour les vingt requêtes de test et en utilisant la mesure proposée dans la formule 5.1 à Pag(1) , huit requêtes avaient plus de 40% des éléments pertinents, onze requêtes avaient entre 10% et 40% des éléments pertinents. À Pag(5) , parmi les vingt requêtes de test, une seule a plus de 40% des éléments pertinents, onze requêtes avaient entre 10% et 40% d’éléments pertinents, et huit requêtes ont moins de 10% des éléments pertinents par agrégat. La plus grande (resp. faible) valeur AP @5 est pour le Q012 requête (resp. Q006) et elle est égale à 0,576 (resp. 0,121). La M AP @5 pour les vingt requêtes est égale à 0,28. Ainsi, notre approche renvoie plus d’éléments pertinents dans le premier top-k agrégats, guide l’utilisateur à identifier les éléments pertinents d’un document XML et réduit également les efforts déployés par l’utilisateur afin de localiser les informations recherchées. Toutefois, dans certains cas, Q010 et Q020, le précision Pag(3) est supérieure à Pag(1) . Ces résultats sont évalués par l’utilisateur sans se demander si un agrégat contient des éléments redondants et/ou complémentaires. Ces questions sont abordées dans les expérimentations ci-après. 5.4.3 Impact de la redondance Cette troisième expérimentation est conçue comme un test de cohérence de la redondance au niveau des résultats retournés. En effet, nous avons fourni deux degrés pour mesurer la redondance au sein d’un agrégat : redondants et non-redondants. Nous avons demandé aux utilisateurs de vérifier chaque agrégat et répondre à la question de la redondance : Définition 7 (Redondants) Si un utilisateur juge qu’un ou quelques éléments d’un agrégat n’apportent pas de nouvelles informations. Définition 8 (Non-redondants) Si chaque élément d’un agrégat apporte une nouvelle information. Pour chaque requête, chaque utilisateur est invité à évaluer la redondance entre les éléments de premier agrégat (top-1 agrégat). Il convient de noter que nous ne regardons pas si les éléments sont pertinents. La figure 5.5 montre les résultats qui sont très intéressants. En effet, nous constatons que 90,85% des jugements considèrent que les agrégats renvoyés contiennent des éléments qui ne véhiculent pas la même information. Il est tout à fait logique, car à ce moment-là, nous avons travaillé avec un document unique. Même si cela se produit, la première hypothèse H1 a déjà été appliquée afin d’éviter l’inclusion structurelle entre les éléments d’un même agrégat. Chapitre 5. Expérimentations 96 Figure 5.5 – Distribution des jugements de la redondance par requête En ce qui concerne l’hypothèse H2, son impact est minime (même sans effet), mais la question qui se pose : À quoi elle sert ? Tout simplement, notre modèle est censé également fonctionner si l’agrégat est construit à partir de plusieurs documents (multi-documents). Dans ce cas, il est fort probable d’avoir d’éléments qui portent la même information et le recours à cette hypothèse sera indispensable. 5.4.4 Impact de la complémentarité Dans cette quatrième expérimentation, nous voulons évaluer si les éléments de l’agrégat sont complémentaires afin d’avoir une vue d’ensemble sur les résultats retournés. Nous avons également cherché à mesurer l’intérêt d’un agrégat par rapport à des éléments pris individuellement. Pour cela, nous présentons chaque top-1 agrégat de toutes les requêtes à chaque utilisateur et nous lui posons la question suivante : Est-ce que les éléments d’un agrégat se complètent ? En d’autres termes, si chaque utilisateur trouve de l’information pertinente et additionnelle, par rapport à son besoin d’information, entre les éléments de l’agrégat. La distribution des jugements de la complémentarité entre les vingt requêtes est présenté dans la figure 5.6. Nous avons constaté que les utilisateurs considèrent que les éléments du top-1 agrégat apportent des informations pertinentes et supplémentaires pour plus de 62,42% des jugements 1 . On remarque que pour la plupart des requêtes, ces éléments peuvent être sémantiquement complémentaires. Cela prouve la capacité de notre modèle à agréger d’éléments qui se complètent 1. Nombre totale de jugements = 15 utilisateurs × 20 requêtes, soit au total 300 jugements Chapitre 5. Expérimentations 97 Figure 5.6 – Distribution des jugements de la complémentarité par requête mutuellement c’est-à-dire chaque élément est qualifié pour fournir des informations pertinentes et supplémentaires. 5.4.5 Complémentarité vs. Redondance Une des questions que nous aimerions discuter dans cette section porte sur la différence entre la redondance et la complémentarité, en d’autres termes si nous avons besoin de ces deux notions ou une seule d’entre elles est suffisante. Afin de mieux comprendre la différence, considérons une requête ambigüe, par exemple la requête “jaguar” (voiture vs animal), il y aura plusieurs éléments retournés qui parlent de l’usine automobile ou du parc animalier dans chaque agrégat. Dans ce cas, ces éléments seront non-redondants parce que chaque élément porte une nouvelle information par rapport au sujet de la requête. Mais, cela ne signifie pas que ces éléments sont complémentaires, car ils n’apportent aucune information supplémentaire vis-à-vis le besoin informationnel de l’utilisateur. Mais si nous avons un autre élément qui apporte l’adresse d’une usine ou d’un parc. Dans ce cas, on peut considérer que ce dernier élément est complémentaire aux éléments déjà récupérés (si nous parlons des voitures ou des animaux). Maintenant, revenons aux deux figures 5.5 et 5.6, et vérifions le comportement des deux requêtes, à savoir, Q012 et Q035. Les agrégats de ces requêtes sont totalement non-redondants (voir figure 5.5), mais ils se comportent différemment sur le facteur de complémentarité. La figure 5.6 montrent que les éléments de l’agrégat de la requête Q012 sont complémentaires à 100% alors que pour l’agrégat de la requête Q035, 67% de ses éléments sont complémentaires. La Chapitre 5. Expérimentations 98 principale conclusion qu’on peut en tirer est que deux éléments sont complémentaires alors ils doivent d’abord être non-redondants. Et donc, la non-redondance est une condition nécessaire mais non suffisante pour la complémentarité. 5.4.6 RI agrégée vs. Liste ordonnéee L’objectif principal de ce travail est de fournir aux utilisateurs d’agrégats au lieu d’une liste d’éléments pris séparément. La principale question que nous tentons d’évaluer dans cette cinquième expérimentation concerne l’intérêt de renvoyer des résultats agrégés par rapport à la traditionnelle liste triée d’éléments. Cette tâche n’est pas destinée à évaluer la façon de présenter les résultats (à travers une interface), mais l’utilité d’assembler les éléments dans des agrégats par rapport à une liste ordonnée. Donc, nous avons demandé aux utilisateurs de répondre à la question suivante : Que préférez-vous la recherche agrégée ou une liste ordonnée ? Rappelons que pour chaque requête (parmi les vingt requêtes), nous avons quinze participants qui répondront à la question ci-dessus. Soit un total de 300 jugements. Dans 177 de jugements (soit 59%), les utilisateurs préfèrent les résultats retournés soient assemblés en agrégats qu’une simple liste ordonnée (cf. figure 5.7). Cela montre implicitement que la recherche agrégée est utile parce que souvent un seul élément ne suffit pas, alors que les éléments d’un agrégat peuvent se compléter mutuellement pour aboutir à une réponse plus complète. En résumé, la recherche agrégée fournit de meilleurs résultats que la RI structurée dans la majorité des requêtes. Figure 5.7 – Utilité de la RI Agrégée Chapitre 5. Expérimentations 5.4.7 99 Dégré d’accord entre participants et temps consacré à chaque requête Dans cette expérimentation, nous essayons de déterminer le degré d’accord entre les jugements des utilisateurs à l’aide de coefficient de Kappa (K). Nous utilisons le coefficient Kappa de Fleiss [76] comme mesure pour évaluer la fiabilité entre un nombre fixe d’utilisateurs. Cette mesure est utilisée pour mesurer l’accord entre deux participants. Dans [129], les auteurs ont donné les intervalles suivants pour interpréter les valeurs de K. K < 0 (désaccord), K ∈ [0, 01; 0, 2] (accord très faible), K ∈ [0, 21; 0, 4] (accord faible), K ∈ [0, 41; 0, 6] (accord modéré), K ∈ [0, 61; 0, 8] (accord fort) et K ∈ [0, 81; 1] (accord presque parfait). Notons que la durée d’une session est le temps moyen nécessaire pour qu’un utilisateur évalue une requête pour chaque expérimentation. La durée de chaque session ainsi que le degré d’accord pour chaque expérimentation sont présentés dans le tableau 5.2. Expérimentation Durée (en secondes) Degré d’accord 1 315 0,40 2 264 0,36 3 24 0,60 4 37 0,44 5 167 0,46 Table 5.2 – Durée et degré d’accord basés sur des contextes réels (user studies) Le degré d’accord de nos expérimentations n’affecte pas la validité des résultats mentionnés dans les sections précédentes parce qu’en RI la valeur de K est toujours faible entre les utilisateurs. Ce même constat est également reconnu dans le cadre de campagnes d’évaluation tels que INEX et TREC [130]. Pour conclure, les utilisateurs sont en accord faible pour évaluer les expérimentations 1 et 2 sur la pertinence des agrégats. En outre, ces deux expérimentations sont assez longues car l’évaluation concerne les top-5 agrégats. D’autre part, les deux autres expérimentations 3 et 4 sont plutôt rapides parce que l’évaluation porte uniquement sur le top-1 agrégat de chaque requête et elles sont en accord modéré. En ce qui concerne la dernière expérimentation, le temps d’évaluation est moyen par rapport aux autres et il fait également partie de l’accord modéré. 5.4.8 Discussion A notre connaissance, notre approche est parmi les premières qui abordent le problème de la recherche agrégée dans des documents XML. L’évaluation Chapitre 5. Expérimentations 100 expérimentale montre que la recherche agrégée peut contribuer dans la recherche d’information dans des documents XML. En effet, nous exigeons qu’un agrégat soit qualifié comme réponse à une requête s’il répond à trois caractéristiques a savoir la pertinence, non redondante et complémentarité. Pour répondre à la première caractéristique, nous essayons d’identifier les éléments les plus significatifs dans l’agrégat sélectionné à partir d’un document XML. Dans ce cas, un agrégat pertinent permet d’améliorer l’interprétation des résultats, guider l’utilisateur à identifier les éléments pertinents dans un document XML et réduire également les efforts déployés par l’utilisateur qui doit fournir pour localiser les informations souhaitées. Pour satisfaire la deuxième caractéristique, nous avons besoin de générer des agrégats sous contraintes les deux hypothèses H1 et H2. Pour remplir la troisième caractéristique, nous exigeons que les éléments d’un agrégat apportent des informations pertinentes et additionnelles entre eux. Toutefois, dans quelques cas si des éléments ne sont pas complémentaires ceci ne veux pas dire que ces éléments ne sont pas sémantiquement liés à la requête de l’utilisateur. Ce type d’agrégation est très utile car il permet une distinction très fine de différentes thématiques exprimées dans la requête de l’utilisateur lorsque son besoin en information est générique. Il vise également à donner à l’utilisateur un aperçu sur les différentes informations disponibles dans le corpus de documents et qui sont liées à son besoin. Dans le cas échéant, il peut reformuler sa requête. 5.5 Conclusion Nous avons abordé la problématique d’évaluation des agrégats générés à partir des documents XML. Nous avons pris en considération l’évaluation des agrégats selon trois caractéristiques à savoir la pertinence, la redondance et la complémentarité. Nous avons fourni un cadre d’évaluation spécifique à la recherche agrégée à l’aide de plusieurs séries d’expériences. D’une manière générale, ces expérimentations permettent de démontrer que : – l’utilisateur peut trouver dans les agrégats générés plus d’informations pertinentes et réduit ainsi l’effort à fournir afin de satisfaire son besoin d’information (voir section 5.4.2) ; – dans la plupart des agrégats renvoyés, ses éléments ne véhiculent pas la même information (voir section 5.4.3) ; – dans plus la moitié des agrégats sélectionnés, ses éléments portent des informations pertinentes et additionnelles (voir section 5.4.4) ; – l’intérêt de la RI agrégée par rapport à la RI structurée (voir section 5.4.6). Conclusion générale Synthèse Les travaux présentés dans cette thèse s’inscrivent dans le contexte général de la RI et plus particulièrement dans le cadre de la RI agrégée dans des documents semi-structurés de type XML. En RI Structurée (RIS), les éléments potentiellement pertinents renvoyés par un système en réponse à une requête sont présentés à l’utilisateur sous forme d’une simple liste ordonnée de résultats. Plusieurs questions se posent dans ce contexte. Les principales sont : à partir de quel moment est-on certain d’avoir collecté assez d’information ? Comment sélectionner l’unité d’information qui répond le mieux à une requête ? La plupart des systèmes de RIS retournent les résultats de recherche sous la forme d’une liste d’éléments disjoints, d’autres commencent à présenter les résultats de la recherche sous la forme de résumés multi-documents. D’autres questions plus techniques font aussi le sujet de cette thèse, elles concernent les résultats retournés : Doit-on renvoyer des résultats qui véhiculent la même information ? Dans ce cas, quelle est l’utilité d’une telle recherche ? Peut-on avoir des résultats qui se complètent ? Notre objectif est d’apporter des réponses à ces questions. Nous avons alors proposé un modèle de RIS permettant une “meilleure” forme de construction des résultats répondant à la requête. Notre modèle trouve ses fondements théoriques dans les RB. Plus précisément, le modèle que nous proposons est basé sur un réseau pour chaque document. Dans chaque réseau, les nœuds représentent un document, ses éléments, les termes d’indexation et la requête. La topologie du réseau permet de prendre en compte naturellement les relations de dépendance entre ces nœuds. Plus précisément, nos contributions présentées dans cette thèse ont porté sur quatre volets : l’agrégation des éléments les plus potentiellement pertinents, l’élagage d’éléments redondants à partir d’un ou plusieurs documents, la détermination d’éléments porteurs d’informations pertinentes et additionnelles et la proposition d’un cadre d’évaluation d’agrégats. 1. L’utilisation des RB en RI s’est avérée intéressante grâce notamment à Conclusion générale 102 leur puissance pour inférer la pertinence des documents vis-à-vis d’une requête ainsi qu’à leur capacité de représenter de manière naturelle les différents liens existants entre les objets manipulés en RI, à savoir les documents, les éléments, les termes et la requête. L’évaluation de la pertinence d’une configuration vis-à-vis d’une requête est effectuée par un processus de propagation à travers les nœuds termes reliés à cette requête. Les termes de la requête absents dans les représentations d’agrégats via ses éléments sont donc naturellement et explicitement considérés dans le calcul des scores de pertinence contrairement aux systèmes actuels de RI. Compte tenu de l’intérêt que nous avons accordé à cette notion d’importance (ou de représentativité) d’un terme dans une configuration, nous avons proposé une estimation du maximum de vraisemblance sur la fréquence d’un terme dans une configuration permettant de mieux quantifier l’importance d’un terme dans une configuration. Afin d’éviter le problème des fréquences nulles des quelques termes (si un terme ne figure pas dans une configuration) et éventuellement dans ses éléments, il faut ajouter la fréquence du terme dans la collection avec celle calculée avec le document. En fait, nous utilisons une technique de lissage de type Dirichlet appliquée à chaque élément XML de la configuration en question ; 2. Dans notre processus de propagation, nous nous sommes intéressés à l’agrégation d’éléments qui ne véhiculent pas la même information dans une configuration donnée. Les techniques d’élagage proposées, afin d’éliminer les éléments redondants dans la même configuration, portent aussi bien sur la première source d’évidence à savoir la structure à l’aide d’une première hypothèse (H1) et sur la deuxième source d’évidence à savoir le contenu à l’aide d’une deuxième hypothèse (H2) quand notre processus de propagation est généralisé. – H1 : cette hypothèse est qualifiée comme contrainte de structure permettant d’éliminer les éléments redondants. Nous considérons que la présence d’une relation ancêtre-descendant entre deux éléments signifie que l’un est inclus dans l’autre ; – H2 : cette hypothèse est considérée comme une contrainte de contenu. Nous supposons qu’un utilisateur préfère retrouver dans une configuration donnée des éléments non redondants à partir de plusieurs documents. Par souci de simplicité, nous proposons d’utiliser la distance cosinus pour détecter la redondance entre les éléments renvoyés. 3. De plus, nous avons proposé d’assembler des éléments qui se complètent dans la même configuration. La complémentarité indique à quel point un élément ajoute ce qu’il manquait en matière d’information à un ensemble d’éléments. Pour modéliser cette caractéristique, nous avons également proposé une fonction de propagation qui favorise les éléments les plus loin de nœud racine. En effet, les éléments loin du nœud racine d’un document paraissent plus porteurs d’informations complémentaires que ceux situés plus haut dans le document. Intuitivement, plus la distance entre Conclusion générale 103 un élément et la racine est grande, plus il contribue à la complémentarité des éléments d’une telle configuration. L’objectif de cette caractéristique est de favoriser dans les configurations les éléments qui se complètent mutuellement pour avoir une réponse plus complète :“pertinence additionnelle” ; 4. Le dernier volet de notre contribution consiste en la définition d’un cadre d’évaluation approprié pour la RI agrégée dans des documents XML. Le cadre proposé consiste à utiliser les ressources de la collection de test fournie dans le cadre de la campagne d’évaluation INEX 2009. Les expérimentations menées portent essentiellement sur : – l’évaluation de la pertinence des agrégats : les premiers résultats intéressants montrent que par parmi les agrégats renvoyés 29% sont totalement pertinents et 58% sont partiellement pertinents. Seulement 13% sont non-pertinents ; – l’évaluation de la redondance : nous avons trouvé que 91% des agrégats renvoyés contiennent des éléments qui ne véhiculent pas la même information ; – l’évaluation de la complémentarité : nous avons constaté que les utilisateurs considèrent que les éléments du top-1 agrégat apportent d’informations pertinentes et additionnelles pour plus de 63% des agrégats ; – l’évaluation des performances ainsi que l’utilité de la RI agrégée par rapport à la recherche d’information structurée (RIS) : Les résultats obtenus de cette comparaison montrent que notre modèle est efficace et performant pour agréger des éléments à partir d’un document. En effet, nous avons trouvé 59% de jugements, des utilisateurs qui préfèrent les agrégats qu’une simple liste ordonnée d’éléments. Ces résultats peuvent être considérés intéressants ; – l’évaluation de degré d’accord entre les jugements d’utilisateurs à l’aide de test statistique de Kappa de Cohen. Il est également à noter que notre approche est applicable sur des requêtes de type CO. Limites et perspectives L’évaluation expérimentale de notre modèle a montré son efficacité selon plusieurs aspects, et ouvrent des perspectives à court terme portant sur l’utilisation de requêtes CAS, l’intégration d’un processus itératif à la recherche pour la reformulation de requêtes, la définition des relations de dépendances dans un cadre qualitatif et d’autres à long terme portant sur l’intégration des relations de dépendances entre des paires de termes d’indexations ou de documents, l’intégration des relations entre paires de documents dans un cadre Conclusion générale 104 ordinal. Plus particulièrement, nos perspectives a court terme portent essentiellement sur les volets suivants : 1. Étendre notre modèle pour supporter aussi des requêtes orientées contenu et structure. Nous proposons également d’étendre notre modèle pour supporter des collections hétérogènes (c’est à dire ayant des documents aux structures différentes). 2. Intégrer un processus itératif à la recherche pour la reformulation de requêtes. Pour ce faire, deux techniques existant dans les modèles basés sur les RB probabilistes pourraient être adaptées à notre approche. La première préconise l’ajout des nœuds ou d’arcs dans le réseau pour recalculer les distributions de probabilité. Cette technique permet ainsi d’ajouter des relations de dépendance entre des termes et la requête. Ces termes peuvent être issus d’agrégats jugés par l’utilisateur ou les termes des n premiers agrégats restitués initialement par le système. La seconde technique considère la requête reformulée comme une nouvelle information à introduire dans le système ; 3. Définir les relations de dépendance dans un cadre qualitatif. Les valeurs affectées à ces relations traduiraient des ordres partiels de préférence. La théorie des possibilités offre deux cadres de travail. Le cadre qualitatif ou ordinal et le cadre numérique. Nous avons proposé notre modèle dans un cadre numérique basé sur la théorie des probabilités. Nous proposons ici de traduire ce modèle dans un cadre ordinal basé sur les réseaux possibilistes. Ainsi, des préférences pourraient être définies entre les termes d’indexation pour représenter les documents et/ou la requête. Ces préférences peuvent être données par des experts, ou par des études statistiques sur le texte, etc. Ces préférences permettraient par la suite, de restituer des agrégats classés par préférence de pertinence. Il serait possible dans un tel cadre de mesurer le point auquel un agrégat a1 est préféré à l’agrégat a2 ou de mesurer la préférence d’un agrégat a1 par rapport à un ensemble d’agrégats a3 ,a4 . À long terme nous prévoyons de : 4. Intégrer des relations de dépendance entre des paires de termes d’indexation ou des paires de documents. Cette perspective peut être en relation avec la perspective précédente. Dans ce contexte, les arcs sont mesurés par des valeurs numériques traduisant des quantités et non pas des ordres partiels. Afin de quantifier ces relations, nous pourrions nous baser sur la connaissance représentée dans une ontologie. Une ontologie permet de formaliser des liens sémantiques entre des concepts unités de sens. Définie dans un cadre probabiliste, elle pourrait ajouter de l’information pertinente à considérer lors du processus de propagation déclenchée par la requête. Le réseau serait composé d’un sous réseau documents et d’un sous réseau requête. Ces sous réseaux pourraient être reliées à travers Conclusion générale 105 une ontologie ; 5. Intégrer des relations entre paire d’agrégats dans un cadre numérique ou ordinal. Les relations de dépendances entre paires d’agrégats pourraient traduire des liens sémantiques ou statistiques évaluant les distributions des termes communs à des paires ou ensembles d’agrégats. Les termes ou les agrégats peuvent ainsi être regroupés dans des classes communes ; 6. Mettre en place un cadre d’évaluation standard pour la RI agrégée dans des documents XML où l’évaluation est vigoureusement contrôlée en utilisant une collection de test réelle dont les requêtes sont émises par des utilisateurs et leurs interactions sont exploitables pour fournir des jugements de pertinence sur des agrégats construits pour les vingt requêtes proposées. Annexe A Les documents semi-structurés A.1 A.1.1 XML : concepts de base Documents structurés et documents semi-structurés La structure d’un document est l’agencement de ses différents éléments afin de lui donner sa cohérence, sa forme et sa rigidité. Une balise (ou tag) est une suite de caractère encadrés par “<” et “>”, comme par exemple <titre>. Un élément est une unité syntaxique encadrant les fragments d’informations par une balise de début et une balise de fin, comme par exemple <titre> RI Structurée < /titre>. Les éléments d’un document peuvent être imbriqués comme le montre l’exemple de la figure A.1, mais ils ne doivent pas se recouvrir. Les attributs des éléments sont intégrés à la balise de début en utilisant la syntaxe nomattribut=′′ valeur′′ . Par exemple, <titre sujet=′′ xml′′ > RI Structurée < /titre>. Le langage de description à balises SGML (Standard Generalized Markup Language) [87], de norme ISO 1 (International Organization for Standardization) et sa version simplifiée XML (eXtensible Markup Language) permettent de produire des documents structurés ou semi-structurés. Les documents structurés possèdent une structure régulière, ne contiennent pas d’éléments mixtes (c’est à dire d’éléments contenant du texte et d’autres éléments) et l’ordre des différents éléments qu’ils contiennent est généralement non significatif. Les documents semi-structurés sont des documents qui possèdent une structure flexible et des contenus hétérogènes. La modification, l’ajout ou la suppression d’une donnée entraine une modification de la structure de l’ensemble [9]. 1. ISO est un organisme créé en 1947 et a pour but de produire des normes internationales dans les domaines industriels et commerciaux appelées normes ISO Annexe A. Les documents semi-structurés 107 Figure A.1 – Exemple d’un document XML Dans ce contexte, nous nous intéressons à la RI dans des documents semistructurés. Les documents structurés servent à conserver des données au sens Bases de données. Par abus de langage, on parlera de la RIS. Le format XML nous permet d’illustrer nos propos. A.1.2 Les fondements de XML XML 2 est un standard mis en place par le W3C 3 (World Wide Web Consortium) et dérivé du langage SGML. Selon [51], la définition d’un document XML est la suivante : “Un document en XML constitue [...] un terme technique, qui ne correspond pas nécessairement à la notion classique d’un document narratif, c’est-à-dire à un ensemble de données textuelles organisées et mises en forme à l’attention d’un lecteur. Il s’applique également à toute structure de données à vocation d’échange inter-applications.” Un document XML est hiérarchisé sous forme d’un arbre. Chaque nœud de l’arbre est un élément XML. Cette structure logique permet de faire des recherches très pointues sur les éléments d’un document XML. Ces éléments ne peuvent pas se chevaucher mais ils peuvent s’imbriquer. Le choix du nom de ses éléments et leurs attributs ainsi que leur organisation est laissé au choix 2. http ://www.w3.org/XML/ 3. http ://www.w3.org Annexe A. Les documents semi-structurés 108 Figure A.2 – Exemple de DTD correspondant au document XML da la figure A.1 de l’auteur. C’est pourquoi le langage XML est dit générique. XML fournit un moyen de vérifier la syntaxe d’un document grâce aux DTD (Document Type Definition) [143]. C’est un sous langage restreignant décrivant la structure des documents y faisant référence grâce à une organisation prédéfinie. Ainsi un document XML doit suivre scrupuleusement les conventions de notation XML et peut éventuellement faire référence à une DTD décrivant l’imbrication des éléments possibles. Un document suivant les règles de XML est appelé document bien formé. Un document XML possédant une DTD et étant conforme à celle-ci est appelé document valide. La figure A.2 présente une DTD correspondante au document XML A.1. XML permet donc de définir un format d’échange selon les besoins de l’utilisateur et offre des mécanismes pour vérifier la validité du document produit. Il est donc essentiel pour le receveur d’un document XML de pouvoir extraire les données du document. Cette opération est possible à l’aide d’un outil appelé analyseur (en anglais parser, parfois francisé en parseur). Le parseur permet d’une part d’extraire les données d’un document XML (on parle d’analyse du document ou de parsing) ainsi que de vérifier éventuellement la validité du document. Il existe deux types d’analyseurs de documents XML, le parseur s’appuyant sur des flux d’évènements SAX (Simple API for XML) et le parseur DOM 4 qui produit un graphe d’objets. Le DOM représente en mémoire les éléments, les attributs et le texte des éléments au sein des nœuds d’un arbre comme illustre la figure A.3. Grâce à ses 4. http ://www.w3.org/DOM Annexe A. Les documents semi-structurés 109 Figure A.3 – Exemple de DOM correspondant au document XML de la figure A.1 fonctions, le DOM permet de consulter et de modifier le contenu et la structure d’un document chargé en mémoire. Il est recommandé d’utiliser le DOM pour se repérer efficacement dans un document XML, relativement à un élément de l’arbre XML. Si le besoin en information est exprimé selon un chemin XML absolu, il devient ardu d’utiliser DOM et d’avoir recours à d’autres standards tel que XPath. XPath est un langage d’expression s’appliquant à XML ; il s’agit d’un langage permettant de sélectionner des sous-arbres d’un document XML. Il possède une syntaxe simple et non ambigüe et implémente des types usuels (chaı̂nes, nombres, booléens, variables, fonctions) [58]. XPath est une spécification conçue pour parcourir une collection de documents XML, et de sélectionner un ensemble de nœuds en exploitant notamment les relations existantes entre ces derniers. Ces nœuds devront répondre à certaines contraintes structurelles ou sémantiques (contenu) pour être sélectionnés. Les contraintes sont sous la forme d’un chemin. L’utilisateur doit décrire des expressions de chemin dans l’arbre d’un document XML pour retourner des fragments de document. A.2 Stockage des documents XML Le stockage des collections de documents XML peut se faire selon trois techniques : utilisation des fichiers textes, utilisation des SGBD relationnels et utilisation d’un SGBD XML natif [215]. Annexe A. Les documents semi-structurés A.2.1 110 Modèles de fichiers textes Les fichiers textes constituent le moyen le plus simple de stocker les documents XML. Ils présentent l’avantage de pouvoir être lus et édités par un utilisateur. Ce format constitue de plus le moyen d’échange le plus simple des données XML sur un réseau. Pour l’interrogation, XQuery [75] permet d’interroger ces documents après une traduction préalable sous forme d’un arbre d’objets en mémoire selon le standard DOM. A.2.2 Modèles de SGBD relationnels Les principaux SGBD relationnels (Oracle, SQL server, etc.) ont été étendus pour les données XML. Deux méthodes de stockage existent : – définir un nouveau type de données adapté à XML et stocker les documents XML comme des objets dans une colonne, – réaliser une correspondance entre un document XML et un ensemble de tables en s’appuyant sur le DTD du document (destruction du document XML afin de stocker les éléments et les attributs en colonnes de tables). Les documents stockés peuvent êtres manipulés en SQL par un jeu de fonctions prédéfinies, par exemple l’extraction des objets par une expression XPath. A.2.3 Modèles de SGBD XML natifs Les SGBD natifs sont développés spécifiquement pour XML. Ils stockent et manipulent directement des arbres XML au lieu de passer par une structure intermédiaire (table relationnelle). Ils possèdent des index spécialisés permettant d’accéder aux composants d’un arbre de documents XML : éléments, attributs et texte. Les langages d’interrogation pour ce type de modèles sont les langages de requête XPath et XQuery. Bibliographie personnelle [1] N. Naffakhi, and R. Faiz. Less is More : aggregating meaningful elements for xml keyword search. In Cépadues-Editions, International Journal on Information - Interaction - Intelligence (I3), volume 12, number 1, 2012. [2] N. Naffakhi, M. Boughanem, and R. Faiz. Recherche d’Information Agrégée dans des documents XML basée sur les Réseaux Bayésiens. In D. A. Zighed et G. Venturini, editor, Revue des Nouvelles Technologies de l’Information (RNTI), volume 1, pages 369–380. Hermann, 2012. [3] N. Naffakhi, and R. Faiz. Using Bayesian Networks Theory for Aggregated Search to XML retrieval. In The 2nd International Conference on Web Intelligence, Mining and Semantics (WIMS), Craiova, Romania, 13/06/2012-15/06/2012, pages 71, ICPS, ACM digital library, 2012. [4] N. Naffakhi, and R. Faiz. Aggregated Search in XML Documents : What to retrieve ?. In IEEE International Conference on Information Technology and e-Services (ICITeS), Sousse, Tunisia, 24/03/2012-26/03/2012, pages 121–126, March 24-26, 2012. IEEEXplore digital library. [5] N. Naffakhi, M. Boughanem, and R. Faiz. Un Modèle Bayésien pour l’Agrégation des Documents XML. In Conférence francophone en Recherche d’Information et Applications (CORIA), Avignon, France, 16/03/2011-18/03/2011, pages 335–348, Association ARIA, Mars 2011. Université d’Avignon. [6] N. Naffakhi, M. Boughanem, and R. Faiz. Réseau bayésien pour un modèle de Recherche d’Information agrégée dans des documents semistructurés. In Actes de XXVIIIème Congrès INFormatique des ORganisations et Systèmes d’Information et de Décision (INFORSID), Marseille, France, 25/05/2010-28/05/2010, pages 111–126, Association INFORSID, Mai 2010. Université de Provence. [7] N. Naffakhi, and R. Faiz. Modèle basé sur les réseaux bayésiens pour agréger des éléments XML pertinents et non-redondants. In Atelier de Recherche et Fouille d’Information sur le Web (RFIW) en conjonction avec la 11ème Conférence Internationale Francophone : Extraction et Gestion des Connaissances (EGC), Brest, France, 25/01/2011-28/01/2011, pages 58–69, Hermann-Éditions, Janvier 2011. Université de Bretagne Occidentale. Bibliographie 112 [8] N. Naffakhi. Un modèle bayésien pour l’agrégation des documents semistructurés. In Rencontres des Jeunes Chercheurs en Recherche d’Information, en conjonction avec Colloque International Francophone sur l’Écrit et le Document et COnférence en Recherche d’Information et Applications (RJCRI :CIFED-CORIA), Sousse, Tunisie, 18/03/201020/03/2010, CPU, pages 495–500, Mars 2010. Bibliographie [9] S. Abiteboul. Querying semi-structured data. In 6th International Conference on Data Theory (ICDT), volume 1186 of Lecture Notes in Computer Science, pages 1–18. Springer, 1997. [10] S. Abiteboul, I. Manolescu, B. Nguyen, and N. Prada. A test plateform for the inex heterogeneous track. In Pre-proceedings Workshop of the Initiative for the Evaluation of XML retrieval (INEX), pages 177–182, 2004. [11] S. Abiteboul, D. Quass, J. McHugh, J. Widom, and J.-L. Wiener. Query language for semi-structured data. International Journal on Digital Libraries (IJDL), 1(1) :68–88, 1997. [12] M. Abolhassani and N. Fuhr. Applying the divergence from randomness approach for content-only search in xml documents. In Proceedings of the European Conference on Information Retrieval (ECIR), pages 409–419, 2004. [13] P. Aditya and K. Jaya. Leveraging query association in federated search. In Proceedings of the ACM SIGIR 2008 Workshop on Aggregated Search, pages 31–39, 2008. [14] R. Agrawal, S. Gollapudi, A. Halverson, and S. Ieong. Diversifying search results. In Proceedings of the Second ACM International Conference on Web Search and Data Mining (WSDM), pages 5–14, 2009. [15] E. Alfonseca, M. Pasca, and E. Robledo-Arnuncio. Acquisition of instance attributes via labeled and related instances. In Proceedings of 33rd international ACM SIGIR conference on Research and Development in Information Retrieval, pages 58–65, 2010. [16] S. AmerYahia, C. Botev, and J. Shanmugasundaram. Texquery : A fulltext search extension to xquery. In Proceedings of World Wide Web (WWW) Conference, pages 253–265, 2004. [17] V. Anh and A. Moffat. Compression and an ir approach to xml retrieval. In Proceedings of the First Annual Workshop of the Initiative for the Evaluation of XML retrieval (INEX), pages 253–265, 2002. [18] M. B. Aouicha. Une Approche Algébrique pour la Recherche d’Information Structurée. Thèse de Doctorat de l’Université Paul Sabatier, Toulouse, France, 2009. Bibliographie 114 [19] J. Arguello, F. Diaz, J. Callan, and B. Carterette. A methodology for evaluating aggregated search results. In Proceedings of the 33rd European conference on Advances in information retrieval (ECIR), pages 141–152, 2011. [20] J. Arguello, F. Diaz, J. Callan, and J.-F. Crespo. Sources of evidence for vertical selection. In Proceedings of 32nd international ACM SIGIR conference on Research and Development in Information Retrieval, pages 315–322, 2009. [21] T. Avrahami, L. Yau, L. Si, and J. Callan. The fedlemur project : Federated search in the real world. Journal of the American Society for Information Science and Technology (JASIST), 57(3) :347–358, 2006. [22] M. Azevedo, L. Amorim, and N. Ziviani. A universal model for xml information retrieval. In Proceedings of the INEX Workshop, pages 311– 321, 2004. [23] R. Baeza-Yates and R. Ribeiro-Neto. Modern Information Retrieval. New York : ACM Press ; Harlow England : Addison-Wesley, cop., 1999. [24] K. Balog, A. Vries, P. Serdyukov, P. Thomas, and T. Westerveld. Overview of the trec 2009 entity track. In TREC 2009 Working Notes. Springer-Verlag, 2009. [25] K. Balog, A. Vries, P. Serdyukov, P. Thomas, and T. Westerveld. Overview of the trec 2009 entity track. In Proceedings of the Eighteenth Text REtrieval Conference (TREC 2009). Springer-Verlag, 2010. [26] C. L. Barry. User-defined relevance criteria : an exploratory study. Journal of the American Society for Information Science, 45 :149–159, 1994. [27] M. Bautin and S. Skiena. Concordance-based entity-oriented search. Web Intelligence and Agent Systems (WIAS), 7(4) :303–319, 2009. [28] S. BenFerhat, D. Dubois, D. Garcia, and H. Prade. Possibilistic logic bases and possibilistic graphs. In Proceedings of the Conference on Uncertainty in Artificial Intelligence, pages 57–64, 1999. [29] F. Bessai-Mechmache and Z. Alimazighi. Aggregated search in xml documents. Journal of Emerging Technologies in Web Intelligence (JETWI), 4(2) :181–188, 2012. [30] P. Bhaskar, S. Banerjee, and S. Bandyopadhyay. A hybrid tweet contextualization system using ir and summarization. In S. Geva, J. Kamps, and R. Schenkel, editors, Proceedings of the 10th International Workshop of the Initiative for the Evaluation of XML Retrieval, pages 164–175. Lecture Notes in Computer Science, Springer Verlag, 2012. [31] T. Bilyana, M. Kacimi, and G. Weikum. Gathering and ranking photos of named entities with high precision, high recall, and diversity. In Proceedings of the the third ACM international conference on Web Search and Data Mining (WSDM), pages 431–440, 2010. Bibliographie 115 [32] T. Bogers, K. Christensen, and B. Larsen. Rslis at inex 2011 : Social book search track. In S. Geva, J. Kamps, and R. Schenkel, editors, Proceedings of the 10th International Workshop of the Initiative for the Evaluation of XML Retrieval, pages 45–56. Lecture Notes in Computer Science, Springer Verlag, 2012. [33] C. Borgelt, J. Gebhardt, and R. Kruse. Possibilistic graphical models. In Computational Intelligence in Data Mining, Courses and Lectures, pages 51–68. Springer, 2000. [34] P. Borlund. The concept of relevance in ir. Journal of the American Society for Information Science, 54(10) :913–925, 2003. [35] P. Borlund and P. Ingwersen. The development of a method for the evaluation of interactive retrieval systems. Journal of Documentation, 53(3) :225–250, 1997. [36] M. Boughanem, A. Brini, and D. Dubois. Possibilistic networks for information retrieval. International Journal of Approximate Reasoning (IJAR), 7(50) :957–968, 2009. [37] M. Boughanem, C. Chrisment, and C. Soulé-Dupuy. Query modification based on relevance back-propagation in adhoc environnement. Information Processing Management Journal, 35(2) :121–139, 1999. [38] M. Boughanem and J. Savoy, editors. Recherche d’information états des lieux et perspectives. Hermès Science Publications, 2008. [39] O. Bouidghaghen, L. Tamine-Lechani, and M. Boughanem. Dynamically personalizing search results for mobile users. In Proceedings of In Flexible Query Answering (FQAS), pages 99–110, 2009. [40] A. Brini and M. Boughanem. Relevance feedback : introduction of partial assessments for query expansion. In Proceedings of the Conference of the EUropean Society for Fuzzy Logic And Technology (EUSFLAT), pages 67–72, 2003. [41] A. H. Brini. Un modèle de Recherche d’Information basé sur les réseaux possibilistes. Thèse de Doctorat de l’Université Paul Sabatier, Toulouse, France, 2005. [42] C. W. Bruce. Organizing and Searchning Large Files of Document Descriptions. Ph.D thesis, University of Cambridge, Massachusetts, USA, 1979. [43] E. Brunet. Le lemme comme on l’aime. In actes de la 6ème Journées Internationales d’Analyse Statistique des Données Textuelles, pages 221– 232, 2002. [44] C. Buckley and E. M. Voorhees. Evaluating evaluation measure stability. In Proceedings of the 23rd annual international ACM SIGIR Conference on Research and Development in Information Retrieval, pages 33–40, New York, NY, USA, 2000. ACM. Bibliographie 116 [45] P. Buneman, G. Davidson, G. Hillebrand, and D. Suciu. A query language and optimization techniques for unstructured data. In Proceedings of ACM SIGMOD International Conference on Management of Data, pages 505–516. ACM, 1996. [46] H. Bunke. Recent developments in graph matching. In ICPR, pages 2117–2124, 2000. [47] J. M. Cafarella, Y. A. Halvey, and N. Khoussainova. Data integration for the relational web. In Proceedings of the 36th international conference on Very large data bases (VLDB), pages 1090–1101, 2010. [48] M. Cafarella, M. Banko, and O. Etzioni. Relational web search. Technical report, University of Washington, 2006. [49] J. Callan. Distributed information retrieval. In Advances in Information Retrieval, pages 235–266. Kluwer Academic Publishers, 2000. [50] J. Carbonell and J. Goldstein. The use of mmr, diversity-based re-ranking for reordering documents and producing summaries. In Proceedings of the ACM SIGIR International Conference on Research and Development in Information Retrieval, pages 335–336, 1998. [51] C. Carson, S. Belongie, H. Greenspan, and J. Malik. Blobworld : Image segmentation using expectation-maximization and its application to image querying. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(2) :1026–1038, 1999. [52] S. Ceri, S. Comai, E. Damiani, P. Fraternali, S. Paraboschi, and L. Tanca. Xml-gl : A graphical language for querying and restructuring www data. In Proceedings of WWW Conference, pages 1171–1187, 1999. [53] D. Chamberlin, J. Robie, A. Berglund, and S. Boag. Xquery 1.0 : An xml query language (second edition). Technical report, http ://www.w3.org/TR/xquery/, 2010. [54] D. Chamberlin, J. Robie, and D. Florescu. Quilt : An xml query language for heterogeneous data sources. In Proceedings of the 3rd Internation Workshop on World Wide Web and databases, pages 1–25, 2000. [55] Y. Chiaramella and P. Mulhem. De la documentation automatique à la recherche d’information en contexte. Document numérique, 10(1) :11–38, 2007. [56] Y. Chiaramella, P. Mulhem, and F. Fourel. A model for multimedia information retrieval. Technical report, FERMI ESPRIT BRA 8134, University of Glasgow, 1999. [57] C. Clark, N. Craswell, and I. Soboroff. verview of the trec 2009 web track. Technical report, 2010. [58] J. Clark and S. DeRose. Xml path language (xpath) version 1.0. Technical report, World Wide Web Consortium, 1999. [59] C. L. A. Clarke, M. Kolla, V. G. Cormack, O. Vechtomova, A. Ashkan, S. Büttcher, and I. Mackinnon. Novelty and diversity in information retrieval evaluation. In Proceezdings of SIGIR, pages 659–666, 2008. Bibliographie 117 [60] C. Cleverdon. Readings in information retrieval. In The cranfield tests on index language devices, pages 47–59, 1997. [61] P. Clough, M. Sanderson, M. Abouammoh, S. Navarro, and L. M. Paramita. Multiple approaches to analysing query diversity. In Proceedings of SIGIR, pages 734–735, 2009. [62] G. F. Cooper. The computational complexity of probabilistic inference using bayesian belief networks (research note). Artif. Intell., 42(2-3) :393– 405, 1990. [63] C. Crouch. Dynamic element retrieval in a structured environment. ACM Trans. Inf. Syst., 24(4) :437–454, 2006. [64] C. Crouch, S. Apte, and H. Bapat. An approach to structured retrieval based on extended vector model. In Proceedings of the INEX 2003 Workshop, pages 89–93, 2002. [65] C. Crouch, D. Crouch, N. Acquilla, R. Banhatta, S. Chittilla, N. Nagalla, and R. Navenvarapu. Focused elements and snippets. In S. Geva, J. Kamps, and R. Schenkel, editors, Focused Retrieval of Content and Structure, pages 295–299. Lecture Notes in Computer Science, Springer Verlag, 2012. [66] A. C. Cuadra and V. R. Katter. Opening the black box of relevance. Journal of Documentation, 23(4) :291–303, 1967. [67] L. M. De Campos, J. M. Fernãndez luna, and J. F. Huete. Using context information in structured document retrieval : an approch based on influence diagrams. Information Processing and Management, 40(5) :829– 847, 2004. [68] L. Denoyer and P. Gallinari. Bayesian network model for semistructured document classification. Information Processing Management, 40(5) :807–827, 2004. [69] L. Denoyer and P. Gallinari. The wikipedia xml corpus. In The 29th annual international ACM SIGIR conference on Research and development in information retrieval, SIGIR Forum, pages 64–69, 2006. [70] L. Denoyer, G. Wisniewski, and P. Gallinari. Document structure matching for heterogenous corpora. In Proceedings of the 27th ACM SIGIR 2004 workshop on XML and Information Retrieval, pages 1–7, 2004. [71] F. Diaz. Integration of news content into web results. In Proceedings of the Second ACM International Conference on Web Search and Data Mining (WSDM), pages 182–191, 2009. [72] R. Dragomir, J. Otterbacher, A. Winkel, and S. B. Goldensohn. Newsinessence : summarizing online news topics. In Communications of the Association of Computing Machinery (ACM), pages 95–98, 2005. [73] R. Dragomir, R. Weiguo, and F. Zhu. Webinessence : a personalized webbased multi-document summarization and recommendation system. In NAACL Workshop on Automatic Summarization, pages 79–88, 2001. Bibliographie 118 [74] D. Dunlavy, D. O’Leary, J. M. Conroy, and J. D. Schlesinger. Qcs : A system for querying, clustering and summarizing documents. In International Journal : Information Processing and Management (IPM), pages 1588–1605, 2007. [75] M. F. Fernãndez, T. Jim, K. Morton, N. Onose, and J. Simeon. Highly distributed xquery with dxq. In Proceedings of the 2007 ACM SIGMOD International Conference (SIGMOD), pages 1159–1161, 2007. [76] J. Fleiss. Measuring nominal scale agreement among many raters 1971. Psychological Bulletin, pages 378–382, 1971. [77] D. Florescu and D. Kossmann. Storing and querying xml data using an rdmbs. IEEE Data Engineering Bulletin, 22(3) :27–34, 1999. [78] M. Franz, A. Ittycheriah, J. McCarley, and T. Ward. First story detection : Combining similarity and novelty based approaches. Technical report, Topic detection and tracking Workshop report, 2001. [79] N. Fuhr and K. Grossjohann. Xirql : a query language for information retrieval in xml documents. In Proceedings of the 24th annual international ACM SIGIR Conference, pages 172–180, 2001. [80] N. Fuhr, M. Lalmas, S. Malik, and Z. Szlavik. Xml information retrieval : Inex 2004. In Advances in XML Information Rretreival and evaluation, pages 409–410, 2004. [81] N. Fuhr, M. Lalmas, S. Malik, and Z. Szlávik. Advances in xml information retrieval, third international. In Proceedings of the INEX 2004 Workshop. Lecture Notes in Computer Science, Springer, 2005. [82] M. Fuller, E. Mackie, R. Sacks-Davids, and R. Wilkinson. Structural answers for a large structured document collection. In Proceedings of the ACM SIGIR 1993, pages 204–213, 1993. [83] S. Geva. Gpx-gardens point xml information retrieval at inex 2004. In Proceedings of the INEX 2004 Workshop, pages 211–223, 2004. [84] S. Geva. Gpx-gardens point xml information retrieval at inex 2005. In Proceedings of the INEX 2005 Workshop, pages 240–253, 2005. [85] S. Geva, J. Kamps, M. Lethonen, R. Schenkel, J. Thom, and A. Trotman. Overview of the inex 2009 ad hoc track. In Proceedings of the INEX 2009 Workshop Pre-proceedings, pages 16–50. IR Publications, Amsterdam, 2009. [86] L. Goeuriot. Découverte et caractérisation des corpus comparables. Thèse en informatique, Université de Nantes, Nantes, France, 2009. [87] C. F. Goldfarb. The SGML Handbook. Oxford University Press, 1990. [88] N. Gövert. Assessments and evaluation measures for xml document retrieval. In Proceedings of the INEX 2002 Workshop, 2002. [89] N. Gövert, M. Abolhassani, N. Fuhr, and K. Grossjohan. Content oriented xml retrieval with hyrex. In Proceedings of the INEX 2002 Workshop, pages 26–32, 2002. Bibliographie 119 [90] T. Grabs and H. Schek. Eth zürich at inex : Flexible information retrieval from xml with powerdb-xml. In Proceedings of the INEX 2002 Workshop, pages 141–148, 2002. [91] L. Gravano, H. G. Molina, and A. Tomasic. The effectiveness of gioss for the text database discovery problem. In Proceedings of the ACM International Conference on Management of Data (SIGMOD), pages 126–137, 1994. [92] O. Greenshpan, T. Milo, and N. Polyzotios. Autocompletion for mashups. In Proceedings of VLDB, pages 538–549, 2009. [93] A. Gutierrez, R. Motz, and D. Viera. Building databases with information extracted from web documents. In Proceedings XX International Conference of the Chilean Computer Sciences Society, pages 41–49, 2000. [94] S. Hattori, T. Tezuka, and K. Tanaka. Context-aware query refinement for mobile web search. In Proceedings of International Symposium on Applications and the Internet Workshops (SAINT-W), pages 15–, 2007. [95] Y. Hayashi, J. Tomita, and G. Kikoi. Searching text-rich xml documents with relevance ranking. In Proceedings ACM SIGIR 2000 Workshop on XML and IR, pages 27–35, 2000. [96] S. Hennig and M. Wurst. Incremental clustering of newsgroup articles. In Proceedings of the 19th international conference on Advances in Applied Artificial(IEA/AIE), pages 332–341, 2006. [97] L. Hlaoua. Reformulation de requêtes par réinjection de Pertinences dans les documents semi-structurés. Thèse de Doctorat de l’Université Paul Sabatier, Toulouse, France, 2007. [98] V. Hristidis, Y. Papakonstantinou, and A. Balmin. Keyword proximity search on xml graphs. In proceedings of International Conference on Data Engineering ICDE, pages 367–378, 2003. [99] Y. Huang, Z. Liu, and Y. Chen. Query biased snippet generation in xml search. In proceedings of Special Interest Group on Management Of Data SIGMOD’08, pages 315–326, 2008. [100] G. Hubert. A voting method for xml retrieval. In Proceedings of the 3rd International Workshop of the Initiative for the Evaluation of XML Retrieval (INEX), pages 183–196, 2005. [101] G. Huck, I. Macherius, and P. Fankhauser. Pdom : Lightweight persistency support for the document object model. In OOPSLA’99 workshop proceedings : Business Object Design and Implementation III, pages 106– 123, 1999. [102] G. P. Ipeirotis. Classifying and searching hidden-web text databases. PhD thesis, New York, NY, USA, 2004. [103] T. S. Jaakkola, M. Diekhans, and D. Haussler. Using the fisher kernel method to detect remote protein homologies. In Proceedings of the Seventh International Conference Intelligent Systems for Molecular Biology (ISMB), pages 149–158, 1999. Bibliographie 120 [104] H. Jang, Y. Kim, and D. Shin. An effective mechanism for index update in structured documents. In Proceedings ACM Conference on Information and Knowledge Management (CIKM), pages 383–390, 1999. [105] B.-J. Jansen and A. Spink. An Analysis of document viewing pattern of web search engine user. Idea Publishing Group, Hershey PA, 2005. [106] K. Järvelin and J. Kekäläinen. Cumulated gain-based evaluation of ir techniques. ACM Transactions on Information Systems, 20(4) :422–446, 2002. [107] F. Jensen and D. Nielsen. Springer, Verlag, 2007. [108] B. T. Jones and S. R. Purves. Geographical information retrieval. In Encyclopedia of Database Systems, pages 1227–1231, 2009. [109] V. Kakade and P. Raghavan. Encoding xml in vector spaces. In Proceedings of ECIR, 2005. [110] J. Kamps, M. de Rijkeek, and B. Sigurbj.̇ornsson. Length normalization in xml retrieval. In Proceedings of the SIGIR International Conference, pages 80–87, 2004. [111] J. Kamps, M. Marx, M. de Rijke, and B. Sigurbjörnsson. Xml retrieval : What to retrieve ? In C. L. A. Clarke, G. Cormack, J. Callan, D. Hawking, and A. Smeaton, editors, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 409–410. ACM Press, New York NY, 2003. [112] J. Kamps, J. Pehcevski, G. Kazai, M. Lalmas, and S. Robertson. Inex 2007 evaluation measures. In Proceedings of INEX 2007 Workshop, pages 24–33, 2007. [113] C.-C. Kanne and G. Moerkotte. Efficient storage of xml data. In Proceedings of the 16th International Conference on Data Engineering (ICDE), pages 359–381, 2000. [114] R. Kaptein and M. Marx. Focused retrieval and result aggregation with political data. Information Retrieval, 13(5) :412–433, 2010. [115] P. M. Kato, H. Ohshima, S. Oyama, and K. Tanaka. Query by analogical example : relational search using web search engine indices. In Proceedings of the 18th ACM Conference on Information and Knowledge Management (CIKM), pages 27–36, 2009. [116] G. Kazai, M. Lalmas, and A. P. de Vries. The overlap problem in content oriented xml retrieval evaluation. In Proceedings of SIGIR 2004 International Conference, pages 72–79, 2004. [117] G. Kazai, M. Lalmas, and A. P. de Vries. Reliability tests for the xcg and inex-2002 metrics. In Pre-Proceedings of INEX 2004 Workshop, pages 33–39, 2004. [118] G. Kazai, M. Lalmas, and T. Roelleke. Focused structured document retrieval. In The 9th String Processing and Information Retrieval Symposium (SPIRE), pages 241–247, 2002. Bibliographie 121 [119] J. Kekäläinen and K. Järvelin. Evaluating information retrieval systems under the challenges of interaction and multidimensional dynamic relevance. In Proceedings of the CoLIS 4 Conference, pages 253–270, 2002. [120] L. S. Kennedy and M. Naaman. Generating diverse and representative image search results for landmarks. In Proceedings of the 17th ACM WWW, pages 297–306, 2008. [121] A. Kopliku. Approaches to implement and evaluate aggregated search. Thèse de Doctorat de l’Université Paul Sabatier, Toulouse, France, 2011. [122] A. Kopliku, M. Boughanem, and K. Pinel-Sauvagnat. Towards a framework for attribute retrieval. In Proceedings of the 20th ACM Conference on Information and Knowledge Management (CIKM), pages 515–524, 2011. [123] A. Kopliku, F. Damak, K. Pinel-Sauvagnat, and M. Boughanem. Interest and evaluation of aggregated search. In Proceedings of the International Conference on Web Intelligence (IEEE/WIC/ACM), pages 154–161, 2011. [124] A. Kopliku, K. Pinel-Sauvagnat, and M. Boughanem. Aggregated search : Potential, issues and evaluation. Technical report, Institut de Recherche en Informatique de Toulouse, 2009. [125] A. Kopliku, K. Pinel-Sauvagnat, and M. Boughanem. Attribute retrieval from relational web tables. In Proceedings of the Symposium on String Processing and Information Retrieval (SPIRE), pages 117–128, 2011. [126] J. Lafferty and C. Zhai. Language models, query models, and risk minimization for information retrieval. In Research and Development in Information Retrieval, In Proceedings of the ACM SIGIR, pages 111–119, 2001. [127] M. Lalmas. Dempster-shafer’s theory of evidence applied to structured documents : modeling uncertainty. pages 110–118, Philadelphia, USA, 1997. ACM. [128] M. Lalmas and P. Vannoorenberghe. Indexation et recherche de documents xml par les fonctions de croyance. In Proceedings of COnférence en Recherche d’Information et Applications (CORIA), pages 143–160, 2004. [129] J. R. Landis and G. Koch. The measurement of observer agreement for categorical data. Biometrics, 33(1) :159–174, 1977. [130] B. Larsen, S. Malik, and A. Tombros. A comparison of interactive and adhoc relevance assessments. In N. Fuhr, M. Lalmas and A. Trotman editors, INEX’07, pages 348–358. springer, Dagstuhl Castle, Germany, 2007. [131] R. R. Larson. Cheshire ii at inex : using a hybrid logistic regression and boolean model for xml retrieval. In Proceedings of the INEX 2002 Workshop, pages 18–25, 2002. Bibliographie 122 [132] K.-H. Lee, Y.-C. Choy, and S.-B. Cho. An efficient algorithm to compute differences between structured documents. IEEE Transactions on Knowledge and Data Engineering (TKDE), 16(8) :965–979, August 2004. [133] Y. K. Lee, S.-J. Yoo, K. Yoon, and P. B. Berra. Index structures for structured documents. In Proceedings of the first ACM international conference on Digital Libraries (DL), pages 91–99, 1996. [134] M. Lehtonen. Extirp2004 : Towards heterogeneity. In Proceedings of INEX Workshop, pages 372–381, 2004. [135] A. Levy, M. Fernãndez, D. Suciu, D. Florescu, and A. Deutsch. Xmlql : A query language for xml. Technical report, World Wide Web Consortium, 1998. [136] X. Li, Y.-Y. Wang, and A. Acero. Learning query intent from regularized click graphs. In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval, pages 339–346, 2008. [137] W. Lian and D. Cheung. An efficient and scalable algorithm for clustering xml documents by structure. IEEE Transactions on Knowledge and Data Engineering (TKDE), 16(1) :82–96, August 2004. [138] J. A. List, V. Mihajlovic, A. Vries, G. Ramirez, and D. Hiemstra. The tijah xml-ir system at inex 2003. In Proceedings of INEX Workshop, pages 102–109, 2003. [139] K.-L. Liu, W. Meng, J. Qiu, C. Yu, V. Raghavan, Z. Wu, Y. Lu, H. He, and H. Zhao. Allinonenews : development and evaluation of a largescale news metasearch engine. In Proceedings of the 2007 ACM SIGMOD international conference on Management of data, pages 1017–1028, 2007. [140] M. Liu, J. Yan, and Z. Chen. A probabilistic model based approach for blended search. In Proceedings of the 18th international conference on World Wide Web ACM WWW, pages 1075–1076, 2009. [141] S. Liu, Q. Zou, and W. Chu. Configurable indexing and ranking for xml information retrieval. In Proceedings of the 27th annual international ACM SIGIR, pages 88–95, 2004. [142] Z. Liu and Y. Chen. Identifying meaningful return information for xml keyword search. In Proceedings of the 2007 ACM SIGMOD international conference on Management of data (SIGMOD), pages 329–340, 2007. [143] S. Lu, Y. Sun, M. Atay, and F. Fotouhi. On the consistency of xml dtds. Data & Knowledge Engineering (DKE), 52(2) :231–247, 2005. [144] R. Luk, H. Leong, T. Dillon, A. Shan, B. Croft, and J. Allan. A survey in indexing and searching xml documents. Journal of the American Society for Information Science and Technology (JASIST), 53(3) :415–435, 2002. [145] M. Maaman, Y. Song, A. Paepcke, and H. Garcia-Molina. Assigning textual names to sets of geographic coordinates. Computers, Environment and Urban Systems, 30(4) :418–435, 2006. Bibliographie 123 [146] C. D. Manning, P. Raghavan, and H. Schütze. Introduction to Information Retrieval. Cambridge University Press, NY, USA, July 2008. [147] M. E. Maron and J. L. Kuhns. On relevance, probabilistic indexing and information retrieval. ACM Journal, 7(3) :216–244, 1960. [148] M. Marx, J. Kamps, and M. de Rijke. The university of amsterdam at inex 2002. In Proceedings of the INEX Workshop, pages 23–28, 2002. [149] Y. Mass and M. Mandelbord. Retrieving the most relevant xml components. In Proceedings of INEX 2003 Workshop, pages 53–58, 2003. [150] Y. Mass and M. Mandelbord. Component ranking and automatic query refinement for xml retrieval. In Proceedings of the INEX 2004 Workshop, pages 73–84, 2004. [151] Y. Mass, M. Mandelbord, E. Amitay, Y. Maarek, and A. Soffer. Juruxml an xml retrieval system at inex’02. In Proceedings of the INEX Workshop, pages 73–80, 2002. [152] K. McKeown, R. Brazilay, J. Chen, D. Elson, D. Evans, J. Kalvans, A. Nenkova, B. Schiffman, and S. Sigelman. Tracking and summarizing news on a daily basis with columbia’s newsblaster. In Proceedings of the second international conference on Human Language Technology Research, pages 280–285, 2002. [153] D. Miller, T. Leek, and R. Schawartz. markov model information retrieval system. In B. Croft, D. J. Harper, D. H. Kraft, and J. Zobel, editors, Proceedings of the ACM SIGIR, pages 214–221, 2001. [154] S. Mizzaro. Relevance, the whole (hi) story. Journal of the American Society for Information Science and Technology (JASIST), 48(9) :810– 832, 1997. [155] V. Moriceau and X. Tannier. Fidji : using syntax for validating answers in multiple documents. Information Retrieval Journal, 13 :507–533, 2010. [156] D. Mountain and A. Macfarlane. Geographic information retrieval in a mobile environment : evaluating the needs of mobile individuals. Journal of Information Science, 33(5) :515–530, 2007. [157] P. Mulhem and J.-P. Chevallet. Modèle de langue par type de doxel pour l’indexation de documents structurés. In Proceedings of COnférence en Recherche d’Information et Applications (CORIA), pages 361–372, 2010. [158] V. Murdock and M. Lalmas. Workshop on aggregayted search. In Proceedings of SIGIR, pages 80–83, 2008. [159] P. Ogilvie and J. Callan. Combining documents representations of knownitem search. In Proceedings of annual international ACM SIGIR Conference on research and development in Information retrieval, pages 143– 150, 2003. [160] P. Ogilvie and J. Callan. Using language models for flat text queries in xml retrieval. In Proceedings of the the Second Annual Workshop of Bibliographie 124 the Initiative for the Evaluation of XML retrieval (INEX), pages 12–18, 2003. [161] S. Ou and S. Khoo. Aggregating search results for social science by extracting and organizing research concepts and relations. In SIGIR 2008 Workshop on aggregated search, pages 1–8, 2008. [162] C. Paris, S. Wan, and P. Thomas. Focused and aggregated search : a perspective from natural language generation. Information Retrieval Journal, 44(3) :434–459, 2010. [163] C. Paris, S. Wan, R. Wilkinson, and M. Wu. Generating personal travel guides - and who wants them ? In Proceedings of the 8th International Conference on User Modeling (UM), pages 251–253. Springer-Verlag, 2001. [164] S. Park and J. H. Lee. Unified search service of naver, a major korean search engine. In Proceedings of the ACM SIGIR 2008 Workshop on Aggregated Search, pages 17–19, 2008. [165] J. Pearl. Fusion, propagation, and structuring in belief networks. Journal of Artificial Intelligence, 29 :241–288, 1986. [166] J. Pearl. Probabilistic reasoning in intelligent systems : networks of plausible inference. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1988. [167] J. Perry, M. Berry, and A. Kent. Machine literature searching. Western Reserve University Press, Cleveland, Ohio, USA, 1956. [168] K. Pinel-Sauvagnat. Modèle flexible pour la Recherche d’Information dans des corpus de documents semi-structurés. Thèse de Doctorat de l’Université Paul Sabatier, Toulouse, France, 2005. [169] K. Pinel-Sauvagnat and M. Boughanem. Xfirm : A flexible information retrieval model for indexing and searching xml documents. In Proceedings of ECIR, pages 17–18, 2004. [170] K. Pinel-Sauvagnat and M. Boughanem. A la recherche des nœuds informatifs dans des corpus des documents xml. In Proceedings CORIA, pages 119–134, 2005. [171] K. Pinel-Sauvagnat and M. Boughanem. Propositions pour la pondération des termes et l’évaluation de la pertinence des élémens en recherche d’information structurée. Journal of Information - Interaction - Intelligence (I3), 6(2) :77–98, 2006. [172] K. Pinel-Sauvagnat, M. Boughanem, and C. Chrisment. Answering content and structure-based queries on xml documents using relevance propagation. Information Systems Journal, 31(7) :621–635, 2006. [173] K. Pinel-Sauvagnat and C. Chrisment. Xml et recherche d’information. In M. Boughanem and J. Savoy, editors, Recherche d’information : état des lieux et perspectives, volume 1, chapter 4, pages 99–138. Hermès, avril 2008. Bibliographie 125 [174] K. Pinel-Sauvagnat, L. Hlaoua, and M. Boughanem. Xml retrieval : what about using contextual relevance ? In Annual ACM Symposium on Applied Computing (SAC), pages 1114–1120, 2006. [175] B. Piwowarski. Techniques d’apprentissage pour le traitement d’information structurées : application à la recherche d’information. Thèse de Doctorat de l’Université Paris 6, Paris, France, 2003. [176] B. Piwowarski. Working group report : the assessment tool. In Proceedings of INEX 2003, pages 181–183, 2003. [177] B. Piwowarski, G. Faure, and P. Gallinari. Bayesian networks and inex. In Proceedings of the First Annual Workshop of the Initiative for the Evaluation of XML retrieval (INEX), pages 149–154, 2002. [178] B. J. Ponte and W. Bruce Croft. A language modeling approach to information retrieval. In Proceedings of the 21st annual international ACM SIGIR Conference on Research and Development in Information Retrieval, pages 275–281, 1998. [179] M. Porter. An algorithm for suffix stripping. Program, 14 :130–137, 1980. [180] F. Radlinski and S. Dumais. Improving personalized web search using result diversification. In Proceedings of SIGIR, pages 691–692, 2006. [181] A. Ranganathan, A. Riabov, and O. Udrea. Mashup based information retrieval for domain experts. In Proceedings of the 18th ACM Conference on Information and knowledge Management (CIKM), pages 711–720, 2009. [182] V. C. Rijsbergen. Information Retrieval. Butterworth & Co (Publishers)Ltd, London, 1979. [183] S. Robertson. The probability ranking principle in information retrieval. Journal of Documentation, 33(4) :294–304, 1977. [184] S. Robertson and S. Walker. Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval. In Proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pages 232–241, 1994. [185] S. Robertson, S. Walker, S. Jones, M. Hancock-Beaulieu, and M. Gatford. Okapi at trec 3. In Proceedings of the 3rd Text REtrieval Conference (TREC-3), pages 109–126, 1994. [186] S. E. Robertson. Readings in information retrieval. chapter The probability ranking principle in IR, pages 281–286. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1997. [187] T. Roelleke, M. Lalmas, G. Kazai, J. Ruthven, and S. Quicker. The accessibility dimension for structured document retrieval. In Proceedings of the European Conference on Information Retrieval (ECIR), pages 284– 302, 2002. [188] C. Rohr and D. Tjondronegoro. Aggregated cross-media news visualization and personalization. In Proceedings of the 1st ACM international Bibliographie 126 conference on Multimedia Information Retrieval (MIR), pages 371–378, 2008. [189] N. Sahoo, J. Callan, R. Krishnan, G. Duncan, and R. Padman. Incremental hierarchical clustering of text documents. In Proceedings of the 15th ACM international Conference on Information and Knowledge Management (CIKM), pages 357–366, 2006. [190] G. Salton. A comparison between manual and automatic indexing methods. Journal of American Documentation (JAD), 20(1) :61–71, 1971. [191] G. Salton, editor. The SMART Retrieval System - Experiments in Automatic Document Processing. Prentice Hall, Englewood, Cliffs, New Jersey, 1971. [192] G. Salton, J. Allan, and C. Buckley. Approaches to passage retrieval in full text information systems. In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 49–58, 1993. [193] G. Salton and C. Buckley. Term weighting approaches in automatic text retrieval. Technical report, Ithaca, 1987. [194] G. Salton and M. McGill. The concept of ”relevance” in information science : A historical review. R.R. Bowker, New York, 1970. [195] G. Salton and M. McGill, editors. Introduction to modern information retrieval. McGraw-Hill Int. Book Co, 1983. [196] G. Salton, A. Wong, and C. S. Yang. A vector space model for automatic indexing. Communications of the ACM, 18(11) :613–620, 1975. [197] G. Salton and C. Yang. On the specification of term values in automatic indexing. Journal of American Documentation (JAD), 29(4) :351–372, 1973. [198] M. Sanderson and J. Kohler. Analyzing geographic queries. In Workshop on Geographic Information Retrieval, pages 1–2, 2006. [199] R. Schenkel, F. Suchanek, and G. Kasneci. Yawn : A semantically annotated wikipedia xml corpus. In 12. GI-Fachtagung für Datenbanksysteme in Business, Technologie und Web (BTW 2007), volume 103, pages 277– 291. Lecture Notes in Informatics, 2007. [200] T. Schlieder and H. Meuss. Querying and ranking xml documents. Journal of the American Society for Information Science and Technology (JASIST), 53(6) :489–503, 2002. [201] D. Shin, H. Jang, and H. Jin. Bus : an effective indexing and retrieval scheme in structured documents. In Proceedings of the third ACM international conference on Digital Libraries (DL), pages 235–243, 1998. [202] B. Sigurbjörnsson, J. Kamps, and M. de Rijke. An element-based approach to xml retrieval. In Proceedings of INEX 2003 workshop, pages 19–26, 2003. Bibliographie 127 [203] K. Sparck-Jones, S. E. Robertson, and M. Sanderson. Ambiguous requests : implications for retrieval tests, systems and theories. In Proceedings of SIGIR forum, pages 8–17, 2007. [204] N. Stokes and J. Carthy. Combining semantic and syntactic document classifiers to improve first story detection. In Proceedings of the ACM SIGIR, pages 424–425, 2001. [205] A. Strotmann and D. Zhao. Bibliometric maps for aggregated visual browsing in digital libraries. In SIGIR 2008 Workshop on aggregated search, pages 9–16, 2008. [206] S. Sushmita, H. Joho, and M. Lalmas. A task-based evaluation of an aggregated search interface. In Proceedings of the 16th International Symposium on String Processing and Information Retrieval (SPIRE), pages 322–333, 2009. [207] S. Sushmita, H. Joho, M. Lalmas, and J. M. Lose. Understanding domain relevance in web search. In WWW 2009 Workshop on Web Search Result Summarization and Presentation, pages 70–74, 2009. [208] S. Sushmita, H. Joho, M. Lalmas, and R. Villa. Factors affecting clickthrough behavior in aggregated search interfaces. In Proceedings of the 19th ACM international Conference on Information and Knowledge Management(CIKM), pages 519–528, 2010. [209] S. Sushmita, M. Lalmas, and A. Tombros. Using digest pages to increase user result space : preliminary designs. In Proceedings of the ACM SIGIR 2008 Workshop on Aggregated Search, pages 20–26, 2008. [210] Z. Szlávik, A. Tombros, and M. Lalmas. Feature and query-based table of contents generation for xml documents. In Proceedings of the 29th ECIR Conference, pages 456–467. Spring-Verlag, 2007. [211] L. Tamine and S. Calabretto. Recherche d’information contextuelle et web. In M. Boughanem and J. Savoy, editors, Recherche d’information : état des lieux et perspectives, volume 1, chapter 7, pages 201–224. Hermès, avril 2008. [212] A. Theoblad and G. Weikum. The index-based xxl search engine for querying xml data with relevance ranking. In Proceedings of the 8th International Conference on Extending Database Technology (EDBT), pages 477–495, 2002. [213] P. Thomas, K. Noack, and C. Paris. Evaluating interfaces for government metasearch. In Proceedings of the third symposium on Information interaction in context (IIiX), pages 65–74, 2010. [214] H. Tong, J. He, M. Li, C. Zhang, and W.-Y. Ma. Graph based multimedia learning. In Proceedings of the 13th annual ACM International Conference on Multimedia, pages 862–871, 2005. [215] G. Torsten. Storage and retrieval of xml documents within a cluter of database systems. Thèse de Doctorat, Institut fédéral de technologie, Zurich, Suisse, 2003. Bibliographie 128 [216] A. Trotman. Choosing document structure weights. International Journal of Information Processing and Management (IPM), 41(2) :243–264, 2005. [217] A. Trotman and R. A. O’Keefe. Identifing and ranking relevant document element. In Proceedings of INEX 2003 Workshop, pages 149–154, 2003. [218] A. Trotman and B. Sigurbjörnsson. Narrowed extended xpath i (nexi). In Proceedings of INEX 2004 Workshop [81], pages 219–237. [219] A. Trotman and B. Sigurbjörnsson. Nexi, now and next. In Proceedings of INEX 2004, pages 10–15, 2004. [220] H. Turtle. Inference networks for document retrieval. Ph.D. Thesis, University of Massachusetts, Amherst, MA, USA, 1991. [221] S. Vaid, B. C. Jones, H. Joho, and M. Sanderson. Spatio-textual indexing for geographical search on the web. In Proceedings of the 9th international conference on Advances in Spatial and Temporal Databases (SSTD), pages 218–235, 2005. [222] D. Vallet and H. Zaragoza. Inferring the most important types of a query : a semantic approach. In Proceedings of the the 31st annual international ACM SIGIR conference on Research and development in information retrieval, pages 857–858, 2008. [223] J.-N. Vittaut, B. Piwowarski, and P. Gallinari. An algebra for structured queries in bayesian networks. In Pre-proceedings of INEX 2004, pages 58–65, 2004. [224] E. M. Voorhees. Proceedings of the 8th text retrieval conference. In TREC-8 Question Answering Track Report, pages 77–82, 1999. [225] E. M. Voorhees, N. K. Gupta, and J. Laird. The collection fusion problem. In TREC, 1994. [226] H.-T. Vu, L. Denoyer, and P. Gallinari. Un modèle statistique pour la classification de documents structurés. In Actes de 3ème conférence internationale francophone Extraction et Gestion des Connaissances, EGC 2003, pages 233–246, 2003. [227] S. Walker, S. E. Robertson, M. Boughanem, G. J. F. Jones, and K. Sparck Jones. Okapi at trec-6 automatic ad hoc, vlc, routing, filtering and qsdr. In TREC, pages 125–136, 1997. [228] F. Weigel, K. Shulz, and H. Meuss. Ranked retrieval of structured doucments with the sterm vector space model. In Proceedings of the INEX 2004 Workshop, pages 126–133, 2004. [229] R. Wilkinson. Effective retrieval of structured documents. In the 17th ACM SIGIR 1994, pages 311–317, 1994. [230] J. E. Wolff, H. Florke, and A. B. Cremers. Searching and browsing collections of structural information. In Proceedings of IEEE Advances in Digital Libraries (ADL), pages 141–150, 2000. [231] A. Woodley and S. Geva. Nlpx at inex 2004. In N. Fuhr, M. Lalmas, S. Malik, and Z. Szlavik, editors, INEX’04, pages 382–394. springer, 2004. Bibliographie 129 [232] M. Wu and M. Fuller. Supporting the answering process. In Proceedings of the Second Australian Document Computing Symposium, pages 65–73, 1997. [233] J. Xu and B. Croft. Corpus based stemming using cooccurrence of word variants. In ACM Transactions on Information Systems, pages 61–81, 1998. [234] R. Yager and H. L. Larsen. Retrieving information by fuzzification of queries. Journal of Intelligent Information Systems, 4(2) :106–119, 1993. [235] G.-W. You, S.-W. Hwang, Z. Nie, and J.-R. Wen. Social search : enhancing entity search with social network matching. In Proceedings of the 14th International Conference on Extending Database Technology (EDBT), pages 515–519, New York, NY, USA, 2011. ACM. [236] H. Zargayouna. Contexte et sémantique pour une indexation de documents sémi-structurés. In Proceedings CORIA, pages 571–581, 2004. [237] H. Zeng, Q. He, Z. Chen, and W. Ma. Learning to cluster web search results. In Proceedings of the ACM SIGIR, pages 210–217, 2004. [238] C.-X. Zhai. Statistical language models for information retrieval a critical review. Journal Foundations and Trends in Information Retrieval (FTIR), 2(3) :137–213, 2008. [239] Y. Zhang, P. J. Callan, and P. T. Minka. Novelty and redundancy detection in adaptive filtering. In Proceedings of the ACM SIGIR, pages 81–88, 2002. [240] K. Zhou, R. Cummins, and M. Lalmas. Evaluating large scale distributed vertical search. In Proceedings of the 9th International Workshop on Large-Scale and Distributed Systems for Information Retrieval (LSDSIR), pages 9–14, 2011.

RELATED PAPERS

RELATED TOPICS

Log In

Un modèle de recherche d'information agrégée basée sur les réseaux bayésiens dans des documents semi-structurés

Un modèle de recherche d'information agrégée basée sur les réseaux bayésiens dans des documents semi-structurés

Related Papers

RELATED PAPERS

RELATED TOPICS