View metadata, citation and similar papers at core.ac.uk
brought to you by
CORE
provided by Thèses en ligne de l'Université Toulouse III - Paul Sabatier
5)µ4&
&OWVFEFMPCUFOUJPOEV
%0$503"5%&-6/*7&34*5²%&506-064&
%ÏMJWSÏQBS
Université Toulouse 3 Paul Sabatier (UT3 Paul Sabatier)
Cotutelle internationale avec Université de Tunis - Institut Supérieur de Gestion
1SÏTFOUÏFFUTPVUFOVFQBS
M. NAFFAKHI Najeh
le lundi 08 juillet 2013
5JUSF
Un modèle de recherche d'information agrégée basée sur les réseaux
bayésiens dans des documents semi-structurés.
²DPMF EPDUPSBMF et discipline ou spécialité
ED MITT : Image, Information, Hypermedia
6OJUÏEFSFDIFSDIF
IRIT-UMR 5505
%JSFDUFVS T EFʾÒTF
M. BOUGHANEM Mohand et Mme FAIZ Rim
Jury :
Pr. HACID Mohand-Said (Président), Pr. SAVOY Jacques (Rapporteur), Pr. GARGOURI Faïez
(Rapporteur), Pr. BOUGHANEM Mohand (Directeur) et Pr. FAIZ Rim (Co-directrice)
Résumé
XML est considéré comme un métalangage permettant de décrire n’importe quel domaine de données grâce à son extensibilité. Il va permettre de
structurer, poser le vocabulaire et la syntaxe des données qu’il va contenir.
L’accès à ce type de document soulève de nouvelles problématiques liées à la
co-existence de l’information structurelle et de l’information de contenu. L’objectif des systèmes de Recherche d’Information Structurée (RIS) n’est plus de
renvoyer le document répondant à la requête, mais plutôt l’unité documentaire
(élément XML, portion du document) répondant au mieux à la requête. Ainsi,
au lieu de récupérer une liste d’éléments qui sont susceptibles de répondre à
la requête, notre objectif est d’agréger dans un même résultat des éléments
pertinents, non-redondants et complémentaires.
Les travaux décrits dans cette thèse s’intéressent à l’agrégation des unités
documentaires à partir des documents semi-structurés de type XML. Nous proposons de nouvelles approches d’agrégation et d’élagage en utilisant différentes
sources d’évidence contenu et structure. Nous proposons un modèle basé sur les
réseaux bayésiens. Les relations de dépendances entre requête-termes d’indexation et termes d’indexation-éléments sont quantifiées par des mesures de probabilité. Dans ce modèle, la requête de l’utilisateur déclenche un processus de
propagation pour sélectionner les éléments pertinents. Dans notre modèle, nous
cherchons à renvoyer à l’utilisateur un agrégat au lieu d’une liste d’éléments.
En fait, l’agrégat formulé à partir d’un document est considéré comme étant un
ensemble d’éléments ou une unité d’information (portion d’un document) qui
répond le mieux à la requête de l’utilisateur. Cet agrégat doit répondre à trois
aspects à savoir la pertinence, la non-redondance et la complémentarité pour
qu’il soit qualifié comme une réponse à cette requête. L’utilité des agrégats
retournés est qu’ils donnent à l’utilisateur un aperçu sur le contenu informationnel de cette requête dans la collection de documents.
Une autre source d’évidence que nous avons aussi utilisée est l’information structurelle. À l’aide des techniques d’élagage utilisées dans une première
hypothèse, nous appliquons la relation de la non-inclusion entre les éléments
d’un même agrégat afin d’éliminer les éléments qui véhiculent la même information. Une deuxième hypothèse basée sur la source d’évidence : l’information
de contenu, est appliquée en utilisant la mesure de similarité “cosine” afin
d’éliminer les éléments similaires entre les agrégats renvoyés.
ii
D’une manière générale, nous essayons de renvoyer à l’utilisateur un nombre
limité des ensembles d’éléments XML, qui satisfont à la fois aux trois aspects
à savoir la pertinence, la non-redondance et la complémentarité.
Afin de valider notre modèle, nous l’avons évalué dans le cadre de la campagne d’évaluation INEX 2009 (utilisant plus que 2 666 000 documents XML de
l’encyclopédie en ligne Wikipédia). Les expérimentations montrent l’intérêt de
cette approche en mettant en évidence l’impact de l’agrégation de tels éléments.
Mots-clés : Recherche d’information agrégée, réseaux bayésiens, éléments
XML, pertinence, redondance, complémentarité.
iii
Abstract
XML is considered as a meta-language for writing any data domain
through its extensibility. It will allow to structure, place the vocabulary and
syntax of the data it will contain. Access to such documents raises new issues
related to the coexistence of structural information and information content.
The goal of Structured Information Retrieval systems is no longer to return
the document answering the query, but the documentary unit (XML element,
document’s portion) that best suit the application. Thus, instead of retrieving
a list of XML elements that are likely to respond to the query, our goal is to
aggregate into a result space a set of XML elements that are relevant, nonredundant and complementary.
The work described in this thesis are concerned with the aggregation of
XML elements. We propose new approaches to aggregating and pruning using
different sources of evidence (content and structure). We propose a model based
on Bayesian networks. The dependency relationships between query-terms and
terms-elements are quantified by probability measures. In this model, the user’s
query triggers a propagation process to find XML elements. In our model, we
search to return to the user an aggregate instead of a list of XML elements. In
fact, the aggregate made from a document is considered an information unit (or
a portion of this document) that best meets the user’s query. This aggregate
must meet three aspects namely relevance, non-redundancy and complementarity in order to answer the query. The value returned aggregates is that they
give the user an overview of the information need in the collection.
Another source of evidence we used is the structural information. Using
the pruning techniques used in a first hypothesis, we apply the relation of the
non-inclusion between elements of the same aggregate to eliminate elements
that convey the same information. A second hypothesis based on the source of
evidence : information content, is applied using a cosine similarity measure to
eliminate similar elements between the returned aggregates.
In general, we try to send to the user a limited number of sets of XML elements, which satisfy both the three aspects namely relevance, non-redundancy
and complementarity.
In summary, we search to reduce the result space so that the user provides
the slightest effort to find the needed information. We have validated our apiv
proach of aggregated search using INEX 2009 collection. Experiments show
the usefulness of this approach by highlighting the impact of the aggregation
of such elements.
Keywords : Aggregated search, Bayesian networks theory, XML documents, relevance, redundancy, complementarity.
v
Remerciements
Cette thèse est le fruit de quatre années d’efforts incessants, mais aussi
d’échanges bénéfiques et de collaborations fructueuses entre l’IRIT et LARODEC. Ce travail n’aurait pas pu aboutir sans le concours précieux et généreux
de personnes qui partagent la même passion pour la recherche scientifique.
C’est avec un énorme plaisir que je remercie aujourd’hui toutes les personnes
qui m’ont soutenu.
Tout d’abord, j’adresse mes plus vifs remerciements à Monsieur le Professeur
Claude Chrisment qui m’accueillie au sein de son équipe SIG.
Je tiens à exprimer ma profonde gratitude à Monsieur Mohand Boughanem,
Professeur à l’Université Toulouse 3 Paul Sabatier (UT3 Paul Sabatier), pour
m’avoir dirigé tout au long cette thèse. Je le remercie pour m’avoir soutenu et
appuyé tout au long de ma thèse. Sa gentillesse, sa patience, son humour, sa
disponibilité, ses précieux conseils, son exigence, ses commentaires et ses très
nombreuses compétences ont été capitales durant ces années de recherche et
m’ont profondément enrichi.
Je tiens à remercier vivement ma co-directrice de thèse, Madame Rim Faiz,
Professeur à l’université de Carthage, IHEC - Tunis, pour avoir encadré et dirigé mes recherches. Je la remercie pour son souci constant de l’avancement de
ma thèse et son suivi continu de mon travail, ses précieux conseils de tout ordre,
sa disponibilité et sa confiance. Son expérience et ses grandes compétences ont
permis l’accomplissement de ce travail. Par sa bonne humeur et sa collaboration, elle m’a toujours encouragé et aidé à surmonter les difficultés. Qu’elle
trouve ici les marques de ma reconnaissance et de mon respect.
Je remercie très sincèrement Monsieur Jacques Savoy, Professeur à l’Université Neuchâtel, II - Suisse et Monsieur Faı̈ez Gargouri, Professeur à l’Université
de Sfax, ISIM - Tunisie, pour avoir accepté d’être rapporteurs de ce mémoire,
et pour l’honneur qu’ils me font en participant au jury. Merci également à
Monsieur Mohand-Said Hacid, Professeur à l’Université Claude Bernard Lyon
1, d’avoir accepté de juger ce travail et de faire partie du jury. Je les remercie
pour leur évaluation scientifique et leur travail de synthèse.
Mes remerciements vont de même à tous les membres de l’équipe SIG
à l’IRIT pour leur aide et leur gentillesse. Plus particulièrement, je tiens à
vi
exprimer ma reconnaissance à Madame Karen Pinel-Sauvagnat, Maı̂tre de
conférences à l’UPS et Madame Mouna Torjmen, Maı̂tre assistante à l’université de Sfax, ENIS. Je les remercie pour leurs aides, leurs disponibilités et leurs
générosités pour faire avancer mes expérimentations. Je remercie mes amis de
l’équipe qui ont contribué à la finalisation de quelques tâches d’évaluation dans
ce mémoire. Je remercie Arezki Hammache, Cyril Laitang, Faten Atigui, Firas Damak, Ines Krichen, Lamjed Ben Jabeur, Madalina Mitran et M’Hamed
Mataoui pour leur collaboration et leur disponibilité. Je remercie également
toutes les personnes qui ont participé de façon volontaire aux expérimentations
menées dans cette thèse. Je n’oublie pas non plus les docteurs qui ont été des
anciens thésards : Anass El Haddadi, Arlind Kopliku, Dana Al Kukhun, Duy
Dinh, Hamdi Chaker, Houssem Jerbi, Ihab Mallak, Mariam Daoud, Malik Muhammad Saad Missen et Ourdia Bouidghaghen et qui m’ont encouragé, leurs
conseils m’ont toujours servi.
Merci aussi à tous les amis que j’ai connu à Toulouse et avec lesquels j’ai
vécu des moments inoubliables.
Mes pensées se tournent enfin vers ma famille. Il n’existe pas de mot assez
grand et fort pour remercier mes parents, mes sœurs et frères qui n’ont jamais
cessé de croire en moi pendant toutes mes années d’études et qui m’ont toujours
encouragé à aller de l’avant.
Le mot de la fin sera à celle à qui je dédie ce travail. Ma fiancée Abir qui m’a
encouragé à y aller de l’avant, çà y est ! C’est fini ! On en parle plus ! C’est la
première fois que je sens le goût du succès accompagné par un bonheur complet.
vii
Table des matières
1
Introduction générale
I Recherche d’Information agrégée dans les documents
semi-structurés : Aperçu sur les modèles et les cadres
d’évaluation
8
1 La Recherche d’Information classique
1.1 Introduction . . . . . . . . . . . . . . . . . .
1.2 Processus de RI classique . . . . . . . . . . .
1.2.1 Notions de base . . . . . . . . . . . .
1.2.2 Mise en œuvre d’un SRI . . . . . . .
1.2.3 Indexation . . . . . . . . . . . . . . .
1.2.4 Appariement . . . . . . . . . . . . .
1.3 Aperçu des principaux modèles de RI . . . .
1.3.1 Modèle booléen . . . . . . . . . . . .
1.3.2 Modèle vectoriel . . . . . . . . . . . .
1.3.3 Modèle probabiliste . . . . . . . . . .
1.4 Évaluation des performances des systèmes de
1.4.1 Collections de test . . . . . . . . . .
1.4.2 Protocole d’évaluation . . . . . . . .
1.4.3 Mesures d’évaluation . . . . . . . . .
1.5 Conclusion . . . . . . . . . . . . . . . . . . .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
RI
. .
. .
. .
. .
2 La Recherche d’Information Structurée
2.1 Introduction . . . . . . . . . . . . . . . . . . .
2.2 Enjeux de la RIS . . . . . . . . . . . . . . . .
2.2.1 Granularité de l’information recherchée
2.2.2 Expression du besoin en information .
2.3 Les approches de la RIS . . . . . . . . . . . .
2.3.1 Approches orientées documents . . . .
2.3.2 Approches orientées données . . . . . .
2.4 Indexation de documents semi-structurés . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
10
10
11
12
14
15
15
16
16
18
18
19
20
23
.
.
.
.
.
.
.
.
25
25
26
26
27
28
28
28
29
2.4.1
2.5
2.6
2.7
2.8
Indexation de l’information textuelle . . . . . .
2.4.1.1 Portée des termes d’indexation . . . .
2.4.1.2 Pondération des termes d’indexation .
2.4.2 Indexation de l’information structurelle . . . . .
2.4.2.1 Indexation basée sur des champs . . .
2.4.2.2 Indexation basée sur des chemins . . .
2.4.2.3 Indexation basée sur des arbres . . . .
Interrogation des documents XML . . . . . . . . . . . .
2.5.1 XQuery . . . . . . . . . . . . . . . . . . . . . .
2.5.2 NEXI . . . . . . . . . . . . . . . . . . . . . . .
2.5.3 XFIRM . . . . . . . . . . . . . . . . . . . . . .
Modèles de RIS . . . . . . . . . . . . . . . . . . . . . .
2.6.1 Modèle vectoriel étendu . . . . . . . . . . . . .
2.6.2 Modèle probabiliste . . . . . . . . . . . . . . . .
2.6.2.1 Modèle inférentiel . . . . . . . . . . .
2.6.2.2 Modèle de langue . . . . . . . . . . . .
2.6.2.3 Autres approches . . . . . . . . . . . .
Évaluation des performances des systèmes de RIS . . .
2.7.1 Collections de test . . . . . . . . . . . . . . . .
2.7.2 Requêtes . . . . . . . . . . . . . . . . . . . . . .
2.7.3 Tâches de recherche . . . . . . . . . . . . . . . .
2.7.4 Mesures d’évaluation . . . . . . . . . . . . . . .
2.7.4.1 Métriques à INEX 2005 . . . . . . . .
2.7.4.2 Métriques proposées depuis INEX 2007
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Vers la Recherche d’Information agrégée dans des documents
semi-structurés
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Limites de la recherche ordonnée . . . . . . . . . . . . . . . . .
3.3 Vers la RI agrégée . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Domaines d’application de la RI agrégée . . . . . . . . .
3.3.2.1 RI agrégée relationnelle . . . . . . . . . . . . .
3.3.2.2 Recherche verticale . . . . . . . . . . . . . . . .
3.3.2.3 Autres perspectives de la RI agrégée . . . . . .
3.3.3 Problématique de la RI agrégée . . . . . . . . . . . . . .
3.4 RI agrégée dans les documents semi-structurés . . . . . . . . . .
3.4.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Agrégation des documents XML . . . . . . . . . . . . . .
3.4.3 Motivations . . . . . . . . . . . . . . . . . . . . . . . . .
ix
29
30
30
31
31
32
32
33
33
34
35
35
36
40
41
42
44
44
45
45
46
47
47
48
49
51
51
52
53
53
56
56
57
57
59
59
59
60
61
3.5
3.6
Évaluation des systèmes de RI agrégée . . . . . . . . . . . . . .
3.5.1 Limites des modèles d’évaluation orientés laboratoire en
RI agrégée . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1.1 Absence de la notion de document en RI agrégée
3.5.1.2 Insuffisance des métriques quantitatives . . . .
3.5.2 Modèles d’évaluation orientés RI agrégée . . . . . . . . .
3.5.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
62
62
63
63
65
65
II Un Modèle de Recherche d’Information agrégée
dans des documents XML basé sur les Réseaux Bayésiens
66
4 Un
4.1
4.2
4.3
Modèle de RI Agrégée basé sur les Réseaux Bayésiens
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les Réseaux bayésiens . . . . . . . . . . . . . . . . . . . . . . .
Un modèle de RI agrégée basé sur les RB . . . . . . . . . . . . .
4.3.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Architecture générale du modèle . . . . . . . . . . . . . .
4.3.3 Évaluation de la requête par propagation . . . . . . . . .
4.3.4 Agrégation des termes de la requête . . . . . . . . . . . .
4.3.4.1 Agrégations booléennes des termes de la requête
4.3.4.2 Quantification des termes de la requête . . . . .
4.3.5 Pertinence . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.6 Redondance . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.7 Complémentarité . . . . . . . . . . . . . . . . . . . . . .
4.4 Illustration du modèle proposé . . . . . . . . . . . . . . . . . . .
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
67
68
69
69
70
72
73
75
76
77
78
80
81
85
5 Expérimentations
87
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2 Collection de test . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.1 Collection de documents . . . . . . . . . . . . . . . . . . 88
5.2.2 Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.3 Évaluation du modèle selon la stratégie de recherche Focused
d’INEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.3.1 Stratégie de recherche Focused d’INEX . . . . . . . . . . 89
5.3.2 Adaptation de notre résultat . . . . . . . . . . . . . . . . 89
5.3.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.4 Évaluation du modèle d’agrégation . . . . . . . . . . . . . . . . 91
x
5.4.1
5.4.2
5.4.3
5.4.4
5.4.5
5.4.6
5.4.7
5.5
Distribution d’éléments . . . . . . . . . . . .
Évaluation de la pertinence d’agrégats . . .
Impact de la redondance . . . . . . . . . . .
Impact de la complémentarité . . . . . . . .
Complémentarité vs. Redondance . . . . . .
RI agrégée vs. Liste ordonnéee . . . . . . . .
Dégré d’accord entre participants et temps
chaque requête . . . . . . . . . . . . . . . .
5.4.8 Discussion . . . . . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
consacré
. . . . .
. . . . .
. . . . .
. . 92
. . 93
. . 95
. . 96
. . 97
. . 98
à
. . 99
. . 99
. . 100
Conclusion générale
101
A Les documents semi-structurés
A.1 XML : concepts de base . . . . . . . . . .
A.1.1 Documents structurés et documents
A.1.2 Les fondements de XML . . . . . .
A.2 Stockage des documents XML . . . . . . .
A.2.1 Modèles de fichiers textes . . . . .
A.2.2 Modèles de SGBD relationnels . . .
A.2.3 Modèles de SGBD XML natifs . . .
106
106
106
107
109
110
110
110
Bibliographie
. . . . . . . . .
semi-structurés
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
112
xi
Liste des tableaux
1.1
Tableau de contingence de la pertinence . . . . . . . . . . . . .
20
2.1
2.2
2.3
2.4
RI vs. BD
Indexation
Indexation
Indexation
.
.
.
.
.
.
.
.
.
.
.
.
28
31
32
33
4.1
4.2
4.3
4.4
4.5
4.6
Agrégation quantifiée des termes de la requête P (Q|T (Q)) .
Probabilités conditionnelles des parents de la requête, T (Q)
Ensemble des configurations possibles . . . . . . . . . . . . .
Distribution de probabilité P (tk |θi ) . . . . . . . . . . . . . .
Distribution de probabilité P (ej |d) . . . . . . . . . . . . . .
Calcul du score de chaque configuration possible . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
77
83
84
84
85
85
5.1
Comparaison des résultats enregistrés dans le cas de la tâche CO
de la collection INEX 2009 selon la stratégie Focused . . . . . . 91
Durée et degré d’accord basés sur des contextes réels (user studies) 99
5.2
. . . . . . . . . . . .
basée sur les champs
basée sur les chemins
basée sur les arbres .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Table des figures
1
Des volumes de données plus importants et plus complexes à
traiter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.1
1.2
Processus en U de la RI . . . . . . . . . . . . . . . . . . . . . .
Forme générale de la courbe rappel-précision d’un SRI . . . . .
12
21
2.1
2.2
Exemple d’indexation de l’information structurelle . . . . . . . .
Exemple de recherche par structure avec le système XIVIR [18]
31
38
3.1
3.4
Agrégation des résultats renvoyés par Yahoo !7 pour la requête
“jaguar” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Agrégation des résultats renvoyés par ASK pour la requête “jaguar” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Résultats retournés par Google News pour la requête “chelsea”,
consulté en avril 2009 [121] . . . . . . . . . . . . . . . . . . . . .
Exemple d’une structure d’un document XML . . . . . . . . . .
58
60
4.1
4.2
4.3
Architecture simplifiée par document du modèle proposé . . . .
Extrait d’un document XML . . . . . . . . . . . . . . . . . . . .
Réseau bayésien relatif à la requête et au document XML . . . .
71
81
82
5.1
5.2
Topic 2009114 de la campagne INEX 2009 . . . . . . . . . . . .
Impact de l’hypothèse H1 sur le nombre d’éléments par agrégat
et par requête . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution de la pertinence d’agrégats par requête . . . . . . .
Pertinence d’agrégats par requête à Pag(1) , Pag(2) , Pag(3) , Pag(4) ,
Pag(5) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution des jugements de la redondance par requête . . . .
Distribution des jugements de la complémentarité par requête .
Utilité de la RI Agrégée . . . . . . . . . . . . . . . . . . . . . .
89
3.2
3.3
5.3
5.4
5.5
5.6
5.7
54
55
92
93
94
96
97
98
A.1 Exemple d’un document XML . . . . . . . . . . . . . . . . . . . 107
A.2 Exemple de DTD correspondant au document XML da la figure
A.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
A.3 Exemple de DOM correspondant au document XML de la figure
A.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
xiv
Introduction générale
Avec l’usage croissant des smartphones, envoi de messages sur les réseaux
sociaux comme Facebook, Twitter, ... chaque individu génère, sans le savoir,
une multitude d’informations précieuses. En 2010, les quantités d’informations
(données, musiques, vidéos, documents, etc.) créées sont estimées à 1,2 zettaoctets 1 . La croissance de ces quantités d’informations va se poursuivre au
rythme effréné de 45% par an jusqu’en 2020, prévoit le cabinet d’études IDC
(cf. figure 1). Agrégées, comparées à des relevés historiques et mélangées aux
données produites, ces informations constituent un réservoir considérable de
connaissances utiles.
Figure 1 – Des volumes de données plus importants et plus complexes à traiter
Mais pour que l’abondance de l’information ne tue pas l’information, ces
données doivent être gérées à l’aide de systèmes automatisés. Notre travail se
situe dans le contexte de ces outils automatisés et plus précisément dans le
domaine de la RI (Recherche d’Information).
1. Un zetta-octet est 10 à la puissance 21, soit 10 suivi de 20 zéros
Introduction générale
2
Contexte du travail
La RI est une branche en informatique qui s’intéresse à l’acquisition, l’organisation, le stockage et la recherche des informations. Elle regroupe l’ensemble
de procédures et techniques permettant de sélectionner à partir d’une collection
de documents, les informations (documents ou portions de documents) pertinentes répondant à des besoins utilisateurs, exprimés à travers des requêtes.
La RI remonte à peu de temps après l’arrivée des premiers ordinateurs,
et constitue l’une de plus anciennes applications de l’informatique à l’accès
aux documents électroniques. À cette époque, en 1955, la plus remarquable
réalisation est le WRU 2 Searching Selector, de James W. Perry et al. [167].
C’est une machine qui pouvait déjà résoudre jusqu’à 10 requêtes booléennes en
un seul passage sur une bande magnétique. Les premiers systèmes de recherche
d’information (SRI) utilisés par des libraires sont fondés sur des modèles de
recherche booléens. Le développement du système SMART par Salton [197]
à la fin des années 1960, et qui utilise le modèle vectoriel, a conduit à des
développements novateurs.
Près de soixante ans plus tard, et une vingtaine d’années après la révolution
d’Internet et ses milliards de pages accessibles sur la Toile, la RI est plus que
jamais d’actualité. En effet, la banalisation de l’informatique grand public et
l’accès quasi universel à Internet ont induit une énorme demande des utilisateurs vers une meilleure accessibilité aux seules données qui les intéressent :
langue naturelle parlée ou écrite, images, musique, animations [55]. Cette explosion de ressources d’information et leur hétérogénéité a ramené à de nouveaux
problèmes à la RI :
– Évolution des documents : collection gigantesque, dynamique et changeante, surabondance de l’information, documents structurées ou semistructurés, documents multimédias, données réparties, multilinguisme,
etc.
– Évolution des besoins : une seule requête puise désormais dans différentes
sources simultanément : web, images, cartes, actualités, blogs, livres.
L’ambigüité des requêtes des utilisateurs, la diversité de leurs besoins
en information et de leurs situations de recherche, etc.
Ces problèmes ont remis en cause les modèles classiques de RI. En effet, les
méthodes classiques d’indexation et de recherche en RI, davantage destinées
aux données textuelles, ne sont pas directement applicables à ces nouveaux
documents, en particulier les documents semi-structurés de type XML. En effet, la RI dans les documents semi-structurés se caractérisent par la forme
2. WRU : Western Reserve University, Cleveland (US). Voir en particulier la
référence Web http ://www.libsci.sc.edu/Bob/ISP/cwru.htm
Introduction générale
3
des requêtes, elles peuvent être sous forme de mots-clés et/ou de contraintes
structurelles et/ou de contenu multimédia et la forme de l’unité d’information
renvoyée en réponse à ces requêtes. Ces unités sont des parties du document
répondant d’une manière exhaustive et spécifique à la requête.
Ces unités sont souvent renvoyées sous forme d’une liste ordonnée : chaque
unité est censée répondre totalement à la requête. Or un élément peut en effet, répondre souvent partiellement à une requête. Une réponse idéale serait
par exemple l’agrégation d’un élément X avec un élément Y unis d’ailleurs
d’un même document que de documents différents. Nos travaux se situent
précisément à la conjonction de la RIS (Recherche d’Information Structurée) et
la RI agrégée. L’objectif des systèmes de RIS n’est plus de renvoyer le document
entier répondant à la requête, mais plutôt l’unité d’information (ou élément
XML) répondant le mieux à la requête. Pour répondre à ce challenge, plusieurs
modèles de recherche ont été proposés dans la littérature (cf. chapitre 2, section
2.6). Quant à la RI agrégée, son objectif cherche à assembler des éléments provenant de sources différentes : images, vidéos (dont YouTube), livres numérisés
(Google Livres), cartes (Google Maps), actualités (Google News), etc.
Nous nous intéressons dans nos travaux à l’application du paradigme de la
RI agrégée en RIS afin de satisfaire l’utilisateur en lui renvoyant les meilleurs
ensembles d’unités d’informations répondant à son besoin.
Problématique
La plupart des approches en RIS [202, 160, 127, 128, 177] considère que
les unités d’information retournées sont sous forme d’une liste d’éléments disjoints. Ces éléments peuvent être pertinents, non pertinents ou partiellement
pertinents. Le défi à relever est alors d’arriver à sélectionner automatiquement
les éléments répondant à la fois de manière exhaustive et spécifique [168] à la
requête de l’utilisateur.
Nous nous intéressons au problème d’agrégation d’éléments XML. Nous
pensons qu’il existe des requêtes pour lesquelles, il est nécessaire d’agréger des
éléments d’un même document pour former la réponse la plus complète en terme
de pertinence. L’idée derrière la sélection d’un ensemble d’éléments au lieu
d’un élément tout seul vient du fait que nous croyons qu’un élément pourrait
être partiellement pertinents pour une requête, alors que si nous regroupons
ces éléments ensembles, nous pourrons alors produire une meilleure réponse à
l’utilisateur.
Les travaux décrits dans cette thèse s’intéressent à la sélection de l’agrégat
Introduction générale
4
(ensemble d’éléments) qui répond le mieux à une requête composée de simple
mots-clés (requêtes de type CO (Content Only)).
La question de l’agrégation des éléments XML a reçu peu d’attention dans
la littérature. La première tentative proposée permettant de répondre à cette
problématique est celle proposée par Bessai et Alimazighi [29].
L’émergence de la RI agrégée a permis non seulement de réviser l’accès à
l’information mais aussi de remettre en cause le paradigme d’évaluation classique des systèmes de RIS. Plusieurs questions se posent dans ce contexte, elles
portent en général sur la manière de :
– agréger les éléments potentiellement pertinents ;
– élaguer ceux qui sont redondants ;
– regrouper ceux qui se complètent ;
– évaluer le résultat d’une recherche ;
– prendre en compte l’information structurelle.
Dans le cadre de cette thèse, nous souhaitons mieux explorer l’impact de
l’agrégation de telles unités en RIS, en étudiant notamment l’intérêt d’utiliser des ensembles d’éléments à la place d’une simple liste et en évaluant nos
propositions sur des collections de documents de type XML.
Contribution
Afin de répondre aux questions listées précédemment, nous avons proposé
un mécanisme complet d’agrégation d’éléments XML partant de la sélection
jusqu’au renvoi d’un ensemble d’éléments répondant à une requête de type
CO.
Notre approche se situe à la jonction de la recherche d’éléments les plus pertinents à partir de documents XML et leur agrégation dans un même résultat.
Notre objectif est d’assembler automatiquement des éléments pertinents, nonredondants et complémentaires qui répondent ensemble le mieux au besoin de
l’utilisateur formulé à travers une liste des mots-clés. Le modèle que nous proposons trouve ses fondements théoriques dans les RB (Réseaux Bayésiens). La
structure réseau fournit une manière naturelle de représenter les liens entre les
éléments du corpus de documents XML et leurs contenus. Quant à la théorie
des probabilités, elle permet d’estimer de manière qualitative et quantitative
les différents liens sous-jacents. Elle permet notamment d’exprimer le fait qu’un
terme est probablement pertinent vis-à-vis d’un élément et de mesurer à quel
point une réponse à la requête contient un ensemble d’éléments pertinents,
non-redondants et complémentaires.
Introduction générale
5
Plus précisément, au niveau de la pertinence d’éléments dans un résultat de
recherche, nous estimons que la pertinence d’un agrégat en fonction d’un terme
dépend non seulement de sa pertinence dans chaque élément de l’agrégat en
question mais aussi de sa pertinence dans la collection afin d’éviter le problème
des fréquences nulles des quelques termes.
Au niveau de l’élimination d’éléments redondants, nous avons, tout d’abord,
proposé une contrainte de structure qui nous permet d’enlever les éléments qui
se chevauchent. Cette contrainte d’inclusion a pour objectif de ramener dans
un agrégat, les éléments qui n’ont pas une relation de parenté (ou ancêtredescendant). Nous avons ensuite proposé une deuxième contrainte de contenu
qui nous permet d’avoir dans un agrégat uniquement les éléments dissimilaires.
Cette contrainte de similarité a pour objectif de renvoyer dans un agrégat les
éléments qui ne sont pas semblables. Pour cela, nous avons proposé un algorithme pour fixer le seuil similarité entre les éléments redondants.
Nous avons également proposé au niveau de la complémentarité entre les
éléments d’un agrégat une fonction de propagation qui favorise les éléments
les plus loin de nœud racine. En effet, les éléments loin du nœud racine d’un
document paraissent plus porteurs d’informations complémentaires que ceux
situés plus haut dans le document. L’objectif ici est de favoriser les éléments
qui se complètent mutuellement pour avoir une réponse plus complète.
Enfin, toutes nos propositions ont été évaluées sur des collections standards
issues de la campagne d’évaluation INEX 3 2009. Nous proposons également
d’appliquer notre approche approche en deux modes :
– dans le premier mode, l’utilisateur n’intervient pas dans le jugement des
éléments pertinents. Ce mode est utilisé pour évaluer les résultats enregistrés dans le cadre de la campagne INEX 2009 selon la stratégie Focused ;
– dans le deuxième mode, l’utilisateur intervient dans le jugement de la pertinence d’agrégats. Ce mode est basé sur des contextes réels d’évaluation
de la redondance et la complémentarité entre les éléments du top-1 agrégat,
et l’utilité de la RI agrégée contre la RIS.
Les résultats montrent l’intérêt de l’approche proposée. La combinaison
des deux sources d’évidence, la structure et le contenu, permet également
d’améliorer les performances de manière significative.
3. INEX : INitiative for the
http ://inex.is.informatik.uniduisburg
Evaluation
of
XML
Retrieval.
Voir
Introduction générale
6
Organisation de la thèse
Ce mémoire de thèse est constitué de la présente introduction générale,
des deux parties principales et d’une conclusion générale. La première partie
présente le contexte général dans lequel se situe notre travail, à savoir la recherche d’information structurée et plus précisément la recherche agrégée dans
des documents semi-structurés ; la seconde partie détaille notre contribution
dans le domaine. La conclusion générale présente les principales conclusions
ainsi que les perspectives de nos travaux.
L’objectif de la première partie est de porter la lumière sur le domaine de
la recherche d’information structurée, puis son application pour embrasser la
RI agrégée. La première partie regroupe trois chapitres.
Le chapitre 1, “La Recherche d’Information classique”, présente les
notions et concepts de base de la RI. Nous présentons brièvement les fondements
de la RI classique. Ensuite, nous décrivons les principaux modèles de RI. Enfin,
nous présentons les protocoles d’évaluation d’un SRI.
Le chapitre 2, “La Recherche d’Information Structurée”, traite les
enjeux de la RIS. Nous discutons la différence entre les approches orientées base
de données et approches orientées recherche d’information. Nous présentons
les différentes approches d’indexation et d’interrogation développées dans ce
cadre. Nous décrivons ensuite les différents modèles de recherche proposés dans
la littérature. Enfin, nous abordons les protocoles d’évaluation des systèmes de
RIS.
Le chapitre 3,“Vers la Recherche d’Information agrégée dans des documents semi-structurés”, présente les différentes approches en RI agrégée
ainsi que les cadres d’évaluation associés. Nous présentons les limites des paradigmes recherche booléenne et recherche ordonnée. Nous décrivons ensuite les
motivations vers la RI agrégée ainsi que ses différents domaines d’applications
et les problèmes soulevés. Nous décrivons un état de l’art de la RI structurée et
la RI agrégée. Enfin, nous présentons des modèles d’évaluation en RI agrégée,
notamment l’évaluation des documents XML.
La deuxième partie détaille notre contribution dans le domaine de la RI
agrégée dans des documents XML. Elle comprend deux chapitres.
Le chapitre 4, “Un Modèle de Recherche d’Information agrégée
basé sur les Réseaux Bayésiens”, présente notre approche d’agrégation des
éléments XML ainsi qu’une évaluation expérimentale de cette approche. Nous
présentons le cadre théorique sur lequel repose notre modèle, à savoir les RB.
Nous détaillons ensuite le modèle que nous proposons. Enfin, nous illustrons le
Introduction générale
7
modèle proposé à l’aide d’un exemple.
Le chapitre 5, “Expérimentations”, présente les résultats des expérimentations que nous avons évalué. Ce chapitre présente une première évaluation
expérimentale comparative entre notre résultat et les dix meilleurs résultats enregistrés par les participants à la collection de test INEX 2009 selon la stratégie
de recherche Focused. Ce chapitre présente également une deuxième évaluation
expérimentale comparative entre la RI agrégée dans des documents XML et la
RI structurée.
En conclusion, nous dressons le bilan de nos travaux réalisés dans le cadre
de la RI agrégée dans des documents XML. Nous introduisons ensuite les perspectives liées à nos travaux réalisés ainsi que les cadres d’évaluation appropriés.
Première partie
Recherche d’Information
agrégée dans les documents
semi-structurés : Aperçu sur les
modèles et les cadres
d’évaluation
8
Chapitre 1
La Recherche d’Information
classique
1.1
Introduction
La RI (Recherche d’Information) est une discipline de recherche qui intègre
des modèles et des techniques dont le but est de faciliter l’accès à l’information
pertinente pour un utilisateur ayant un besoin en information. Ce besoin en
information est souvent formulé en langage naturel par une requête décrite par
un ensemble de mots-clés. L’objectif de tout Système de RI (SRI) est alors de
retrouver dans une collection de documents ceux qui sont susceptibles d’être
pertinents à une requête. Un SRI peut être défini alors comme l’ensemble des
programmes et des opérations permettant la gestion, la représentation, l’interrogation, la recherche, le stockage et la sélection des informations répondants à
une requête [196]. L’interrogation de la collection de documents à l’aide d’une
requête exige un appariement entre cette dernière et les documents. Ces documents sont souvent considérés comme des documents textuels (plats).
Ce chapitre a pour objectif de présenter les concepts de base de la RI classique. La section 1.2 présente tout d’abord les fondements de la RI classique.
La section 1.3 décrit trois modèles connu en RI, à savoir le modèle booléen, le
modèle vectoriel et le modèle probabiliste. La section 1.4 donne un aperçu sur
les collections de test ainsi que les principales mesures d’évaluation utilisées.
La dernière section 1.5 conclut le chapitre.
Chapitre 1. La Recherche d’Information classique
1.2
10
Processus de RI classique
Un SRI (Système de Recherche d’Information) permet de sélectionner à
partir d’une collection de documents, des informations pertinentes répondant à
des besoins utilisateurs, exprimés sous forme de requêtes. Dans la suite de cette
section, nous abordons les concepts de base de la RI ainsi que la description du
processus général d’un SRI.
1.2.1
Notions de base
Plusieurs notions clés s’articulent autour de la définition d’un SRI :
– Document : on appelle document toute unité d’information qui peut
constituer une réponse à un besoin en information d’un utilisateur. Un
document peut être un texte, une portion de texte, une image, une bande
vidéo, etc.
L’ensemble de documents exploitables et accessibles s’appelle collection
de documents (ou fonds documentaire, corpus).
– Requête : c’est une formulation du besoin d’information d’un utilisateur.
Elle peut être vue comme une description sommaire des documents ciblés
par la recherche. Divers types de langage d’interrogation sont proposés
dans la littérature. Une requête est un ensemble de mots-clés, mais elle
peut être exprimée en langage naturel, booléen ou graphique.
– Pertinence : une définition simple de cette notion fondamentale est
donnée dans [38] : “La pertinence est le degré de correspondance entre
un document et une requête, ou encore une mesure d’informativité du
document à la requête”. On trouve également d’autres définitions de la
pertinence dans [194] telle que : “La pertinence est un degré de relation
entre le document et la requête”.
La pertinence est indispensable pour l’évaluation des SRI. Cependant,
de nombreuses études menées [26, 34] autour de la notion de pertinence,
montrent que la pertinence n’est pas une relation isolée entre le document et la requête et qu’elle est définie par un ensemble de critères et
de préférences qui varient selon les utilisateurs. Ces critères sont des facteurs qui déterminent la pertinence accordée à l’information retrouvée
par l’utilisateur dans un contexte de recherche précis. Les facteurs qui
affectent les jugements de pertinence font l’objet de recherche depuis
déjà des décennies [66, 34, 26]. Nous citons les critères définis par [26]
et regroupés dans sept catégories : (1) le contenu informationnel des documents ; (2) le niveau d’expertise et de connaissances de l’utilisateur ;
(3) les croyances et préférences de l’utilisateur ; (4) autres informations
liées à l’environnement ; (5) les sources des documents ; (6) les documents
comme des entités physiques ; et (7) la situation de l’utilisateur.
Chapitre 1. La Recherche d’Information classique
11
Compte tenu de ces facteurs, il existe plusieurs types de “pertinence” possibles entre un document et un besoin, nous en citons les quatre les plus
importantes [211] :
1. pertinence algorithmique (ou système) : c’est une mesure algorithmique basée sur le calcul de la pertinence de l’information par rapport à la requête en utilisant des caractéristiques des requêtes, d’une
part, et des documents, d’autre part. Le but de tout SRI est de
rapprocher la pertinence algorithmique calculée par le système aux
jugements de pertinence donnés par des utilisateurs. C’est le seul
type de pertinence qui est indépendant du contexte.
2. pertinence thématique : cette pertinence est définie par le degré de
couverture de l’information retrouvée au thème évoqué par le sujet
de la requête. C’est la mesure de pertinence utilisée par les assesseurs
dans les campagnes d’évaluation TREC 1 [225].
3. pertinence coginitive : c’est la pertinence liée au thème de la requête,
selon la perception ou les connaissances de l’utilisateur sur ce même
thème ; cette pertinence est caractérisée par une dynamique qui permet d’améliorer la connaissance de l’utilisateur via l’information renvoyée au cours de sa recherche.
4. pertinence situationnelle (ou contextuelle) : cette pertinence est définie
par l’utilité de l’information jugée relativement au contexte ou à la
situation de l’utilisateur. C’est une pertinence dynamique.
Il est à noter qu’un SRI idéal doit supporter un modèle de recherche
d’information qui rapproche la pertinence algorithmique calculée par le
système aux jugements de pertinence donnés par des utilisateurs.
1.2.2
Mise en œuvre d’un SRI
La mise en œuvre d’un SRI fait appel à plusieurs étapes représentées par ce
que l’on nomme communément, le processus en U illustré par la figure 1.1. Ce
processus consiste en deux principales phases : l’indexation et l’appariement.
– Indexation : cette phase consiste à extraire et représenter le contenu des
documents à l’aide d’un ensemble de termes significatifs, auxquels sont
associés des poids pour différencier leur degré de représentativité, sous
forme d’index. Cette structure d’index permet de retrouver rapidement
les documents contenant les termes (mots-clés) de la requête.
– Appariement : cette phase consiste à mesurer la pertinence de chaque
document vis-à-vis de la requête utilisateur selon une mesure de correspondance du modèle de RI, et à renvoyer à l’utilisateur une liste ordonnée
des résultats.
1. TREC : Text REtrieval Conference. Voir http ://trec.nist.gov/
Chapitre 1. La Recherche d’Information classique
12
Figure 1.1 – Processus en U de la RI
1.2.3
Indexation
L’indexation couvre un ensemble de techniques visant à représenter le contenu
des documents (ou requêtes) par une liste de termes significatifs, que l’on
nomme : substituts ou descripteurs. Ces descripteurs forment le langage d’indexation. Dès lors, l’indexation consiste à détecter les termes les plus représentatifs
du contenu du document.
En RI, différents modes d’indexation existent : l’indexation manuelle, automatique ou semi-automatique.
– Indexation manuelle : chaque document est analysé par un spécialiste du
domaine (ou documentaliste) qui choisit les termes qu’il juge pertinents
dans la description du contenu sémantique du document. Ce type d’indexation est subjective, d’une part, car elle dépend des connaissances de
l’opérateur et d’autre part, inapplicable pour une collection volumineuse.
– Indexation automatique : cette indexation repose sur des algorithmes associant automatiquement des descripteurs à des parties de document. Elle
peut se faire selon une méthode linguistique ou statistique.
– Indexation semi-automatique : c’est une combinaison des deux méthodes
précédentes : un premier processus automatique permet d’extraire les
termes du document. Cependant, le choix final des descripteurs est laissé
au documentaliste, qui utilise un vocabulaire contrôlé sous forme
de thésaurus 2 ou de base terminologique.
D’une façon générale, un processus d’indexation automatique comprend un
ensemble de traitements automatiques sur les documents : extraction de mots
simples, élimination de mots vides, normalisation et pondération des mots.
2. Un thésaurus est une liste organisée de descripteurs (mots-clés) obéissant à des
règles terminologiques propres et reliés entre eux par des relations sémantiques.
Chapitre 1. La Recherche d’Information classique
13
1. Extraction de mots simples :
Cette étape consiste à extraire du document un ensemble de termes ou de
mots simples par une analyse lexicale permettant d’identifier les termes en
reconnaissant les espaces de séparation des mots, des caractères spéciaux,
des chiffres, les ponctuations, etc.
2. Élimination de mots vides :
La liste de mots simples extraite précédemment peut contenir de mots
non significatifs, appelés “mots vides”, tels que : les pronoms personnels,
les prépositions ou même des mots athématiques qui peuvent se retrouver
dans n’importe quel document (par exemple des mots comme contenir,
appartenir, etc). L’élimination de ces mots peut se faire en utilisant une
liste dressée de mots vides (également appelée anti-dictionnaire ou stoplist), ou en écartant les mots dépassant un certain nombre d’occurrences
dans la collection. Bien que ce traitement présente l’avantage de diminuer
le nombre de termes d’indexation, il peut cependant induire des effets de
silence. Par exemple, en éliminant le mot “a” de “vitamine a”.
3. Normalisation (lemmatisation ou radicalisation) :
Cette étape consiste à réduire les mots à leur forme canonique, à leur
racine : toutes les formes d’un verbe, par exemple, sont regroupées à
l’infinitif, tous les mots au pluriel sont ramenés au singulier, etc. On
distingue quatre principales méthodes de normalisation :
– par analyse grammaticale en utilisant un dictionnaire (ex : Tree-tagger 3 ) ;
– par utilisation de règles de transformation de type condition action
surtout pour l’anglais (ex : l’algorithme de Porter [179]) ;
– par troncature des suffixes à X caractères (ex : la troncature à 7 caractères) ;
– par la méthode des n-grammes utilisée pour le chinois et très intéressante
pour la radicalisation.
Il reste cependant à mentionner que ces traitements peuvent induire certains inconvénients tels que la production de normalisation agressive, par
exemple, les mots university/universe, organization/organ, policy/police
sont normalisés par l’algorithme de Porter, ou l’oubli de quelques normalisations intéressantes, par exemple : matrices/matrix, Europe/European,
machine/machinery ne sont pas normalisés. Il existe des techniques d’analyse de corpus pour réduire ces effets négatifs [233, 43].
4. Pondération des termes :
Cette étape est généralement basée sur des formules de pondération qui
affecte à chaque terme un degré d’importance (une valeur de discrimination) dans le document où il apparaı̂t. Il existe un grand nombre de
formules de pondération qui exploitent deux facteurs : fréquence de terme
(tf ) et fréquence inverse de document (idf ) [193], définies dans ce qui suit :
3. http ://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
Chapitre 1. La Recherche d’Information classique
14
– Fréquence de terme (tf) :
La fréquence du terme (term frequency) est le nombre d’occurrences de
ce terme dans le document considéré. L’idée sous-jacente est que plus
un terme est fréquent dans ce document, plus il est important dans la
description de celui-ci. Soient le document dj et le terme ti , la fréquence
tfij du terme dans le document est souvent utilisée directement ou
exprimée selon l’une des déclinaisons suivantes [146] :
#tdij
tfij = 1 + log(#tdij ), tfij = P
k #tdkj
(1.1)
où #tdij est le nombre d’occurrences du terme ti dans dj . Le dénominateur est le nombre d’occurrences de tous les termes dans le document
dj . La dernière déclinaison permet de normaliser la fréquence du terme
pour éviter les biais liés à la longueur du document.
– Fréquence inverse de document (idf) :
La fréquence inverse de document (inverse document frequency) est
une mesure de l’importance du terme dans l’ensemble du corpus. Elle
consiste à calculer le logarithme de l’inverse de la proportion de documents du corpus qui contiennent le terme. Cette mesure est exprimée
selon l’une des déclinaisons suivantes [146] :
idfi = log
|N − n|
|N |
, idfi = log
n
n
(1.2)
où n est la proportion des documents contenant le terme et N le nombre
total de documents dans collection.
La fonction de pondération de la forme tf − idf consiste à multiplier les
deux mesures tf et idf comme suit :
tf ∗ idf = log(1 + tf ) ∗ log
1.2.4
|N |
n
(1.3)
Appariement
La phase d’appariement du système implique un processus d’interaction de
l’utilisateur avec le SRI illustré dans la figure 1.1. Cette interaction implique
le scénario suivant : l’utilisateur exprime son besoin en information sous la
forme d’une requête. Le système interprète la requête et crée son index qui sera
compatible avec le modèle d’index des documents. Ensuite le système évalue la
pertinence des documents par rapport à cette requête en utilisant une fonction
de correspondance. Cette fonction exploite l’index généré dans la phase d’indexation dans le but de calculer un score de similarité (en anglais Relevance
Status Value), notée RSV (q, d), entre la requête indexée q et les descripteurs
Chapitre 1. La Recherche d’Information classique
15
du document d. Différents modèles de RI ont été proposés dans la littérature
et tentent de formaliser la pertinence en partant des modèles naı̈fs basés sur
l’appariement exact vers des modèles plus élaborés basés sur l’appariement rapproché [46].
Le résultat est une liste de documents triée par ordre de valeur de correspondance décroissante, et présenté à l’utilisateur. Celui ci apporte son jugement
sur les documents renvoyés par le système selon des critères liés à son besoin
en information et au contexte dans lequel la recherche est effectuée. Dans la
suite, nous présentons les principaux modèles développés en RI.
1.3
Aperçu des principaux modèles de RI
Un modèle de RI se définit par une formalisation du processus de RI et une
modélisation de la mesure de pertinence. Selon Baeza-Yates et Ribeiro-Neto
[23], un modèle de RI est défini formellement par par un quadruplet (D, Q, F ,
R(qi , dj )), où :
– D est l’ensemble de documents ;
– Q est l’ensemble de requêtes ;
– F est le schéma du modèle théorique de représentation des documents et
requêtes ;
– R(qi , dj ) est la fonction de pertinence du document dj à la requête qi .
Nous présentons dans la suite les principaux modèles de RI : le modèle
booléen, le modèle vectoriel et le modèle probabiliste.
1.3.1
Modèle booléen
Le modèle booléen [190] est le premier modèle de RI, et est basé sur la
théorie des ensembles. Dans ce modèle, un document est représenté par une liste
de termes d’indexation. Ces termes sont reliés par des connecteurs logiques ET,
OU et NON. Un exemple de représentation d’un document est comme suit :
dj = t1 ∧ t2 ∧ t3 ... ∧ tn .
Une requête est une expression booléenne dont les termes sont reliés par
des opérateurs logiques (OR, AND, AND NOT) permettant d’effectuer des
opérations d’union, d’intersection et de différence entre les ensembles de résultats
associés à chaque terme. Un exemple de représentation d’une requête est comme
suit : qi = (t1 ∧ t2 ) ∨ (t3 ∧ t4 ).
La fonction de correspondance est basée sur l’hypothèse de présence/absence
Chapitre 1. La Recherche d’Information classique
16
des termes de la requête dans le document et vérifie si l’index de chaque document dj implique l’expression logique de la requête qi . Le résultat de cette
fonction est donc binaire. Cette fonction est décrite comme suit : RSV (qi , dj ) =
{1, 0}. Cette décision binaire sur laquelle est basée la sélection d’un document
ne permet pas d’ordonner les documents renvoyés à l’utilisateur selon un degré
de pertinence parce que les termes ne sont pas pondérés.
1.3.2
Modèle vectoriel
Initialement proposé par Salton et implémenté dans le système SMART
[191], dans ce modèle la pertinence d’un document vis-à-vis d’une requête est
définie par des mesures de distance dans un espace vectoriel. Le modèle vectoriel préconise la représentation des requêtes utilisateurs et des documents
sous forme de vecteurs, dans l’espace engendré (à n dimensions) par tous
les termes d’indexation [191]. Les dimensions sont constituées par les termes
du vocabulaire d’indexation. Chaque document est représenté par le vecteur
d~j =(w1,j , w2,j , w3,j , ..., wn,j ). Chaque requête est également représentée par un
vecteur q~i = (w1,i , w2,i , w3,i , ..., wn,i ). Avec wk,j (resp. wk,i ) est le poids du terme
tk dans le document dj (resp. dans la requête qi ). La fonction de correspondance mesure la similarité entre le vecteur requête et les vecteurs documents.
Une mesure classique utilisée dans le modèle vectoriel est le cosinus de l’angle
formé par les deux vecteurs :
RSV (qi , dj ) = cos(~
qi , d~j )
(1.4)
Plus deux vecteurs sont similaires, plus l’angle formé est petit, et plus le cosinus de cet angle est grand. À l’inverse du modèle booléen, la fonction de
correspondance évalue une correspondance partielle entre un document et une
requête, ce qui permet de retrouver des documents qui ne satisfont la requête
qu’approximativement. Les résultats peuvent donc être ordonnés par ordre de
pertinence décroissante.
Le modèle vectoriel suppose l’indépendance entre termes. En effet, la représentation vectorielle considère chaque terme séparément alors qu’on peut avoir
des termes qui sont en relation sémantique entre eux.
1.3.3
Modèle probabiliste
Le modèle probabiliste a été développé dans les années 70, et sa fonction de
pertinence se base sur le calcul de la probabilité de pertinence d’un document
vis-à-vis d’une requête [183, 147]. Le principe de base consiste à retrouver des
documents qui ont en même temps une forte probabilité d’être pertinents, et
Chapitre 1. La Recherche d’Information classique
17
une faible probabilité d’être non pertinents. Étant donné une requête utilisateur qi et un document dj , il s’agit de calculer la probabilité de pertinence du
document pour cette requête. Deux événements se présentent : R, dj est pertinent pour qi et R, dj n’est pas pertinent pour qi .
Le score d’appariement entre le document D et la requête Q, noté RSV (Q, D),
revient à calculer le rapport entre la probabilité de pertinence d’un document
et sa probabilité de non pertinence. Ce score est donné par :
RSV (qi , dj ) =
P (R|dj )
P (R|dj )
(1.5)
En utilisant la règle de Bayes après simplification, cela vient à ordonner les
documents selon :
P (dj |R)
RSV (qi , dj ) =
(1.6)
P (dj |R)
Pour estimer les probabilités P (dj |R) et P (dj |R), un document sera décomposé
en un ensemble d’événements dj (t1 , t2 , ..., tN ). Chaque événement dénotera la
présence ou l’absence d’un terme ti dans un document dj . En supposant l’indépendance des termes des documents, la formule précédente devient :
RSV (qi , dj ) =
N
X
i=1
log
P (wij |R)
P (wij |R)
(1.7)
où wij indique la présence ou l’absence terme ti dans le document dj . Après
transformation, l’équation 1.7 s’écrit :
RSV (qi , dj ) =
N
X
i=1,ti ∈q
log
P (wij = 1|R)P (wij = 0|R)
P (wij = 1|R)P (wij = 0|R)
(1.8)
Un des inconvénients de ce modèle réside dans la représentation du document.
En effet, ce modèle ne prend pas en compte les fréquences des termes dans le
document. Pour pallier cet inconvénient, Robertson et al. [185, 227] a proposé
le modèle 2-Poisson basé notamment sur la notion de termes élites qui intègre
différents aspects relatifs à la fréquence locale des termes, leur rareté et la
longueur des documents [183]. Ceci a donné lieu à la formule BM25 :
wij = log(
Avec
–
–
–
N − df + 0.5
(k1 + 1) ∗ tf
)×
dl
df + 0.5
k1 ∗ ((1 − b) + b ∗ avgdl
) + tf
(1.9)
:
dl est la longueur du document dj ;
avgdl est la longueur moyenne des documents dans la collection ;
k1 et b sont des paramètres qui dépendent de la collection ainsi que du
type de la requête.
Chapitre 1. La Recherche d’Information classique
18
Les expérimentations ont montré que les paramètres k1 = 1, 2 et b = 0, 75
ont donné les meilleurs résultats, en termes de performances, sur les collections
TREC considérées.
Les modèles probabilistes comprennent également le modèle bayésien ou d’inférence [220] et le modèle de langue [178, 126].
1.4
Évaluation des performances des systèmes
de RI
La validation expérimentale des SRI consiste à mesurer ses performances
par comparaison de ses résultats retournées à l’aide des métriques standards à
l’aide des collections de test contrôlées.
Le premier paradigme qui constitue le cadre de référence dans lequel s’inscrivent les expérimentations et la validation des SRI, se base sur une approche
de type laboratoire (laboratory-based model), appelé paradigme de Cranfield,
initié par Cleverdon [60] dans le cadre du projet Cranfield Project II. Dans
cette approche, on parle d’évaluation qualitative, car l’idée de base est de comparer, pour une requête donnée, les documents retrouvés par le système dans
la collection de test, aux réponses idéales établies pour cette requête dans la
collection de test, réponses qui ont été identifiées manuellement par des documentalistes (experts du domaine). Il s’agit donc bien de comparer une notion
de pertinence système à une notion de pertinence utilisateur.
Cette approche est souvent adoptée dans les campagnes d’évaluation des SRI
tells que TREC, INEX, CLEF 4 , etc.
1.4.1
Collections de test
Généralement, chaque collection de test est composée : d’une collection de
documents, aussi appelée corpus de documents, d’une liste de requêtes et des
jugements de pertinence des documents par rapport à ces requêtes.
– Collection de documents : c’est un corpus de documents sur lesquels
les SRI posent des requêtes et récupèrent les documents pertinents.
Le choix d’une collection dépend de la tâche de recherche que l’on veut
évaluer, pour garantir une représentativité par rapport à la tâche. De
même que la spécification du volume des collections de documents utilisées dans l’évaluation est relativement dépendante de la tâche de recherche impliquée dans le SRI à évaluer, pour garantir une diversité des
4. CLEF : Cross Language Evaluation Forum. Voir http ://clef.iei.pi.cnr.it/
Chapitre 1. La Recherche d’Information classique
19
sujets et du vocabulaire. Les premiers corpus de test développés au début
des années 1960 renferment quelques milliers de documents. Les corpus
de test plus récents (par exemple, ceux d’INEX et de TREC) contiennent
en général des millions de documents. Le travail concernant la sélection
des documents des corpus est d’ailleurs très déterminant et fait l’objet de
nombreuses recherches [86].
– Requêtes : ce sont souvent présentées sous forme de “topics” qui expriment un besoin d’information de l’utilisateur. Pour exploiter au mieux
les caractéristiques de la collection de documents et avoir une évaluation
assez objective, il est important de créer un ensemble de requêtes qui correspondent aux thèmes abordés dans les documents. Les requêtes doivent
d’abord être extraites de log et ensuite, si ce n’est pas possible de les créer
artificiellement par les assesseurs.
– Jugements de pertinence : pour la construction d’un corpus de test,
les jugements de pertinence constituent la tâche la plus ardue. Les jugements de pertinence indiquent pour chaque document du corpus s’il
est pertinent, et parfois même à quel degré il l’est, pour chaque requête.
Pour établir ces listes de documents pour toutes les requêtes, les utilisateurs doivent examiner chaque document de la base de document, et juger
s’il est pertinent par rapport à une requête donnée. Dans les programmes
d’évaluation tels que TREC, les collections de documents contiennent plus
d’un million de documents, ce qui rend impossible le jugement exhaustif
de pertinence. Ainsi, dans le cas de grandes collections, les jugements de
pertinence sont construits selon la technique de pooling, effectuée à partir
des 100 premiers documents retrouvés par les systèmes participants.
Les campagnes d’évaluation ont apporté plusieurs évolutions importantes.
La première évolution réside dans la taille des collections, qui se veut la plus
réaliste possible par rapport aux contextes réels de la RI ; on vise ainsi des
collections de plusieurs centaines de milliers à plusieurs millions de documents,
construites de manière collaborative par les participants aux campagnes. La
seconde évolution est l’organisation de programmes d’expérimentation : les collections sont établies en vue d’expérimentations particulières (par exemple la
RI multilingue, le Web, Question-Réponse, etc.). La dernière concerne dans
l’aspect compétitif des expérimentations à INEX : les participants testent leur
système au cours des mêmes campagnes, et les résultats comparatifs sont présentés
dans des conférences spécifiques. Ainsi se perpétue, et même se renforce, la tradition d’expérimentation de la RI [55].
1.4.2
Protocole d’évaluation
Le protocole d’évaluation dans le modèle d’évaluation orienté-laboratoire
définit une méthodologie rigoureuse et efficace pour comparer plusieurs SRI,
Chapitre 1. La Recherche d’Information classique
20
stratégies de recherche, ou algorithmes sur une même base, en spécifiant trois
composants non indépendants qui sont : le nombre de topics utilisés, les mesures
d’évaluation utilisées et la différence de performance requise pour considérer
qu’une stratégie de recherche est meilleure qu’une autre [44].
L’évaluation de l’efficacité de chaque stratégie de recherche consiste à évaluer
la liste des résultats obtenus pour chaque requête de test. Cette évaluation
est à la base de la correspondance entre la pertinence algorithmique calculée
par le système et la pertinence donnée par les assesseurs. L’efficacité globale
d’une stratégie de recherche est calculée comme étant la moyenne des précisions
calculées selon une mesure donnée sur l’ensemble des topics dans la collection
de test.
Les protocoles d’évaluation se basent sur des mesures que nous présentons
les principales dans le section suivante.
1.4.3
Mesures d’évaluation
Rappel et précision : Le rappel mesure la capacité d’un SRI à retrouver
tous les documents pertinents à une requête et la précision mesure sa capacité
à ne retrouver que ces documents pertinents.
Généralement les SRI retournent les documents classés par ordre décroissant de
leur pertinence. Plusieurs travaux se sont penchés sur cette notion de pertinence
[119, 40], affirmant la subjectivité, la gradualité de cette notion. L’efficacité
d’un système mesure sa capacité à satisfaire l’utilisateur en terme de pertinence
des documents restitués vis-à-vis d’une requête. Le tableau de contingence 1.1
permet de mesurer cette pertinence en fonction des documents restitués et non
restitués.
Restitués
Non restitués
Pertinent
Non pertinent
A∩B
A ∩ B̄
A
Ā ∩ B
Ā ∩ B̄
Ā
B
B̄
N
Table 1.1 – Tableau de contingence de la pertinence
Avec
–
–
–
–
:
A est l’ensemble des documents pertinents pour une requête Q ;
B est l’ensemble des documents restitués par le système ;
N est le nombre de documents de la collection ;
|.| désigne la cardinalité.
Chapitre 1. La Recherche d’Information classique
21
Selon le tableau de contingence 1.1, nous pouvons définir les mesures de
rappel (recall) et de précision (precision) comme suit :
rappel =
|A ∩ B|
A
précision =
|A ∩ B|
B
(1.10)
(1.11)
Une façon d’évaluer un SRI est de tracer une courbe de précision-rappel.
Ainsi, si le résultat de recherche dépend d’un certain paramètre, par exemple
le rang d’un document restitué, alors pour chaque point de rappel, les valeurs
de précision peuvent être calculées. Un SRI est parfait si et seulement si les
documents retrouvés sont tous pertinents, avec une précision et un rappel de
100%. En pratique, ces deux taux varient en sens inverse, la précision diminue
au fur et à mesure que le rappel augmente. La figure 1.2 illustre la forme
générale de la courbe rappel-précision d’un SRI.
Figure 1.2 – Forme générale de la courbe rappel-précision d’un SRI
Comparaison entre SRI : pour comparer deux systèmes de RI, il faut
les tester avec la même collection de test (ou plusieurs collection de test). Un
système dont la courbe de rappel/précision est au-dessus de celle d’un autre
est considéré comme un meilleur système.
D’autres mesures ont été proposées telles que :
– Precision@X (P@X) : cette précision mesure la proportion des documents
pertinents retrouvés parmi les premiers X documents retournés par le
système. Elle permet en particulier de s’intéresser à la haute précision,
lorsque peu de documents sont restitués.
Chapitre 1. La Recherche d’Information classique
22
– R-precision (RPrec) : précision après que R documents ont été retrouvés,
où R est le nombre de documents pertinents pour la requête considérée.
Cette mesure a été introduite dans TREC2 pour limiter l’influence du
nombre de documents pertinents : ce nombre varie en fonction des requêtes.
– Précision moyenne interpolée (MAiP) : cette précision est calculée à
différents niveaux de rappel (0%, 10%, 20%, ...,100%). Pour chaque niveau de rappel, les valeurs calculées sont moyennées sur tout l’ensemble
des requêtes. La MAiP est calculée comme suit :
M AiP =
P
AiPq
|Q|
q∈Q
(1.12)
Avec :
– AiPq est la précision interpolée moyenne d’une requête q ;
– Q est l’ensemble des requêtes ;
– |Q| est le nombre de requêtes.
Dans [154], S. Mizzaro a fait une étude complète des différentes mesures
d’évaluation utilisées en RI. Ceci a permis de dégager d’autres mesures
de performance relativement importantes telles que :
– F-mesure (ou F-score) : la moyenne harmonique F-mesure qui consiste à
combiner le rappel et la précision en un nombre compris entre 0 et 1 [182].
Cette moyenne harmonique a des valeurs élevées uniquement lorsque les
taux de rappel et de précision sont élevés.
F =
2 ∗ précision ∗ rappel
précision + rappel
(1.13)
Dans le cas de collections volumineuses, la construction de jugements de
pertinence complets est difficile ou même impossible puisque elle est très
coûteuse en terme de temps. Dans la mesure MAP, les documents non
jugés sont considérés comme des documents non pertinents. Afin de pallier
cet inconvénient, Buckley et Voorhees ont proposé la mesure BPREF [44]
(Binary PREFerence-based measure).
– BPREF : cette mesure se focalise sur les documents réellement jugés et
elle prend en compte les documents pertinents et les documents non pertinents afin de réduire l’effet du jugement de pertinence qui n’est réalisé
que sur certains documents. La mesure BPREF est donnée par la formule
suivante :
|n|
1X
1−
(1.14)
BP REF =
R r
R
Avec :
– R le nombre de documents pertinents pour la requête ;
– r est un document pertinent ;
– n est le nombre de documents non pertinents classés avant le document
pertinent r.
Chapitre 1. La Recherche d’Information classique
23
– Mean Reciprocal Rank (MRR) : c’est une autre mesure, proposée par
Voorhees [224], qui permet d’évaluer le nombre de documents qu’il faut
considérer avant de retrouver le premier document pertinent. Elle est
égale à la moyenne calculée sur l’ensemble des requêtes, du rang du premier document pertinent.
M RR =
Q
1 X
1
|Q| i=1 ranki
(1.15)
MRR est nulle pour une requête si aucun document pertinent n’est retourné par le système. Cependant, MRR donne un score élevé pour un
système qui retourne des documents pertinents en haut de la liste présentée
à l’utilisateur. Cette mesure est couramment utilisée dans les systèmes
Question-Réponse où l’utilisateur s’intéresse à recevoir la bonne réponse
en premier rang.
1.5
Conclusion
Nous avons présenté dans cette première partie le processus de la RI dans
le cadre de la RI classique, les concepts de base ainsi que le fonctionnement
global de tout SRI. Nous avons aussi décrit les modèles les plus connus de la
RI ainsi que les techniques développées pour l’évaluation de tout SRI.
Ce type de SRI fonctionne sur des documents textuels plats. L’avènement
des documents structurés, de type XML par exemple, a apporté une nouvelle
problématique liée en particulier à la manière d’exploiter non seulement le
contenu textuel de ces documents mais aussi l’information liée à la structure.
Ceci amène l’utilisateur à affiner sa requête en intégrant des contraintes sur la
structure de l’information recherchée. Nous présentons dans le chapitre suivant
(2) les modèles traitant conjointement le contenu et la structure des documents
structurés.
Chapitre 1. La Recherche d’Information classique
24
Chapitre 2
La Recherche d’Information
Structurée
2.1
Introduction
Le développement du document électronique et du Web ont conduit à
l’émergence des formats de données structurées, tels que SGML 1 , HTML 2 et
XML 3 , permettant de représenter les documents sous une forme plus riche
que le simple contenu [226]. À l’aide de ces formats, l’information textuelle et
l’information structurelle sont représentées conjointement dans un document.
Des modèles de RI intégrant cette relation formelle entre structure et contenu
sémantique d’un document ont été développés.
En particulier, les documents semi-structurés ont donné naissance à une
nouvelle thématique de la RI : la RIS (Recherche d’Information Structurée).
Bien qu’elle présente de nouvelles problématiques spécifiques, la RIS s’appui
fortement sur des approches déjà développées en RI. Dans le contexte de la
RI dans les documents semi-structurés, appelée également RIS, la question
majeure soulevée par ce type de document concerne la manière de prendre en
compte efficacement de l’information du contenu et de structure pour mieux
répondre aux besoins de l’utilisateur. Ces besoins peuvent être formulés par le
biais de requêtes formées que de mots clé ou par des requêtes comportant des
mots-clés et des contraintes structurelles (des balises).
Les systèmes d’accès aux documents structurés sont confrontés à des nouveaux problèmes dans toutes les étapes du processus de recherche à savoir :
1. SGML : Standard Generalized Markup Language
2. HTML : HyperText Markup Language
3. XML : eXtensible Markup Language
Chapitre 2. La Recherche d’Information Structurée
26
– Indexation : Faut-il adapter l’indexation classique afin de prendre en
considération la structure des documents ? Comment indexer le contenu
par rapport au structure ? Comment pondérer les termes en tenant compte
de la structure ?
– Appariement : Quelle unité d’information faut-il sélectionner ? En effet, les techniques classiques de RI (plein texte) considèrent souvent le
document entier comme un granule d’information indivisible, or dans le
cas des documents XML tout élément (sous-arbre d’un document XML)
peut être une réponse potentielle à la requête de l’utilisateur. Le défi à
relever est alors d’arriver à identifier automatiquement l’unité d’information, en l’occurrence les parties du document XML, répondant à la fois de
manière exhaustive et spécifique [168] à la requête de l’utilisateur. Ceci a
conduit à l’élaboration de langages de requêtes spécifiques et à de nouveaux modèles de recherche.
Ce chapitre traite les enjeux de la RIS. Nous abordons dans la section 2.2 les
différents problèmes soulevés par la RI. Dans la section 2.3, nous discutons la
différence entre les approches orientées base de données et approches orientées
recherche d’information. Nous présentons respectivement dans les sections 2.4
et 2.5 les différentes approches d’indexation et d’interrogation développées dans
ce cadre. Nous décrivons ensuite les différents modèles de recherche proposés
dans la littérature dans la section 2.6. Ces modèles de recherche visent à
répondre à des requêtes basées sur le contenu seul ou à des requêtes basées
sur le contenu et la structure. Dans la section 2.7, nous mettons l’accent sur
les techniques d’évaluation des systèmes de RIS où nous abordons la campagne
d’évaluation INEX ainsi que les différentes mesures dédiées à l’évaluation des
approches et des systèmes dans le cadre de la RIS. La section 2.8 conclut le
chapitre.
2.2
Enjeux de la RIS
Avant d’aborder les approches de la RIS, nous présentons brièvement les
enjeux de la RIS en termes unité d’information retournée et son expression de
besoin.
2.2.1
Granularité de l’information recherchée
En RI classique, les SRI renvoient des documents entiers comme réponse à
une requête utilisateur. Cette granularité “document” ne satisfait pas toujours
l’utilisateur vu que ce granule peut contenir du bruit, ou bien l’information
Chapitre 2. La Recherche d’Information Structurée
27
pertinente peut être dispersée sur tout le document. Il serait plus intéressant
de ne retourner que la partie du document qui semble pertinente vis-à-vis de
la requête. Ces hypothèses ont été largement étudiées dans la recherche de
passages en RI classique (passage retrieval) [192].
Les documents semi-structurés contiennent outre le contenu textuel, de l’information structurelle permettant ainsi de traiter l’information avec une granularité plus fine. Le but de la RIS est alors d’identifier de manière automatique
les unités de documents les plus pertinentes. Ceci a nous amène à affiner le
concept de granule renvoyé à l’utilisateur. Une granule est une unité d’information auto-explicatif, c’est-à-dire l’information contenue ne dépend pas d’une
autre unité d’information pour être comprise [97]. Généralement, l’objectif d’un
SRI, dans ce contexte, est de renvoyer des unités d’information auto-explicatives
à l’utilisateur, et non des points d’entrée dans les documents.
Dans le contexte de la RIS dans des documents XML, l’unité d’information correspond à un nœud de l’arbre du document (ou un sous-arbre) appelé
aussi élément 4 . La pertinence d’un élément, réponse à une requête, peut être
évalué selon deux dimensions : exhaustivité et spécificité [88]. On dit qu’une
unité d’information est exhaustive à une requête si elle contient toutes les informations requises par la requête et qu’elle est spécifique si tout son contenu
concerne la requête [81]. De ce fait, un système de RIS devrait retrouver l’unité
d’information la plus exhaustive et la plus spécifique répondant à une requête.
2.2.2
Expression du besoin en information
De part leur structure, l’utilisateur interroge les collections de documents
XML selon deux types de requêtes :
– Requêtes de type CO (Content Only) : ces requêtes sont composées
de simples mots-clés, et le SRI détermine la granularité de l’information
à renvoyer.
– Requêtes de type CAS (Content And Structure) : ces requêtes
portent sur la structure et le contenu des unités d’information, dans lesquelles l’utilisateur spécifie des besoins précis sur certains éléments de
structure. Dans ce type de requêtes, l’utilisateur peut utiliser des conditions de structure pour indiquer le type des éléments qu’il désire voir
renvoyer.
Afin de pouvoir effectuer une recherche d’information qui tient compte de la
structure logique des documents, des nouvelles techniques d’indexation et d’appariement ont été proposées. Ces techniques sont décrites dans les prochaines
sections.
4. Nous utilisons dans la suite de ce rapport le terme élément pour décrire un
sous-arbre d’un document XML.
Chapitre 2. La Recherche d’Information Structurée
2.3
28
Les approches de la RIS
Les approches proposées pour traiter spécifiquement la RIS peuvent être
classées en deux principales catégories : (i) l’approche orientée données
(data-centric) utilise des techniques développées par la communauté des Bases
de Données (BD), (ii) l’approche orientée documents (document-centric)
est prise en charge par la communauté RI. Le tableau 2.1 illustre les principes
de chaque communauté pour le traitement des documents semi-structurés.
Besoin en information
Résultat
Requête
Modèle
RI
Vague
Approché
CO ou CAS
Modèles de RI (probabiliste,...)
BD
Précis
Exact
SQL
Théorie des ensembles
Table 2.1 – RI vs. BD
2.3.1
Approches orientées documents
Les approches orientées documents considèrent les documents XML comme
une collection de documents textes comportant des éléments et des relations
entre ces éléments. Les éléments sont utilisés comme moyen pour mieux identifier la pertinence d’une unité de document vis-à-vis d’une autre unité. La
majorité des travaux ont, en fait, adapté les modèles de RI reconnus pour traiter les documents XML [127, 95, 200, 177, 12, 160, 168].
2.3.2
Approches orientées données
Les approches orientées BD s’intéressent davantage à la structure du document. Plusieurs langages ont été définis [45], Lorel [11], XML-QL [135], XQL
[54], XML-GL [52].
Ces approches permettent de traiter efficacement la structure des documents XML étant donné que les mots-clés sont examinés de façon binaire
(présent/absent). Cependant, elles sont limitées pour le traitement de la partie textuelle des documents. Dans [195], Salton et al. ont démontré qu’en RI
textuelle la prise en compte des poids des mots-clés dans un document est
primordiale, voire nécessaire. Ceci permet de mesurer un degré de pertinence
d’un document (ou d’une unité d’information) vis-à-vis d’une requête et donc
Chapitre 2. La Recherche d’Information Structurée
29
de renvoyer à l’utilisateur une liste triée de résultats, comme le proposent les
approches de RI.
Nos travaux portent sur la RI et par conséquent, les problématiques examinées dans la suite de ce chapitre sont abordées sous la perspective des approches orientées documents.
2.4
Indexation de documents semi-structurés
Les SRI ont très longtemps utilisé des représentations de données très
simples pour opérer des requêtes sur les textes, ou classer ceux-ci en différentes
catégories. Si les SRI ont très longtemps utilisé des représentations de données
vectorielles pour opérer des requêtes sur les textes, à partir du début des années
1990, ces représentations ont commencé à prendre en compte la structure des
documents pour mener des travaux sur deux axes : la “recherche de passages”
et la “recherche de sous-structures”. Les premiers se limitent généralement à
découper un document en sous-documents, et à ré-appliquer à ces unités d’informations les modèles habituels (souvent donc vectoriels) de la RI. La prise en
compte “simultanée” du document et de ses sections pour opérer des recherches
plus fines n’est introduite qu’à partir de 1994 par Wilkinson [229].
En RIS, l’objectif de l’indexation n’est plus seulement de stocker l’information textuelle mais aussi l’information structurelle et de pouvoir présenter les
relations entre les deux types d’information. De ce fait, un schéma d’indexation de documents XML devrait principalement permettre la reconstruction du
document XML décomposé dans les structures de stockage et la recherche par
mot clé et par expressions de chemin sur la structure XML.
L’indexation de documents XML peut être rangée selon le type de l’information en question (textuelle ou structurelle). Cette catégorisation permet de
mieux comprendre les différents enjeux soulevés par chaque type d’information.
2.4.1
Indexation de l’information textuelle
L’indexation de l’information textuelle consiste à extraire et pondérer les
termes représentatifs. En RIS, et notamment avec les documents XML, la seule
différence par rapport à la RI classique est comment lier les informations textuelles (ou termes) aux informations structurelle ? C’est ce qu’on appelle la
“portée des termes d’indexation”.
Chapitre 2. La Recherche d’Information Structurée
2.4.1.1
30
Portée des termes d’indexation
Afin de relier les termes à l’information structurelle, dans la littérature,
deux solutions ont été proposées : une qui agrège le contenu des nœuds (c’est
l’approche d’indexation des sous-arbres imbriqués) et l’autre qui indexe tous
les contenus des nœuds séparément (c’est l’approche d’indexation des unités
disjointes).
– Sous-arbres imbriqués : ces approches considèrent que le contenu
de chaque nœud de l’index est une unité atomique [12, 202, 110]. Les
termes des nœuds feuilles sont donc propagés dans l’arbre des documents.
Comme les documents XML possèdent une structure hiérarchique, les
nœuds de l’index sont imbriqués les uns dans les autres et par conséquent,
l’index contient des informations redondantes. Dans [151], Mass et al. ont
considéré que seuls quelques types de nœud sont informatifs (dans la collection d’INEX 2005, ils ont par exemple sélectionné : article, paragraphe,
section, sous-section). Un sous-index est ensuite construit pour chaque
type de nœud. L’index est l’ensemble des sous-index associés.
– Unités disjointes : dans ces approches, le document XML est décomposé
en unités disjointes, de telle façon que le texte de chaque nœud de l’index est l’union d’une ou plusieurs parties disjointes [159, 79, 89, 118, 187].
Une fois les unités d’indexation spécifiées, il reste à pondérer les termes.
Cette tâche est une adaptation des fonctions de pondération déjà proposées en
RI classique.
2.4.1.2
Pondération des termes d’indexation
Dans la RI classique, la pondération des termes est basée sur les notions
de tf et idf [193]. Dans la RIS, le poids d’un terme dans un élément dépend
non seulement de son importance dans cet élément ou dans la collection mais
aussi de son importance dans le contenu du nœud même, dans le contenu de
ses descendants, dans le contenu de ses voisins directs et dans le contenu des
nœuds auxquels il est relié [141, 118]. Ce dernier poids est défini par la mesure
ief (Inverse Element Frequency). Dans la littérature, plusieurs travaux ont
utilisé ief, par exemple [230, 90, 200, 149, 171]. Des adaptations des formules
de pondération utilisées en RI classique à la RIS sont proposées dans [216]. Une
adaptation de la formule tf.idf permettant de calculer la force discriminatoire
d’un terme t pour une balise b relative à un document d, est également présentée
dans [236]. La nouvelle formule adaptée est définie par tf.itdf (Term FrequencyInverse Tag and Document Frequency).
Pinel-Sauvagnat et Boughanem [171] ont utilisé d’autres paramètres pour
l’évaluation de l’importance de termes tels que la longueur de l’élément et la
Chapitre 2. La Recherche d’Information Structurée
31
longueur moyenne des éléments de la collection.
2.4.2
Indexation de l’information structurelle
Différentes approches ont été proposées pour indexer l’information structurelle selon des granularités variées [144]. Dans le processus d’indexation, toute
l’information structurelle n’est pas forcément utilisée. Dans la littérature, on
trouve trois approches pour l’indexation de l’information structurelle : Indexation basée sur les champs, Indexation basée sur des chemins et Indexation basée
sur des arbres.
2.4.2.1
Indexation basée sur des champs
Cette technique permet d’associer à chaque terme le nom du champ dans
lequel il apparaı̂t. Avec ce type d’indexation, on filtre, au moment de la recherche, les champs contenant le texte en question [93]. Le tableau 2.2 illustre
le résultat d’indexation du document illustré par la figure 2.1.
termes
recherche
information
indexation
textuelle
structurelle
fréquence
1
3
3
1
1
champs
(titre, 1)
(titre, 1), (sec1, 1), (sec2, 1)
(titre, 1), (sec1, 1), (sec2, 1)
(sec1, 1)
(sec1, 2)
Table 2.2 – Indexation basée sur les champs
Figure 2.1 – Exemple d’indexation de l’information structurelle
Chapitre 2. La Recherche d’Information Structurée
2.4.2.2
32
Indexation basée sur des chemins
Cette technique a pour but de retrouver rapidement des documents ayant
des valeurs connues pour certains éléments ou attributs [113, 101]. Elle facilite
aussi la navigation dans les documents de manière à résoudre efficacement des
expressions XPATH et d’utiliser des index pleins textes sur les contenus. Cette
technique souffre cependant souvent de la difficulté de retrouver les relations
ancêtres-descendants entre les différents éléments des documents. Le tableau
2.3 illustre ce type d’indexation correspondant au document de la figure 2.1. En
2009, une nouvelle approche d’indexation basée sur les chemins a été proposée
par BenAouicha et al. [18]. Les auteurs ont proposé d’exprimer les relations
entre un élément et ses descendants à l’aide d’arcs virtuels au niveau de la
structure d’un document XML. Par exemple, dans la figure 2.1, le lien entre
les deux éléments rapport et sec1 est un arc virtuel, etc.
termes
recherche
information
indexation
textuelle
structurelle
fréquence
1
3
3
1
1
chemins
(/rapport/chapitre/titre)
(/rapport/chapitre/titre), (/rapport/chapitre/sec1), ...
(/rapport/chapitre/titre), (/rapport/chapitre/sec2), ...
(/rapport/chapitre/sec1)
(/rapport/chapitre/sec2)
Table 2.3 – Indexation basée sur les chemins
2.4.2.3
Indexation basée sur des arbres
Dans cette technique, chaque élément (nœud) du graphe représentant le
document XML est identifié par un identifiant unique (UID) [133]. Les termes
sont associés à cet identifiant afin de pouvoir localiser leurs emplacement dans
les éléments et de retrouver les relations hiérarchiques entres les éléments [201].
L’UID peut également être un chemin d’accès (XPath absolu, avec les numéros
des éléments) de l’élément [231]. Le tableau 2.4 illustre ce type d’indexation
pour le document XML de la figure 2.1. Parmi les travaux utilisant cette technique d’indexation, nous citons [113, 101]. D’autres techniques d’indexation
structurelle basée sur les arbres sont proposées dans la littérature telles que
l’approche EDGE et BINARY [77], l’architecture BUS [104], etc.
Afin de bénéficier au mieux de toutes les caractéristiques du document XML,
de nouvelles approches ont été proposées. Elles consistent à combiner l’approche
orientée données et l’approche orientée documents [87, 214, 42, 168]. Ces approches permettent également d’indexer le contenu textuel des documents et
Chapitre 2. La Recherche d’Information Structurée
33
de pondérer les termes, ce qui rend ensuite possible un calcul de pertinence des
éléments.
termes
recherche
information
indexation
textuelle
structurelle
fréquence
1
3
3
1
1
nœuds
(3)
(3), (4), (5)
(3), (4), (5)
(4)
(5)
Table 2.4 – Indexation basée sur les arbres
2.5
Interrogation des documents XML
Comme mentionné précédemment, l’interrogation des documents XML peut
se faire selon deux types de requêtes :
– Requêtes de type CO : ces requêtes sont composées de simples motsclés et imposent au SRI de décider la granularité de l’information à retourner. Elles sont utilisées lorsque l’utilisateur n’a pas une idée précise
de ce qu’il recherche ou n’a pas de connaissance concernant la structure
des documents.
– Requêtes de type CAS : ces requêtes sont composées de contraintes sur
le contenu et la structure. C’est le cas lorsque l’utilisateur peut spécifier
des conditions de structures pour préciser son besoin et indiquer quel type
d’éléments qu’il désire lui renvoyer. Ce type de requête nécessite au moins
une connaissance partielle de la structure de la collection des documents
XML à interroger.
De nombreux langages de requêtes ont été proposés dans la littérature. D’une
manière générale, ces langages de requêtes supportent conjointement des contraintes de contenu et de structure. Nous nous proposons d’en détailler quelques
uns dans ce qui suit, suivant leur ordre chronologique d’apparition.
2.5.1
XQuery
XQuery [53] est un langage de requête pour XML proposé par le W3C dont
la version 1.0 finale date de janvier 2007, et dont l’élaboration a demandé près
de huit années. Il se base sur XPath pour extraire et travailler sur des fragments
de documents XML. Les requêtes basiques de XQuery sont identiques à celles
définies par XPath. Si l’on désire faire des requêtes simples, XPath peut donc
parfaitement suffire.
Chapitre 2. La Recherche d’Information Structurée
34
XQuery est intéressant dès le moment où l’on désire faire des requêtes complexes ou encore faire appel à la récursivité. XQuery supporte des fonctions
orientées systèmes documentaires : en particulier, un prédicat CONTAINS est
intégré pour la recherche par mots-clés.
On trouvera ci-dessous un exemple d’une requête XQuery qui retourne les
prénoms et les dates de naissance de touts les employés ayant le nom Dupont :
For $E in document (”exemple.xml”)//Employe
Where $E/nom = ”Dupont”
return
<dupont>{
$E/prenom,
$E/date naissance
}</dupont>
On notera enfin que le W3C a proposé un Working Draft, qui a pour but
d’étendre les caractéristiques de recherche de XQuery à la recherche plein-texte.
Le langage TexQuery [16] en est une application.
2.5.2
NEXI
Le langage NEXI a été défini dans [218, 219] pour répondre aux besoins de
la campagne d’évaluation INEX. Les requêtes étaient en effet précédemment
exprimées en XML (pour 2002) ou XPath (pour 2003), mais dans le premier cas,
le langage n’était pas assez puissant, et il était trop complexe et dans le second
cas 63% des requêtes exprimées par les participants (experts en RI) contenaient
des erreurs de syntaxe ! NEXI a alors été conçu comme un sous-ensemble extensible d’XPath interprétable de manière vague (il s’agit d’un langage de requête
orienté RI et non BD). On utilise la syntaxe pour désigner l’élément descendant et rajoute une clause “about” pour apporter plus de précision. NEXI
peut également supporter des spécifications plus complexes en utilisant les parenthèses ainsi que les opérateurs booléens.
L’exemple suivant est une requête qui renvoie une section sec qui est un élément
du document article et qui contient un autre élément paragraphe p et qui parle
de “information retrieval”.
//article//sec[about(.//p,information retrieval)]
Chapitre 2. La Recherche d’Information Structurée
2.5.3
35
XFIRM
Le langage de requêtes XFIRM [168] est une extension de XPath. Ce langage
permet de formuler la requête de l’utilisateur selon quatre degrés de précision
comme les illustrent les exemples suivants :
– Degré de précision P1 :
Toulouse OU (ville ET rose)
Ce type de requête permet à l’utilisateur d’exprimer son besoin en information en utilisant des mots-clés indépendamment de la structure de
l’unité d’information renvoyée.
– Degré de précision P2 :
section[la ville rose]
Dans cet exemple l’utilisateur désire récupérer des éléments de type section parlant de la ville rose. Avec ce type de requête, nous pourrons
préciser le type des éléments à renvoyer ainsi que des conditions sur le
contenu ou la valeur de ses attributs.
– Degré de précision P3 :
//article[France]//section[Toulouse]
Avec ce type de requête, l’utilisateur peut définir la structure hiérarchique
entre les éléments renvoyés. Dans cet exemple, l’utilisateur désire récupérer
les éléments articles parlant de la France et ayant des descendants de type
section parlant de Toulouse.
– Degré de précision P4 :
//article[]//ec :section[Toulouse]//par[Capitole]
Dans cet exemple, l’utilisateur souhaite obtenir un élément de type section
parlant de Toulouse ayant comme ancêtre un élément de type article et
comme descendant un élément de type paragraphe parlant de Capitole.
L’avantage du langage XFIRM est que l’utilisateur n’est pas obligé à spécifier
le type de l’unité d’information qu’il désire voir retournée. De plus, ce langage
permet d’exprimer des chemins indéterminés ou partiellement connus, et permet de combiner de façon booléenne des conditions sur la structure.
2.6
Modèles de RIS
Dans la littérature, les modèles de RI classiques ont été adaptés pour tenir compte de la source d’évidence, l’information structurelle, contenue dans
les documents XML, et des granularités variées de l’information. Ces modèles
cherchent à répondre à des requêtes de type CO ou bien à des requêtes de type
Chapitre 2. La Recherche d’Information Structurée
36
CAS.
D’une manière générale, et indépendamment des modèles de RIS, l’appariement est effectué selon deux catégories d’approches différentes [173].
– Approches par propagation des termes : ces approches indexent
des sous-arbres imbriqués et propagent les termes des nœuds feuilles dans
l’arbre du document ;
– Approches par propagation de pertinence : ces approches indexent
des unités disjointes et calculent les scores de pertinence au niveau des
feuilles des arbres XML. Ces scores sont ensuite propagés vers les nœuds
internes.
Dans cette section, nous nous proposons de détailler les différentes méthodes
proposées pour adapter le modèle booléen (théorie des ensembles), le modèle
vectoriel (algébrique) ou encore le modèle probabiliste. Nous nous attardons
ensuite sur les modèles de RIS basés sur les RB. Notons simplement à titre
d’illustration que :
– les approches présentés dans le cadre du modèle vectoriel étendu, [82,
151, 90, 200, 64, 149, 64, 150, 18] utilisent une propagation des termes et
dans [83, 17, 100, 212, 168], il s’agit d’une propagation de pertinence.
– les approches de [217, 131] présentés dans le cadre du modèle booléen
pondéré, utilisent une propagation des termes.
– les approches présentés dans le cadre du modèle probabiliste [56, 127, 79,
89], ou du modèle inférentiel [177, 223, 67, 134, 131, 22, 70, 68, 132, 137]
ou du modèle de langue [202, 230, 138, 12, 160, 110, 157], fonctionnent
tous également grâce à une propagation des termes.
2.6.1
Modèle vectoriel étendu
Le modèle vectoriel étendu permet de séparer l’information structurelle de
l’information de contenu [151, 149, 150]. Dans les approches issues de ce modèle,
une mesure de similarité de chaque élément à la requête est calculée, et ce
à l’aide de mesures de distance dans un espace vectoriel. Les éléments sont
représentés par des vecteurs de termes pondérés.
Dans la littérature, nous trouvons deux catégories d’approches. La première
indexe des sous-arbres imbriqués (section 2.4.1), c’est-à-dire elles propagent les
termes des nœuds feuilles dans l’arbre du document. Les éléments sont renvoyés
à l’utilisateur par ordre décroissant de pertinence.
Fuller et al. [82] ont proposé une des premières adaptations du modèle
vectoriel à la RIS. La pertinence d’un nœud est calculée à part, puis combinée
avec la pertinence des nœuds descendants. Le modèle peut être généralisé en
permettant le traitement des requêtes orientées contenu et structure. L’idée de
base est là encore d’appliquer le modèle récursivement à chaque sous-arbre de
Chapitre 2. La Recherche d’Information Structurée
37
la hiérarchie pour ensuite effectuer une agrégation des scores.
Mass et al. [151, 149] ont proposé un système de recherche, appelé JuruXML, qui indexe les éléments selon leur type (un index par type d’élément)
et applique ensuite le modèle vectoriel pour la pondération des éléments.
Schlieder et Meuss [200] ont développé une autre extension du modèle vectoriel, et qui consiste à intégrer la structure des documents dans la mesure de
similarité du modèle vectoriel. La formulation des requêtes se fait sans besoin
de connaı̂tre la structure exacte des données vu que leur modèle de requête est
basé sur l’inclusion d’arbres. Afin de répondre à des requêtes orientées contenu
et structure, les auteurs combinent ainsi le modèle vectoriel et le “tree matching”.
BenAouicha et al. [18] proposent le modèle XIVIR 5 qui permet la RIS par
la structure et/ou le contenu en utilisant une approche par propagation des
termes :
– Recherche par le contenu : la propagation du texte situé au niveau des
nœuds feuilles vers ses ancêtres se fait selon deux approches. La première
consiste à représenter le contenu de chaque nœud feuille par un ensemble
de termes pondérés. Ces derniers seront propagés vers les ancêtres de ce
nœud tout en diminuant leurs poids en fonction de la distance parcourue
au moment de la propagation. C’est la propagation du texte en profondeur. Quant à la deuxième approche, propagation du texte par profondeur
et largeur, elle sera réalisée en fonction de la distance qui sépare le nœud
feuille qui contient du texte et le nœud interne qui est censé recevoir le
texte. Le facteur de propagation est calculé en fonction de cette distance.
– Recherche par la structure : le document XML est représenté sous
forme d’un arbre défini comme un ensemble de chemins entre deux nœuds
A → B où A est le nœud parent du nœud B. La relation entre A et B peut
être directe (parent/fils-direct) ou indirecte (parent/descendant). Afin de
refléter l’importance de la relation entre les nœuds A et B, un poids est
calculé pour chaque chemin. Si la relation est directe, le poids est égal à
1, sinon, le poids w est calculé comme suit :
w = exp(λ ∗ (1 − d(A, B)))
(2.1)
où d(A, B) est la distance qui sépare les deux nœuds A et B, et λ est
un coefficient d’atténuation. Pour la recherche par structure, le score de
structure entre une requête q et un document d, RSV s, est calculé comme
suit :
X
RSVs =
wq ∗ wd
(2.2)
wq
wd
Aq →Bq ∈Eq ≡Ad →Bd ∈Ed
5. XIVIR : XML Information retrieval based on VIRtual links
Chapitre 2. La Recherche d’Information Structurée
38
où Eq (resp. Ed ) est l’ensemble de tous les chemins pondérés de la requête
(resp. du document). Soient Aq l’élément A dans la requête q et Ad est
l’élément A dans le document d, Aq ≡ Ad signifie que Aq est l’équivalent
0,37
1
à Ad . Par exemple, chapter → p ≡ chapter → p[2] sur la figure 2.2. Selon
la structure entre la requête et le document, le score est RSV s(Eq , Ed ) =
2 + 0, 37 ∗ 0, 37 = 2, 14.
– Combinaison des scores : Le traitement séparé du contenu et de la
structure de chaque élément XML engendre deux scores : un score pour
le contenu et un score pour la structure. Leur combinaison en un score
définitif permet de les ordonner selon leur pertinence potentielle. Dans ce
contexte, deux techniques pour la combinaison des scores sont proposées :
une technique basée sur une combinaison linéaire et une deuxième technique basée sur les distributions des scores.
Les résultats obtenus au niveau de la mesure stricte de la tâche VVCAS montrent
l’efficacité de ce modèle. Cette tâche est par essence la plus complexe, elle impose l’installation de méthodes de recherche orientées structure, et de se dissocier des méthodes traditionnelles de RI et des méthodes d’interrogation par
des requêtes semblables de SQL ou XQuery.
Figure 2.2 – Exemple de recherche par structure avec le système XIVIR [18]
On trouvera également la deuxième catégorie d’approches qui indexent des
unités disjointes (section 2.4.1), c’est-à-dire elles calculent les scores de pertinence au niveau des feuilles des arbres XML et propagent ces scores ensuite
vers les nœuds internes.
Dans [83], Geva a proposé un modèle simple qui a obtenu de très bons
résultats pendant les campagnes d’évaluation INEX 2003 et INEX 2004. Ce
modèle est basé sur un fichier inverse pour l’indexation d’un document XML.
La recherche est réalisée par propagation des scores des éléments feuilles. Ce
système a obtenu les meilleurs résultats dans la campagne d’évaluation INEX
2005 [84].
Chapitre 2. La Recherche d’Information Structurée
39
Dans [212], Theoblad et Weikum proposent le moteur de recherche XXL qui
utilise une fonction de score basée sur tf et idf . XXL offre des fonctionnalités
pour la recherche orientée pertinence de chemins, c’est à dire que la recherche
est effectuée avec des conditions de chemins vagues. XXL repose sur une syntaxe
SQL (select-from-where).
Dans [168, 172, 169], Pinel-Sauvagnat et al. proposent le système XFIRM 6
qui est basé sur un modèle de données générique permettant l’implémentation
de nombreux modèles de RIS et le traitement de collections hétérogènes.
Le traitement des requêtes est effectué en deux étapes : une première qui
consiste à évaluer la similarité des nœuds feuilles de l’index à la requête (on
parle alors de calcul des poids des nœuds feuilles) et une seconde qui consiste à
rechercher les sous-arbres pertinents. La pertinence des sous-arbres est évaluée
en effectuant la propagation des poids des nœuds feuilles dans l’arbre du document. Le langage de requêtes utilisé est déjà détaillé dans la section 2.5.3.
– Calcul du score des nœuds feuilles : les scores des nœuds feuilles
identifiés dans l’arbre du document sont calculés grâce à la fonction de
similarité RSV (q, nf ).
Si la requête est composée de termes et des poids associés, on a :
RSV (q, nf ) =
T
X
wiq ∗ winf , avec wiq = tfiq et winf = tfinf ∗ iefi ∗ idfi (2.3)
i=1
Avec :
– wiq et winf sont respectivement le poids du terme i dans la requête q et
le nœud feuille nf ;
– tfiq et tfinf sont respectivement la fréquence du terme i dans la requête
q et dans le nœud feuille nf ;
– idfi = log(|D|/|di |) permet d’évaluer l’importance du terme i dans la
collection de documents ;
– |D| est le nombre total de documents de la collection ;
– |di | est le nombre de documents contenant i ;
– iefi = log(|N F ||nfi |) permet d’évaluer l’importance du terme i dans
la collection de nœuds feuilles ;
– |N F | est le nombre total de nœuds feuilles de la collection ;
– |nfi | est le nombre de nœuds feuilles contenant le terme i.
– Propagation de la pertinence des nœuds feuilles : une valeur de
pertinence est ensuite calculée pour chaque nœud de l’arbre de document,
en utilisant les poids des nœuds feuilles qu’il contient [172]. Les termes
apparaissant près de la racine d’un sous-arbre paraissent plus porteurs
d’information pour le nœud associé que ceux situés plus bas dans le sousarbre. Il semble ainsi intuitif que plus grande est la distance entre un
nœud et son ancêtre, moins il contribue à sa pertinence. Cette intuition
est modélisée par l’utilisation dans la fonction de propagation du pa6. XFIRM : XML Flexible Information Retrieval Model
Chapitre 2. La Recherche d’Information Structurée
40
ramètre dist(n, nfk ), qui représente la distance entre le nœud n et un de
ses nœuds feuille nfk dans l’arbre du document, c’est-à-dire le nombre
d’arcs séparant les deux nœuds. Il paraı̂t aussi intuitif que plus un nœud
possède de nœuds feuilles pertinents, plus il est pertinent. Le paramètre
|Fnp |, qui est le nombre de nœuds feuilles descendants de n ayant un score
non nul est alors introduit dans la fonction de propagation. Une première
évaluation de la pertinence pn d’un nœud peut être calculée selon la formule 2.4 :
pn = |Fnp | ∗
X
αdist(n,nfk )−1 ∗ (RSVm (q, nfk ))
(2.4)
nfk ∈Fn
où Fn est l’ensemble des nœuds feuilles nfk descendants de n, et α ∈]0, 1]
est un paramètre permettant de quantifier l’importance de la distance
séparant les nœuds dans la formule de propagation.
On peut également intégrer dans la mesure du score la pertinence que l’on
accorde au document entier. On parle alors de pertinence contextuelle.
La valeur de pertinence d’un nœud interne est définie alors comme suit :
pn = p ∗ |Fnp | ∗
X
αdist(n,nfk )−1 ∗ RSV (q, nfk ) + (1 − ρ) ∗ pracine (2.5)
nfk ∈Fn
Avec :
– Fn l’ensemble des nœuds feuilles nfk descendants de n ;
– |Fnp | le nombre de nœuds feuilles descendant de n ayant un score non
nul ;
– RSV (q, nfk ) calculé d’après 2.3 ;
– ρ ∈ [0, 1] est un paramètre servant de pivot et permettant d’ajuster
l’importance de la pertinence du nœud racine.
Les nœuds sont ensuite renvoyés à l’utilisateur par ordre décroissant de
pertinence à la requête.
Ce modèle a montré de bonnes performances au sein de la campagne
d’évaluation INEX [170, 174, 171].
Enfin, on trouvera d’autres adaptations du modèle vectoriel dans [148, 17, 64,
228, 109, 100].
2.6.2
Modèle probabiliste
Les modèles probabilistes constituent un outil puissant pour les modèles
de RIS vu qu’ils permettent de traiter d’une manière efficace l’incertitude intrinsèque au processus de RI. Ces modèles calculent la probabilité de pertinence des documents étant donnée une requête ou la probabilité de satisfaire
Chapitre 2. La Recherche d’Information Structurée
41
la requête étant donné le document.
2.6.2.1
Modèle inférentiel
La naissance du modèle d’inférence est le résultat de l’extension de deux
idées : (i) la proposition d’utiliser des logiques non classiques pour déterminer le
degré auquel un document implique ou correspond à une requête ; (ii) la notion
d’inférence plausible et la possibilité de combiner plusieurs sources pour inférer
la probabilité de pertinence d’un document étant donnée une requête.
Dans la RIS, les diagrammes d’inférence ont été adaptés pour exprimer les
relations de causalité entre termes et structures. Plus récemment, des travaux
ont essayé d’exploiter l’apport des RB pour définir des modèles de RIS. L’avantage apporté par l’utilisation des RB a été principalement de pouvoir combiner
des informations provenant de différentes sources pour restituer les documents
qui seraient les plus pertinents étant donnée une requête.
Parmi les travaux les plus récents, citons celui Piworwarski et al. [177, 175]. Les
auteurs ont proposé un modèle probabiliste basé sur les RB où les dépendances
de hiérarchisation sont exprimées par des probabilités conditionnelles. La probabilité de pertinence d’un élément e sachant son parent p pour une requête q
est P (e|p, q) est la suivante :
P (e = a|p = b, q) ≃
1
1 + eFe,a,b(q)
(2.6)
où Fe,a,b(q) est la pertinence de l’élément e selon le modèle Okapi.
Une requête q structurée est décomposée en un ensemble de n sous-requêtes
élémentaires qi . Chacune de ces sous-requêtes reflète une entité structurelle et
un besoin d’information. Le score final est donné par la formule suivante :
RSV (ei , q) = RSV q1 (ei , q) ∗ ... ∗ RSV qn (ei , q)
(2.7)
Ce modèle est étendu, dans [223], au traitement des requêtes orientées contenu
et structure.
De Campos et al. [67] ont également proposé un modèle de recherche basé
sur les RB où le diagramme d’inférence est basé sur la probabilité conditionnelle. Deux types de diagrammes sont proposés : SID (Simple Inference Diagram) et CID (Context based Inference Diagram). Un diagramme se compose
de deux parties : une partie qualitative (représentation des variables et des
inférences) et une partie quantitative (probabilités des nœuds).
Plusieurs modèles ont été proposés pour l’interrogation de corpus hétérogènes.
La majorité des solutions s’orientent vers la classification de documents [134,
Chapitre 2. La Recherche d’Information Structurée
42
131, 22]. La recherche se fait alors au niveau des classes de documents. Denoyer et al. [70] ont conçu un format intermédiaire qui permet de classifier les
documents en suivant un calcul basé sur la probabilité conditionnelle.
Denoyer et Gallinari [68] ont également traité le problème de classification de
documents structurés à l’aide de RB. Chaque nœud du RB comporte un libellé
et des informations contextuelles. Deux sortes de variables sont envisagées :
1. Une variable structurelle sid (d : document) qui dépend de ses ascendants.
2. Une variable contextuelle tid qui ne dépend que de ses variables structurelles.
La probabilité de jointure d’un document d à un modèle C est calculée comme
suit :
P (d, C) = P (c)
|d|
Y
P (sid /pa(sid , C))P (tid /sid , C)
(2.8)
i=1
Avec :
– tid est une séquence de mots ;
– pa(s) est le parent d’un nœud.
Ce modèle génératif permet de considérer des documents hétérogènes (texte
plus image), où l’image est considérée comme un ensemble de pixels. Il est par
la suite transforme en classifieur discriminant en utilisant la méthode Fisher
Kernel [103].
Abiteboul et al. dans [10] visent à proposer un format médian dans lequel
tous les documents du corpus (et éventuellement les requêtes) peuvent être
transformés pour ensuite appliquer des techniques traditionnelles de traitement
des requêtes structurées.
D’autres approches, comme celle proposée par Lee et al. dans [132] ou Lian
et Cheung dans [137] visent à proposer des algorithmes de classification. Dans
la première approche, les auteurs proposent un algorithme de matching entre
deux documents grâce à une séquence d’opérations de transformations. Dans
la deuxième approche, les auteurs proposent un algorithme pour classifier les
documents en se basant sur le paramètre distance et la notion de sous-graphe
qui sont codés par des chaı̂nes de bits.
2.6.2.2
Modèle de langue
Sigurbjörnsson et al. [202] proposent un modèle de langue pour traiter
des requêtes de type CO. Les auteurs considèrent que comme n’importe quel
élément XML peut potentiellement être renvoyé à l’utilisateur, chaque élément
est indexé afin d’assurer la même fonction qu’un fichier inverse en RI classique
Chapitre 2. La Recherche d’Information Structurée
43
et chaque document est indexé pour des calculs statistiques. L’arbre XML est
indexé en se basant sur le post et le pré-ordre des nœuds. Par conséquent,
pour chaque élément, le texte qu’il contient ainsi que le texte contenu dans
ses descendants est indexé (voir approches d’indexation basées sur les sousarbres imbriqués, section 2.4.1.1). Un modèle de langue est ensuite estimé pour
chaque élément de la collection. Pour une requête donnée, les éléments sont
triés par rapport à la probabilité que le modèle de langue de l’élément génère
la requête. Ceci revient à estimer la probabilité P (e, q), ou e est un élément et
q une requête :
P (e, q) = P (e) ∗ P (q|e)
(2.9)
Deux probabilités doivent donc être estimées : la probabilité a priori de l’élément
P (e) et la probabilité qu’il génère la requête P (q|e). La première probabilité
est estimée comme suit :
|e|
P (e) =
(2.10)
|C|
Avec :
– |e| est le nombre de mots dans l’élément e ;
– |C| est le nombre de mots contenus dans tous les documents.
Pour la seconde probabilité, les auteurs considèrent que les termes de la requête
sont indépendants, et utilisent une interpolation linéaire du modèle d’élément
et du modèle de collection pour estimer la probabilité d’un terme de la requête.
La probabilité d’une requête t1 , t2 , ..., tn est ainsi calculée de la façon suivante :
P (t1 , ..., tn |e) =
n
Y
(λ ∗ P (ti |e) + (1 − λ) ∗ P (ti ))
(2.11)
i=1
Avec
–
–
–
:
P (ti |e) est la probabilité d’observer le terme ti dans l’élément e ;
P (ti ) est la probabilité d’observer le terme dans la collection ;
λ est un paramètre de lissage.
Le calcul des probabilités peut être réduit à la formule de calcul des scores 2.12,
pour un élément e et une requête t1 , ..., tn .
X
s(e, t1 , ..., tn ) = β ∗ log(
t
Avec
–
–
–
n
X
λ ∗ tf (ti , e) ∗ ( t df (t))
)
log(1 +
tf (t, e)) +
P
(1 − λ) ∗ df (ti ) ∗ tf (t, e)
i=1
(2.12)
P
:
tf (t, e) est la fréquence du terme t dans l’élément e ;
df (t) est le nombre d’éléments contenant t ;
λ est le poids donné au modèle de langue de l’élément en lissant avec le
modèle de la collection ;
– β est un paramètre servant à combler le fossé entre la taille de l’élément
moyen et la taille de l’élément moyen pertinent.
Chapitre 2. La Recherche d’Information Structurée
44
Dans [230], l’utilisation de la fréquence inverse d’élément ief est proposée
pour faciliter les pondérations par élément : un nouveau poids probabiliste
pour les termes est alors formulé, utilisant ief et la fréquence du terme dans
chaque élément. Les poids des termes de la requête peuvent être étendus avec
des conditions sur l’appartenance du terme à un certain élément ou chemin.
On trouvera d’autres approches basées sur les modèles de langues pour la
RIS dans [138, 12, 160, 110, 157].
2.6.2.3
Autres approches
Bogers et al. dans [32] proposent une approche basée sur le modèle de
langue afin d’effectuer une recherche dans d’une collection des livres. Leur principal objectif est d’examiner l’efficacité de l’utilisation des fonctions sociales
pour re-classer les résultats de recherche initiales basées sur le contenu. Ils se
concentrent en particulier sur l’utilisation de techniques de filtrage collaboratif
pour améliorer leurs résultats de recherche basés sur le contenu.
Dans [30], Bhaskar et al. décrivent un système hybride de contextualisation
de tweets. Le système de RI concentré est basé sur l’architecture Nutch et
le système de résumé automatique est basé sur le classement de phrases par
TF-IDF et des techniques d’extraction de phrases.
Une autre approche basée sur le modèle vectoriel est proposée par Crouch
et al. dans [65]. Cette approche réalise tout d’abord une recherche sur les documents afin d’identifier les articles pertinents à l’aide du système SMART [191].
Afin de produire d’extraits de documents correspondant à chaque article, les
auteurs utilisent une approche appelée Flex pour recherche flexible [63].
L’évaluation de ces différentes approches de RIS est présentée dans la section
suivante.
2.7
Évaluation des performances des systèmes
de RIS
Aujourd’hui, il existe une seule campagne d’évaluation des différents systèmes
de RIS. Cette campagne d’évaluation est INEX (INitiative for the Evaluation
of XML retrieval). Elle a eu lieu depuis 2002. Elle offre un forum international
pour évaluer et comparer les résultats enregistrés par les différents participants,
mais aussi pour discuter les différentes problématiques qui se présentent. La
Chapitre 2. La Recherche d’Information Structurée
45
collection de test est un ensemble de documents XML, requêtes, tâches de recherche et jugements de pertinence. Le langage de requête utilisé dans INEX
est NEXI [219, 218].
INEX a proposé plusieurs tâches telles que la tâche ad-hoc, la tâche multimedia,
la tâche relevance feedback, la tâche hétérogène, etc.
2.7.1
Collections de test
Afin d’améliorer la qualité de l’évaluation, les collections de test proposées
dans la cadre de la campagne INEX ne cessent d’évoluer. Entre 2002 et 2004,
INEX a utilisée une collection composée des articles de la revue scientifique
“IEEE Computer Society”, balisés au format XML et d’une taille totale aux
alentours 500 Mo. En 2005, la collection a été étendue pour comporter environ
17 000 articles issus de 21 revues pour une taille totale d’environ 750 Mo.
À partir de 2006, la collection IEEE a été complétée par de documents
en anglais extraits de l’encyclopédie en ligne “Wikipedia”, a été utilisée dans
la plupart des tâches. Cette collection de 6 Go, est composée de 659 388 de
documents d’une profondeur moyenne 6,72.
En 2009, une extension de la collection Wikipedia est fournie [199]. Elle est
composée de 2 666 190 articles Wikipedia annotés et elle a une taille de 50,7
GB. Cette collection est utilisée dans la tâche adhoc ainsi que dans d’autres
tâches. D’autres collections sont aussi fournies par la campagne d’évaluation
pour évaluer d’autres tâches telles que la collection “mmwikipedia” pour une
sous-tâche de la tâche multimedia, ou encore les collections fournies pour la
tâche hétérogène. Le Guide de Planète Solitaire a été aussi utilisé et depuis
2007 une collection de livres parcourus a aussi été rendue disponible pour des
tâches de recherche de livre.
2.7.2
Requêtes
Les participants à INEX ont créé deux types de requêtes (ou topics) :
– CO : les mots-clés de cette requête peuvent être regroupés sous forme
d’expressions et précédés par les opérateurs “+” (signifiant que le terme
est obligatoire) ou “-” (signifiant que le terme est exclu des éléments
renvoyés à l’utilisateur).
– CAS : les contraintes de cette requête portent sur la structure des documents.
Chapitre 2. La Recherche d’Information Structurée
46
Pour chaque topics, différents champs permettant d’expliciter le besoin de
l’utilisateur. Par exemple, le champ title donne une définition simplifiée de
la requête, le champ keywords contient un ensemble de mots-clés qui ont permis l’exploration du corpus avant la reformulation définitive de la requête, et
les champs description et narrative, explicités en langage naturel, indiquent les
intentions de l’auteur.
À partir de 2006, ces deux types de requêtes ont été regroupés dans un seul type
CO+S en rajoutant un nouveau champ castitle donnant la forme structurée de
la requête.
2.7.3
Tâches de recherche
INEX propose plusieurs tâches d’évaluation afin d’explorer plusieurs voix de
recherche dans les documents XML. Nous détaillons dans ce qui suit quelques
tâches.
– Tâche adhoc : c’est la tâche principale de la campagne d’évaluation
INEX. Elle est considérée comme une simulation de l’interrogation d’une
bibliothèque, où un ensemble statique de documents XML. Plusieurs
stratégies de recherche sont étudiées dans ce contexte en utilisant différents
types de requêtes (CO ou CAS). Nous citons quelques-unes :
1. La stratégie Thorough consiste à renvoyer à l’utilisateur les éléments
fortement pertinents ;
2. La stratégie Focused suppose qu’un utilisateur préfère ne pas avoir
d’éléments imbriqués dans la réponse ;
3. La stratégie Fetch and Browse appelée aussi All in Context, consiste
à classer les résultats par article ou document. L’évaluation concerne
alors d’une part les documents et d’autre part le classement des
éléments dans un document donné ;
4. La stratégie Best in Context permet d’évaluer les meilleurs points
d’entrée dans un article donnée.
– Tâche hétérogène : lorsque les documents sont issus de différentes collections, ils ne possèdent pas la même DTD. Notamment avec l’apparition et l’utilisation des systèmes distribués, la tâche hétérogène s’avère
un véritable challenge qui pose un certain nombre de défis :
1. avec des requêtes de type CO, des nouvelles approches doivent être
développées indépendamment des DTDs ;
2. avec des requêtes de type CAS, s’ajoute le problème de faire correspondre des conditions structurelles appartenant à différentes DTDs.
– Tâche recherche de livres : il s’agit d’explorer des techniques permettant de traiter des requêtes complexes (qui va au-delà de la pertinence
et qui peuvent inclure des aspects comme le genre, la nouveauté, le bien
Chapitre 2. La Recherche d’Information Structurée
47
écrit, etc.) et des sources d’information complexes (qui incluent des profils utilisateurs, des catalogues personnels et les descriptions de livres) en
utilisant une collection basée sur des données provenant de Amazon et de
LibraryThing.
– Tâche contextualisation de tweets : l’objectif est de fournir un contexte
sur le sujet d’un tweet afin d’aider le lecteur à comprendre. Cette tâche
consiste à répondre aux questions de la forme “Au sujet de quoi ce tweet ?”
Qui peut être répondu par plusieurs phrases ou par une agrégation de
textes de différents documents Wikipédia. Ainsi, l’analyse de tweet,
XML/recherche par passage et le résumé automatique sont combinés afin
de se rapprocher des besoins réels en information.
– Tâche recherche d’extraits de documents : cette tâche s’intéresse
à la façon de générer des extraits d’information pour les résultats de
recherche. Ces extraits doivent fournir suffisamment d’informations pour
permettre à l’utilisateur de déterminer la pertinence de chaque document,
sans avoir besoin de consulter le document lui-même.
2.7.4
Mesures d’évaluation
Afin de traiter les besoins supplémentaires induits par la RIS, une extension
des mesures traditionnelles utilisées dans la RI classique a été proposée. Cette
extension concerne plusieurs mesures d’évaluation selon les tâches et les années.
Nous présentons dans cette section les mesures d’évaluation à INEX 2005 et
INEX 2007.
2.7.4.1
Métriques à INEX 2005
Les mesures proposées avant INEX 2005 ne prennent pas en compte d’un
problème essentiel de l’évaluation : la surpopulation de la base de rappel [116].
Cette surpopulation est due aux règles d’inférence utilisées lors de l’élaboration
des jugements de pertinence [176] : si un élément est jugé pertinent, ses ancêtres
doivent aussi être jugés pertinents, même si leur degré de pertinence est moindre
(et ce notamment à cause de la propagation de l’exhaustivité dans l’arbre
du document). Par conséquent, un taux de rappel idéal ne peut être obtenu
que par les systèmes référençant tous les composants de la base de rappel, y
compris les éléments imbriqués. Afin de solutionner ce problème, Kazai et al.
établissent dans [116] la définition d’une base de rappel idéale, qui supporterait
la procédure d’évaluation suivante : les éléments de la base de rappel idéale
doivent être retournés par les systèmes, les éléments proches de ceux contenus
dans la base de rappel idéale peuvent être vus comme des succès partiels, mais
les autres systèmes ne doivent pas être pénalisés s’ils ne les renvoient pas. Les
Chapitre 2. La Recherche d’Information Structurée
48
mesures xCG sont proposées pour répondre à ces besoins. Les mesures xCG
(XML Cumulated Gain) sont des extensions du “gain cumulatif” proposé par
Järvelin et Kekäläinen dans [106].
xCG(i) =
i
X
xG(j)
(2.13)
j=1
où xG(j) est le score obtenu pour l’élément classé à la position j par le système.
La métrique xCG inclut les mesures de gain cumulé étendu normalisé (nxCG)
données par :
xCG(i)
nxCG(i) =
(2.14)
xCI(i)
où xCI(i) est le gain cumulé idéal.
Les mesures de gain cumulatif ont été développées pour évaluer les systèmes
selon le degré de pertinence des documents retournés. La motivation derrière
XCG est d’étendre les mesures de gain cumulatif au problème des éléments
imbriqués. Les premiers tests de fiabilité de la mesure sont encourageants [117].
2.7.4.2
Métriques proposées depuis INEX 2007
Depuis 2007, les mesures officielles sont basées sur l’interpolation du Rappel/Précision sur 101 niveaux [112].
– Précision interpolée selon quatre niveaux de rappel sélectionnés :
iP [jR],j ∈ [0, 00; 0, 01; 0, 05; 0, 1] La précision à un rang r est définie
comme suit :
Pr
rsize(pi )
(2.15)
P [r] = Pi=1
r
i=1 size(pi )
Avec :
1. pi est la partie du document assignée au rang i (avec i ≤ r) dans
la liste de résultats Lq des parties de documents retournées par un
système de recherche pour une requête q.
2. rsize(pr ) est la taille du texte pertinent contenu dans pr en nombre
de caractères (ce texte est déterminé grâce aux jugements de pertinence qui contiennent le bon élément avec sa taille) et size(pr ) est
la taille totale du texte contenu dans pr en nombre de caractères.
Le rappel à un rang r est défini comme suit :
R[r] =
Pr
rsize(pi )
T rel(q)
i=1
(2.16)
où T rel(q) est la quantité totale du texte pertinent pour une requête q.
Chapitre 2. La Recherche d’Information Structurée
49
La mesure de précision interpolée iP [x] est la suivante :
iP [x] =
max (P [r] ∧ R[r] ≥ x) if x ≤ R[|Lq |],
1≤r≤|Lq |
0 if x > R[|Lq |].
(2.17)
où R[|Lq|] est le rappel pour tous les documents restitués. La mesure officielle utilisée pour comparer les différents systèmes est iP [0, 01].
– Moyenne des précisions moyennes interpolées selon 101 niveaux
de rappel (MAiP) : Pour n requêtes, M AiP est calculée comme suit :
M AiP =
1X
AiP (t)
n t
(2.18)
où Aip est la précision moyenne interpolée, elle est obtenue par la moyenne
des scores de précision interpolées selon 101 niveaux standards de rappel :
AiP =
X
1
iP (x)
101 x=0,00;0,01;...;1,00
(2.19)
Nous utilisons ces mesures dans notre première série d’expérimentations du
chapitre 5, section 5.3.3.
2.8
Conclusion
Dans ce chapitre, nous avons passé en revue les méthodes, modèles et algorithmes fondamentaux utilisés en RIS. La dimension structurelle apportée
au contenu textuel des documents permet de considérer l’information avec une
autre granularité que le document tout entier. Le but pour les systèmes de RIS
est alors de renvoyer les unités d’information (ou portions de documents) les
plus spécifiques et exhaustives à la requête utilisateur.
Nous avons aussi donné un aperçu sur les nouveaux concepts d’évaluation
des systèmes de RIS. Nous constatons qu’avec la structure la RI dans ses documents peut être plus spécifique et précise. Généralement, les approches actuelles
renvoient des éléments indissociables, or il existe des requêtes qui nécessitent
l’agrégation de résultats. Ainsi, au lieu de récupérer une liste d’éléments qui
sont susceptibles de répondre à la requête, notre contribution consiste à agréger
des éléments XML en utilisant des RB. L’avantage d’utiliser un modèle de RIS
basé sur les RB et leur capacité à combiner des informations provenant de
différentes sources pour restituer une liste d’agrégats qui seraient les plus pertinents étant donnée une requête.
Chapitre 2. La Recherche d’Information Structurée
50
Nous allons présenter dans le chapitre suivant (3) les principales motivations développées en RI agrégée comme une alternative prometteuse car elle
peut assembler dans la réponse des éléments plus pertinents, non-redondants
et complémentaires.
Chapitre 3
Vers la Recherche d’Information
agrégée dans des documents
semi-structurés
3.1
Introduction
Les modèles de RI peuvent être regroupés selon le type de modèle mathématique utilisé, à savoir : le modèle ensembliste 1 , le modèle vectoriel 2 et le modèles
probabiliste 3 . Ils peuvent également être regroupés selon le type de sortie à
savoir une liste de documents non-ordonnés ou une liste de documents ordonnés
selon un degré de pertinence. Les premiers travaux en RI étant basés sur le
premier paradigme alors, actuellement, c’est le second le plus utilisé.
Il y a peu de temps, lorsqu’on soumet une requête à un moteur de recherche
quel qu’il soit, ce dernier effectuait par défaut la recherche sur un serveur principal qui indexe les pages Web en HTML. Ce modèle a évolué en effet, les
moteurs de recherche créent de plus en plus des moteurs annexes ou verticaux
pour d’autres types de contenus, soit la plupart du temps : images, vidéos,
actualités, livres, etc. Cette avancée majeur des moteurs de recherche permet
donc d’ajouter des résultats complémentaires provenant d’autres sources à la
1. ces modèles trouvent leurs fondements théoriques dans la théorie des ensembles.
On distingue le modèle booléen pur, le modèle booléen étendu et le modèle basé sur
les ensembles flous.
2. ces modèles sont basés sur l’algébrique, plus précisément le calcul vectoriel.
Ils englobent le modèle vectoriel, le modèle vectoriel généralisé, Latent Semantic
Indexing et le modèle connexioniste.
3. ces modèles se basent sur les probabilités. Ils comprennent le modèle probabiliste général, le modèle de réseau de document ou d’inférence et le modèle de langue.
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
52
liste ordonnée de documents Web. La RI agrégée représente l’une des alternatives la plus prometteuse qui permet de répondre à ce type d’attente. La RI
agrégée peut également offrir une vision plus riche de l’information issue des
différentes sources de données.
Nous présentons dans ce chapitre un aperçu des différentes approches en RI
agrégée ainsi que les cadres d’évaluation associés. La section 3.2 décrit en détail
les problématiques des paradigmes recherche booléenne et recherche ordonnée.
La section 3.3 décrit les motivations vers un nouveau paradigme de RI à savoir
la RI agrégée. La section 3.4 décrit un état de l’art de la RI structurée et la
RI agrégée. La section 3.5 décrit différents modèles d’évaluation orientés RI
agrégée, notamment l’évaluation des documents XML. La dernière section 3.6
conclut le chapitre.
3.2
Limites de la recherche ordonnée
La majorité des approches de RI renvoient les résultats de recherche sous
forme d’une liste de documents ordonnée selon un critère, souvent leur pertinence vis-à-vis de la requête. L’ordre des résultats permet souvent de placer des
résultats pertinents en-tête de la liste. Ceci correspond au principe de classement. Dans [186], Robertson affirme qu’un SRI est optimal s’il devrait ordonner
les résultats selon leur probabilité de pertinence.
Typiquement, les résultats sont ordonnés selon une fonction de classement
qui combine différents facteurs générés à partir de la requête et la collection
de documents. Ces facteurs sont également spécifiques au modèle RI [196, 184,
37, 178, 38].
Ce paradigme de recherche devient moins efficace lorsque les informations,
que l’utilisateur souhaite avoir dans sa réponse, ne sont pas contenues dans
un document unique [158]. Dans ce cas, une liste ordonnée n’est peut être pas
le bon moyen de présenter les résultats car l’utilisateur doit fouiller au sein
de différents documents pour collecter soi-même les informations qui satisfont
son besoin d’information. Outre le fait qu’un tel parcours risque de s’avérer
couteux en temps, onéreux et fastidieux ; tout le problème est de savoir quand
s’arrêter ?
Pour certaines requêtes, les résultats de recherche ne sont pas diversifiés
tant en termes de contenu que de présentation [61]. Ce paradigme de recherche
donnerait une présentation uniforme à tous les résultats. Toutefois, il convient
qu’il est parfois nécessaire de rechercher des images, des vidéos, des cartes
ou bien encore des informations appartenant à une thématique très précise.
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
53
Par exemple, les requêtes “images of Niagara Falls”, “videos of Niagara Falls”
et “Niagara Falls” auront tous retournées des extraits de pages Web à partir d’une recherche traditionnelle sur le Web. Idéalement, les deux premières
requêtes doivent renvoyées respectivement des images et des vidéos, tandis que
la troisième requête peut avoir des résultats divers (images, vidéos, pages web,
...). En fait, la diversification des résultats de la recherche a un intérêt croissant
dans la RI selon [59, 14].
Plusieurs requêtes peuvent être ambigües en termes de besoin d’information.
L’exemple référence est la requête “Jaguar”, qui peut se référer à une voiture, un
animal, un système d’exploitation et ainsi de suite. Idéalement, nous devrions
renvoyer une réponse par interprétation de la requête [203]. Cela peut être par
plusieurs listes ordonnées ou un ensemble de résultats liés.
3.3
3.3.1
Vers la RI agrégée
Motivations
L’objectif de la RI agrégée est de rassembler des informations à partir diverses sources pour construire des réponses pertinentes à la requête. Comme
nous l’avons déjà mentionné, dans le contexte de la liste ordonnée, l’utilisateur
doit parcourir linéairement la liste en consultant les documents un à un jusqu’à
avoir le sentiment d’avoir collecté suffisamment d’informations. Outre le fait
qu’un tel parcours risque de s’avérer fastidieux, tout le problème est de savoir
quand s’arrêter. À partir de quel moment est-on certain d’avoir collecté assez
d’informations ?
Il est bien connu que dans le contexte de la recherche Web, l’utilisateur se limite principalement à des résultats au premier, deuxième et parfois (au plus)
troisième rang [209]. Selon une étude rapportée dans [105], il a été montré
que sur 10 documents affichés, 60% des utilisateurs ont consulté moins de 5
documents et près de 30% ont lu un seul document. De ce fait, il est important de renvoyer à l’utilisateur des résultats plus diversifiés pour fournir une
bonne couverture de l’information disponible sur le Web concernant la requête
[50, 180]. Autrement, les résultats retournés devraient donner un aperçu de
différents intentions de l’utilisateur derrière sa requête. La question de la diversité des résultats retournés est encore plus importante pour les requêtes courtes
ou ambigües. Par exemple, pour la requête “travelling to London”, il serait plus
bénéfique de retourner des cartes, blogs, données météorologiques, etc.
La RI agrégée permet d’apporter des solutions à cette problématique. En effet,
son objectif est d’intégrer d’autres types de documents (pages Web, images,
vidéos, cartes, actualités, etc.) dans la page de résultats. Ce type d’agrégation
est aujourd’hui adopté par la majorité des moteurs de recherche : Google’s
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
54
Universal Search 4 , Yahoo !7 5 , Ask 6 et Microsoft’s Live 7 , etc. Les utilisateurs
ont accès ensuite à différents types de résultats dans une seule interface. Ceci
peut être favorable pour certaines requêtes, de type par exemple “jaguar”. En
effet, cette même requête est soumise aux deux moteurs de recherche Web Yahoo ! et ASK (consultés en novembre 2012) qui renvoient des résultats dans
des pages agrégées indiquées dans les figures 3.1 et 3.2, respectivement. La
page agrégée retournée par Yahoo !7 contient des informations appropriées aux
différents contextes de la requête (e.g. jaguar cars, jaguar cats, etc.). Quant au
moteur ASK, il affiche en plus une liste de sujets proposés associés à la requête
sur le panneau latéral (e.g. jaguar Cubs, jaguar Clipart, jaguar Food Chain,
etc.).
Figure 3.1 – Agrégation des résultats renvoyés par Yahoo !7 pour la requête
“jaguar”
4.
5.
6.
7.
http ://www.google.com/intl/en/press/pressrel/universalsearch 20070516.html
http ://au.search.yahoo.com/
http ://www.ask.com/
http ://www.live.com/
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
55
Figure 3.2 – Agrégation des résultats renvoyés par ASK pour la requête “jaguar”
Une autre façon d’aborder l’agrégation et aller ainsi au-delà de la notion
de liste ordonnée, est de présenter ces résultats sous forme de clusters. Dans
[237], Zeng et al. proposent une approche basée sur le regroupement (clustering). Ils considèrent que le regroupement des résultats de recherche dans des
clusters permet d’avoir des documents qui se concentrent sur certains aspects
de la requête. Exemple de moteur de recherche qui se base sur la technique de
regroupement, on trouve clusty 8 .
Une autre approche commune pour fournir une telle vue d’ensemble est
le résumé multi-documents. On trouve plusieurs systèmes qui adoptent cette
technique pour agréger des résultats de recherche. Par exemple, WebInEssence
[73], NewsInEssence [72], NewsBlaster [152] et QCS [74].
D’autres approches combinent à la fois deux techniques à savoir le regroupement et le résumé multi-documents proposé par Sushmita et al. [209]. En
fait, il s’agit de construire un document fictif à partir d’un regroupement des
résultats par un moteur de recherche sous forme des clusters. Ce document fictif
est considéré comme la réponse à la requête ou chaque chaque cluster correspond à des résumés de documents web retournés. Une amélioration considérable
de l’espace résultat de l’utilisateur est constatée.
Le modèle de recherche orienté liste ordonnée devient moins efficace lorsque
les informations demandées par l’utilisateur ne sont pas contenues dans un
8. http ://www.clusty.com
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
56
document unique, ou même dans une seule catégorie de ressource. On peut
citer plusieurs exemples de requêtes pour lesquelles il est nécessaire de collecter
et d’assembler les informations pertinentes sous forme d’une réponse (“Avatar
trailer”, “kamini”, “Chelsea fc”, etc.). Ce nouveau paradigme de RI agrégée a
été défini lors de l’atelier SIGIR’2008 :
“Aggregated search is the task of searching and assembling information from a
variety of sources, placing it into a single interface” [158].
3.3.2
Domaines d’application de la RI agrégée
La question d’agrégation de résultats a été abordée dans différents domaines. Nous illustrons dans ce qui suit les différentes instances de la RI agrégée
vu sous des angles différents.
3.3.2.1
RI agrégée relationnelle
Un des cadres de RI qui demande l’agrégation des résultats est la RI agrégée
relationnelle. Ce type de RI agrégée porte sur deux approches à savoir la recherche orientée entité ainsi que la recherche relationnelle.
– Recherche orientée entité : les entités nommées sont des concepts
communs qui appartiennent à des catégories tels que les emplacements,
noms de personnes, organisations, etc. Ils sont aussi appelés des instances
de classes [24, 15, 122, 125].
Kato et al. [115] ont montré qu’environ 71% des requêtes de recherche
Web contiennent des entités nommées. Une autre étude récente [27] sur les
fichiers logs a révélé qu’environ 73% à 87% des requêtes contiennent des
entités nommées et qu’environ 18% à 39% des requêtes sont des entités
nommées.
Quand on interroge sur l’entité, on peut alors retourner un lot des informations de ce sujet. Dans la littérature, il existe des approches qui
prennent une entité comme une requête et retourne un contenu connexe
tel que la page d’accueil Wikipedia de l’entité [24, 25], d’images [31], de
profil d’une personne dans un réseau social [235], etc.
– Recherche relationnelle : les approches d’extraction des entités tels
que les noms de personnes, lieux, organisations, etc. permettent aussi de
déterminer leurs relations tels que “John works for Motorola”.
Dans [48], les auteurs identifient les différents types de requêtes qui peuvent
être satisfaites par la recherche relationnelle. Pour illustrer, nous pouvons
donner quelques exemples tels que “French wines”, “Capital of France”,
“features of iPhone” [122]. La première requête peut être répondue avec
une liste d’instances (entités nommées) alors que la seconde avec un at-
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
57
tribut et le troisième avec de nombreux attributs.
La recherche relationnelle utilise des techniques d’extraction d’information [15] et de fouille des données semi-structurées [47]. Les techniques
existantes peuvent découvrir des extraits d’information et leurs relations.
Néanmoins, leur utilisation pour la RI reste limitée.
3.3.2.2
Recherche verticale
La recherche verticale [20, 71, 158, 206, 124, 123] traite l’agrégation des
résultats de recherche provenant de différents moteurs verticaux. Un moteur
vertical peut être un moteur d’images, vidéos, actualités, etc. Ce type de recherche permet aux utilisateurs d’interroger différents moteurs verticaux à partir de la même interface. Le contenu pertinent peut être clairsemé dans les
différentes sources.
3.3.2.3
Autres perspectives de la RI agrégée
La RI agrégée peut être appliquer dans des domaines spécifiques. Les approches ci-après sont parfois trop spécifiques, mais il est important de les
présenter parce qu’elles sont intéressantes et bien répandu dans la littérature.
– La RI agrégée est appliquée dans un service de recherche unifiée de NAVER [164], le premier moteur de recherche coréen. Ce moteur de recherche
permet aux utilisateurs de rechercher dans diverses collections de documents.
– La RI agrégée est exploitée dans la recherche dans des bibliothèques
numériques. Strotmann et al. [205] introduisent deux graphes à base de
structure pour aider à naviguer dans des résultats de recherche. Le premier est un graphe sur les documents regroupés par auteur. Le second est
un graphe des auteurs avec des liens basés sur l’analyse de co-citation.
– La RI agrégée est utilisée également en sciences sociales. Kaptein et
Marx [161] extraient et agrègent les concepts retrouvés, leurs relations, les
méthodes de recherche et l’information contextuelle. Les résultats peuvent
ensuite être consultées par la méthode, la relation ou le concept de recherche. Pour chaque concept de recherche, l’utilisateur reçoit un résumé
de l’information contextuelle.
– Le regroupement des actualités en fonction de la similitude et le temps a
montré un effet bénéfique [189, 96]. Articles de presse à thèmes similaires
et date de publication peuvent représenter l’historique d’un thème. Une
telle organisation peut aider l’utilisateur à concentrer sa recherche dans
un sujet et un intervalle de temps [139].
Un contenu multimédia peut être juxtaposé à cette historique [188]. C’est
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
58
le cas pour Google News 9 (voir figure 3.3). Rohr et al. [188] proposent
un calendrier afin de montrer l’évolution d’un thème.
Figure 3.3 – Résultats retournés par Google News pour la requête “chelsea”,
consulté en avril 2009 [121]
– La recherche géographique est devenu un axe de recherche très intéressant
en RI [221, 108, 198]. L’information se rapporte à la situation géographique
où les choses se passent dans un lieu géographique déterminé. Les personnes et leurs tâches sont liées à leurs positions. Cette relation devient
importante lorsqu’on recherche des entités géographiques ou lorsqu’on
personnalise la recherche en fonction du lieu de l’utilisateur [94, 156, 39].
Les entités géographiques peuvent être associées à d’autres types de contenu :
des images [145, 120], entités liées nommés [222], actualités, etc. Ces relations peuvent devenir utiles pour d’autres RI agrégée inter-verticale ou
de recherche Web.
– Enfin, on trouvera d’autres approches utilisant le paradigme de RI agrégée
dans la recherche fédérée [21, 13, 102, 49, 91], les applications mashup 10 [92, 181], les approches QR 11 [155, 232], les approches de GAT 12
9. http ://news.google.com/
10. Les mash-up sont des outils agrégateurs et manipulateurs interactifs de données.
Elles combinent d’une manière séquentielle ou parallèle des sources (contenu ou service) provenant de plusieurs applications plus ou moins hétérogènes dans des domaines spécifiques
11. QR : Question-Réponse
12. GAT : Génération Automatique de Textes
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
59
[162, 210, 163] et les discours politiques [114].
3.3.3
Problématique de la RI agrégée
Bien qu’il paraı̂t un peu abstrait au départ, plusieurs questions se posent
dans la RI agrégée. Dans ce qui suit, nous citons quelques-unes mentionnées
dans [121] : Identifier le type de réponse : le contenu des réponses renvoyées
aux requêtes peut être différent. Pour certaines requêtes, une seule unité d’information suffit comme réponse, d’autres demandent de multiples unités. Des
requêtes telles que “Capital of France”, “BBC home page”, “height of Everest”,
“definition of Brontosaurus” peuvent être répondues par une seule unité d’information, tandis que des requêtes telles que “French wines by region”, “ratings
of Nokia E72”, “Chinese restaurants at New York” et “all about Nokia E72” demandent de multiples unités. Identifier les unités d’information les plus
pertinentes : en RI agrégée, nous pouvons récupérer des unités d’information avec des granularités différentes et de types différents. Cela permet d’avoir
une réponse finale plus exhaustive. Il n’est pas anodin d’identifier les unités
qui devraient être utilisées pour composer la réponse finale. Quand devrionsnous utiliser une unité d’information au lieu d’un document entier ? Quand
devrions-nous utiliser le contenu multimédia (images, vidéos, etc.) ? Quand
devrions-nous utiliser les moteurs de recherche spécialisés (recherche d’images,
de recherche de vidéos de recherche nouvelles, etc.) ? C’est une des questions
les plus difficiles dans ce domaine. Assembler les différentes unités d’information dans un document cohérent : la RI agrégée peut impliquer
toutes les manières possibles d’assembler les résultats de recherche. Cela peut
être un résumé, deux images et une définition, une table relationnelle, etc. L’un
des objectifs de la RI agrégée est de choisir la meilleure agrégation selon les
résultats de recherche disponibles. Quelle est la forme à laquelle le résultat final pourrait ressembler, il doit être lisible et cohérent. La principale question
est de savoir comment assembler et évaluer la pertinence des résultats agrégés
vis-à-vis de la requête, sachant qu’il est impossible de construire a priori toutes
les combinaisons possibles des résultats.
3.4
3.4.1
RI agrégée dans les documents semi-structurés
Problématique
Comme nous l’avons mentionné dans le chapitre précédent, un problème
principal de la RIS est comment sélectionner l’unité d’information qui répond
le mieux à une requête de type CO [111, 80]. La plupart des approches en RIS
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
60
[202, 160, 127, 128, 177] considère que les unités retournées sont sous forme
d’une liste d’éléments disjoints. Pour notre part, nous considérons que cette
unité pertinente n’est pas nécessairement des éléments adjacents ou un document, elle pourrait aussi être une agrégation d’éléments de ce document.
Soit par exemple, un document XML de structure illustrée par la figure 3.4. Si
nous supposons que l’unité d’information pertinente est composée d’éléments
“title” et “paragraph[2]”, situés au niveau de l’élément “section[2]”. Les autres
éléments ne sont pas sollicités par l’utilisateur. La majorité des systèmes de RIS
retournent le document en entier comme réponse à la requête. Afin d’élaguer
les éléments non-pertinents de la réponse, nous considérons que l’unité d’information retournée est l’agrégat (ensemble d’éléments) formé des deux éléments
“title” et “paragraph[2]”.
Figure 3.4 – Exemple d’une structure d’un document XML
L’idée derrière la sélection d’un ensemble d’éléments au lieu d’un élément
tout seul vient du fait qu’un élément pourrait être partiellement pertinents pour
une requête, alors qu’un ensemble d’éléments pourrait produire une meilleure
réponse à l’utilisateur.
Nous présentons dans ce qui suit les premières tentatives proposées permettant de répondre à cette problématique, à savoir la RI agrégée dans des
documents XML.
3.4.2
Agrégation des documents XML
La question de l’agrégation des éléments XML a reçu peu d’attention dans
la littérature. En fait, le seul travail qui fait de l’agrégation dans des documents
XML, au sens strict du terme, est celui proposé par Bessai et Alimazighi [29].
Pour cela, elles présentent un modèle pour la RIS, basé sur les réseaux possibilistes. Les relations document-éléments et éléments-termes sont modélisées par
des mesures de possibilité et de nécessité. Dans ce modèle, la requête de l’utilisateur déclenche un processus de propagation pour retrouver des documents ou
des unités d’information nécessairement ou au moins possiblement pertinents
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
61
par rapport à la requête. De plus, elles interprètent la notion de pertinence par
deux dimensions :
– une dimension qui mesure à quel point il est certain qu’une “composition
d’éléments d’un document” est pertinente vis-à-vis de la requête ;
– une dimension qui mesure à quel point il est possible qu’une “composition
d’éléments d’un document” est possiblement pertinente pour la requête.
Pour évaluer leur approche, les expérimentations sont menées sur une souscollection d’INEX 2005 (utilise un ensemble d’articles IEEE).
On trouve également des approches qui représentent les résultats d’une
requête sous forme des résumés de documents XML. Par exemple, eXtract [99]
est un système de RIS qui génère des résultats sous forme des fragments à partir
des documents XML (films 13 ). Un fragment XML est qualifié comme résultat
s’il répond à quatre caractéristiques : autonome (compréhensif par l’utilisateur), distinct (différent des autres fragments), représentatif (des sujets de la
requête) et succinct. On trouve également d’autres approches qui s’adressent
au problème d’affichage des résultats de la recherche dans des documents XML
[98, 142].
3.4.3
Motivations
Contrairement aux approches citées précédemment, nous proposons un modèle permettant de sélectionner automatiquement des éléments XML qui répondent le mieux à une requête de type CO à partir de chaque document ainsi
que leur agrégation dans un même résultat. Afin d’assurer que les éléments assemblés ne véhiculent pas la même information et afin de diversifier les résultats
retournés par notre modèle, nous avons ajouté une première hypothèse de nonredondance sur les deux sources d’évidence (le contenu et la structure). Nous
proposons également une deuxième hypothèse de complémentarité ne permettant d’assembler que des éléments porteurs de l’information pertinente et additionnelle. Le défi majeur de ce travail est de sélectionner et d’assembler des
éléments pertinents, non redondants et complémentaires, et s’ils sont susceptibles de mieux répondre à la requête tous ensemble qu’une liste d’éléments
pris séparément.
Le modèle que nous proposons trouve ses fondements théoriques dans les
réseaux bayésiens. La structure réseau fournit une manière naturelle de représenter les liens entre les éléments du corpus de documents XML et leurs contenus.
Quant à la théorie des probabilités, elle permet d’estimer de manière qualitative
et quantitative les différents liens sous-jacents. Elle permet notamment d’exprimer le fait qu’un terme est probablement pertinent vis-à-vis d’un élément et de
13. http ://infolab.standford.edu/pub/movies
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
62
mesurer à quel point une réponse à la requête contient des éléments pertinents,
non-redondants et complémentaires.
3.5
Évaluation des systèmes de RI agrégée
L’évaluation d’un SRI consiste à mesurer ses performances et estimer sa capacité à répondre aux besoins en information des utilisateurs. La performance
ou la qualité d’un SRI est mesurée en comparant les réponses du système renvoyés à l’utilisateur pour une requête donnée, aux réponses idéales que l’utilisateur espère recevoir. Dans la littérature, différents modèles d’évaluation des
SRI sont proposés tels que les modèles d’évaluation orientés laboratoire, les
modèles d’évaluation par utilisation des contextes réels (user studies), etc.
3.5.1
Limites des modèles d’évaluation orientés laboratoire en RI agrégée
Les premiers modèles d’évaluation des SRI sont basées sur une approche
de type laboratoire (où laboratory-based model) initiée par Cleverdon [60] dans
le cadre du projet Cranfield project II. Cette approche fournit des ressources
de base pour l’évaluation d’un SRI, notamment une collection de requêtes,
une collection de documents et des jugements de pertinence associés à chaque
requête. Ce modèle d’évaluation orienté laboratoire est adopté dans les campagnes d’évaluation telles que TREC, INEX, etc.
L’évaluation de la RI agrégée engendre de nouvelles problématiques liées, en
particulier, à la notion de document en RI agrégée et l’absence des métriques
d’évaluation spécifiques.
3.5.1.1
Absence de la notion de document en RI agrégée
De manière générale, la RI agrégée peut être vue comme un moyen permettant d’assembler dans un même agrégat, du contenu pertinent provenant de
plusieurs sources susceptibles de comporter une partie de l’information pertinente pour la requête.
Dans le but de comparer les agrégats résultats fournis par un système de
RI agrégée et les agrégats que souhaite recevoir l’utilisateur, il faut spécifier
pour chaque requête l’ensemble de réponses idéales du point de vue utilisateur.
La spécification des jugements de pertinence d’agrégats associés à la requête
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
63
constituent la tâche la plus difficile dans la construction d’une collection de test.
À la différence des modèles d’évaluation orientés laboratoire où les documents
pertinents doivent être connus et complets pour chaque requête. En bref, la
notion de document n’existe pas dans la RI agrégée.
3.5.1.2
Insuffisance des métriques quantitatives
Les métriques d’évaluation classiques tels que le rappel et la précision sont
des mesures quantitatives considérées insuffisantes pour l’évaluation des systèmes de RI agrégée. En effet, l’évaluation par le biais de ces mesures se fait
par rapport au nombre de documents retrouvés par le système. Ces mesures ne
permettent pas d’évaluer la qualité d’un agrégat construit. Il s’agit d’évaluer, à
un rang donné, un ensemble d’éléments qui peut comporter des bons et mauvais
éléments : un tout pertinent ou non ! Il n’existe cependant pas des métriques
spécifiques pour estimer cette qualité.
3.5.2
Modèles d’évaluation orientés RI agrégée
Jusqu’à présent, différentes méthodes d’évaluation ont été menées pour mesurer les performances des systèmes de RI agrégée. Ces méthodes sont assez
hétérogènes parce qu’elles ont été conçues avec des objectifs différents. Nous
pouvons les classer par rapport à leur objectif. Dans [20, 136, 140], l’objectif
principal est d’évaluer la sélection des sources. Dans [206, 208, 213], l’objectif
principal est de comparer les interfaces de la RI agrégée inter-verticale. Dans
[19], l’objectif d’évaluer les résultats de la RI agrégée. Dans [29], l’objectif principal est de montrer l’intérêt de la RI agrégée dans des corpus de documents
XML. Nous allons décrire ci-après les différentes méthodes d’évaluation.
Un protocole commun pour évaluer la sélection des sources est de demander aux participants de choisir qu’elles sont les sources pertinentes pour une
requête. Liu et al. [140] ont effectué ce type de jugement de pertinence sur 2153
requêtes Web génériques. Dans [20], Arguello et al. ont évalué les résultats de
recherche de 25195 requêtes en utilisant des données des utilisateurs issus des
fichiers logs d’un moteur de recherche. Ce type d’évaluations est rapide, mais
pas nécessairement exacte. Dans ce type jugement, on pourrait ne pas deviner
le besoin d’information réelle ou négliger certaines interprétations de la requête
et certaines requêtes peuvent exiger des connaissances spécifiques.
Dans [206, 208], Sushmita et al. comparent l’efficacité de différentes interfaces pour la RI agrégée inter-verticale. Ils montrent que les utilisateurs
trouvent des résultats plus pertinents lorsque les résultats de la RI agrégée inter-
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
64
verticale sont placés ensemble avec des résultats Web. Ils montrent également
que placer les résultats de la RI agrégée inter-verticale au-dessus, au-dessous
ou au milieu des résultat Web peut affecter la qualité de la recherche. Dans les
deux études, les participants ont montré un grand intérêt d’avoir des résultats
issus des sources différentes.
Sushmita et al. proposent d’examiner le comportement d’utilisateurs envers
les concepts proposés tels que digest pages (pages sommaires) et aggregated digest pages. Dans [35], diverses simulations des situations de tâches sont conçues
à cette fin. Les résultats et les observations déduits par ces simulations peuvent
informer les auteurs si les concepts proposés mèneront à une augmentation
d’espaces de résultat et s’ils font que les approches sont les plus efficaces et
pourquoi.
Au lieu d’évaluer les performances des systèmes via les jugements des utilisateurs, les évaluations de pertinence ont été simulées à l’aide de fichiers logs d’un
moteur de recherche [207, 71, 208]. Dans [71], Diaz montre que les requêtes qui
obtiennent un taux élevé dans les fichiers logs des actualités sont probablement
plus intéressantes. Les fichiers logs sont également utilisés dans [208]. Sushmita
et al. ont montré que pour certaines sources telles que la vidéo, les comportements d’utilisateurs sont déterminés à partir de fichiers logs et différents. Bien
que les fichiers logs permettent une évaluation à grande échelle automatique,
ils ne peuvent pas être aussi réalistes qu’une utilisation des contextes réels.
Récemment, Arguello et al. [19] ont proposé une méthodologie pour évaluer
le classement des résultats de la RI agrégée. La pertinence des évaluations sont
par paires de préférences entre des ensembles de résultats. Chaque ensemble
de résultats contient des résultats issus d’une seule source. Ce travail ne se
concentre pas sur la notion de pertinence de la source, mais plutôt sur l’efficacité
relative au classement des résultats.
Zhou et al. [240] proposent de bâtir une référence d’évaluation (benchmark) pour la RI agrégée inter-verticale à travers la réutilisation des références
d’évaluation existantes. Les auteurs utilisent la tâche ClueWeb dans TREC
[57] et construisent artificiellement des collections verticales par classification.
Puis, ils choisissent des requêtes qui couvrent de nombreuse sources. Ce travail est considéré comme une étape vers l’évaluation des performances des SRI,
même si un effort plus substantiel est nécessaire dans ce sens pour rendre la
distribution des requêtes, des sources et des évaluations plus réalistes.
Bessai et Alimazighi [29] ont proposé une méthode d’évaluation afin de
valider leur modèle de RI agrégée dans des documents XML. Un questionnaire a
été conçu afin de récupérer les jugements des utilisateurs et permettre l’analyse
des résultats. Ce questionnaire contient une description de la tâche d’évaluation,
des requêtes ainsi que des questions sur le résultat obtenu par le prototype.
Chapitre 3. Vers la RI agrégée dans des documents semi-structurés
3.5.3
65
Discussion
L’évaluation des performances des systèmes de RI agrégée reste un problème
ouvert. Il existe différents types d’évaluation de pertinence, différentes mesures,
alors qu’il n’y a pas encore un protocole d’évaluation commun. En particulier, il
n’est pas clair quels sont les avantages de ces approches ?, et comment devraientelles être évaluées ? Nous savons que la RI agrégée inter-verticale peut fournir
une orientation sur la diversité et l’exhaustivité des résultats, mais nous ne
savons pas pourquoi et à quel point cette recherche peut contribuer à la RI.
Les travaux de recherche doivent examiner de plus sur l’intérêt des méthodes
d’évaluation orientées RI agrégée.
3.6
Conclusion
Nous avons donnée dans ce chapitre un bref aperçu sur la question de la
RI agrégée. Nous avons montré quelques exemples de domaines dans lesquels
la RI agrégée a un sens. Nous avons présenté le processus général suivi par ce
type de recherche ainsi que les problématiques liées à chacune des étapes.
Nous avons également montré que peu de travaux de recherche ont assuré
la RIS sous l’angle de l’agrégation des résultats. Nous avons également mis
en évidence les problèmes liés à l’évaluation de ce type de recherche. Dans
cette optique, nous développons dans la deuxième partie de ce manuscrit notre
modèle de RI agrégée dans des documents XML.
Deuxième partie
Un Modèle de Recherche
d’Information agrégée dans des
documents XML basé sur les
Réseaux Bayésiens
66
Chapitre 4
Un Modèle de RI Agrégée basé
sur les Réseaux Bayésiens
4.1
Introduction
L’agrégation des éléments XML en RIS a été peu étudiée en littérature. En
fait, comme nous l’avons signalé précédemment, la seule approche qui traite de
cette problématique est celle de Bessai et Alimazighi [29]. Unes de limites de
cette approche vient du fait que les agrégats peuvent contenir des éléments redondants et/ou non complémentaires. Ces propriétés ne sont pas pris en compte
dans cette approche alors que la nôtre les permis. De plus le modèle proposé
se base sur un cadre possibiliste alors que dans notre cas, nous nous appuyons
sur un cadre probabiliste.
Dans ce chapitre, nous proposons une approche de RI agrégée des éléments
XML basée sur les RB. En effet, nous proposons d’assembler automatiquement
les éléments qui répondent le mieux au besoin de l’utilisateur formulé à travers
une liste des mots-clés. On se limite à de requêtes de type CO. Chaque agrégat,
qualifié comme réponse à la requête à partir d’un document XML, doit satisfaire
aux trois propriétés suivantes : pertinence, non-redondance et complémentarité.
Le modèle que nous proposons trouve ses fondements théoriques dans les
RB. La structure réseau fournit une manière naturelle de représenter les documents, les éléments ainsi que la requête. La La théorie des probabilités permet
de mesurer les différentes valeurs sous-jacentes du modèle. Ces valeurs permettent notamment de mesurer à quel point un agrégat contient des éléments
potentiellement pertinents, non-redondants et complémentaires.
Ce chapitre est organisé comme suit. La section 4.2 présente brièvement le
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
68
cadre théorique sur lequel repose notre modèle, à savoir les RB. Nous détaillons
dans la section 4.3 le modèle que nous proposons. Ce modèle est basé sur un
RB défini par une composante qualitative et une composante quantitative :
– la composante qualitative représente les nœuds documents, éléments,
termes d’indexation et la requête et les relations de dépendance existant
entre eux ;
– la composante quantitative mesure les poids des nœuds par les degrés de
probabilité.
La section 4.4 illustre ce modèle par un exemple. La dernière section 4.5 conclut
le chapitre.
4.2
Les Réseaux bayésiens
Les réseaux bayésiens, qui doivent leur nom aux travaux de Thomas Bayes
au XVIIIe siècle sur la théorie des probabilités, sont le résultat de recherches
effectuées dans les années 1980, dues à J. Pearl à UCLA et à une équipe de
recherche danoise à l’Université de Aalborg. Aujourd’hui, les réseaux bayésiens
se sont révélés des outils très pratiques pour la représentation de connaissances
incertaines, et le raisonnement à partir d’informations incomplètes.
Définition 1 (Réseau bayésien) Un réseau bayésien B=(G, θ) peut être formellement défini par :
G = (V ,E), un graphe acyclique orienté où V est l’ensemble des nœuds de G,
et E l’ensemble des arcs de G.
θ = {P (Vi |P a(Vi )} ensemble des probabilités de chaque nœud Vi conditionnellement à l’état de ses parents P a(Vi ) dans G.
Ainsi, un graphe est appréhendé selon un aspect qualitatif et un aspect
quantitatif. L’aspect qualitatif du graphe indique les dépendances (ou indépendances) entre les variables et donne un outil visuel de représentation des
connaissances, outil plus facilement appréhendable par ses utilisateurs. De plus,
l’utilisation de probabilités permet de prendre en compte l’incertain, en quantifiant les dépendances entre les variables, c’est l’aspect quantitatif.
Dans [165], J. Pearl a aussi montré que les réseaux bayésiens permettaient
de représenter de manière compacte la distribution de probabilité jointe sur
l’ensemble des variables :
P (V1 , V2 , .., Vn ) =
n
Y
i=1
P (Vi |P a(Vi ))
(4.1)
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
69
Cette décomposition d’une fonction globale en un produit de termes locaux
dépendant uniquement du nœud considéré et de ses parents dans le graphe, est
une propriété fondamentale des réseaux bayésiens. Elle permet de calculer P (V )
d’une manière plus rapide lorsqu’il y a des dépendances entre les variables. Elle
est à la base des premiers travaux portant sur le développement d’algorithmes
d’inférence, qui calculent la probabilité de n’importe quelle variable du modèle
à partir de l’observation même partielle des autres variables.
4.3
4.3.1
Un modèle de RI agrégée basé sur les RB
Motivations
Les travaux qui nous proposons ont pour but de définir un modèle de RIS
permettant l’agrégation des éléments XML. D’une manière générale, quel que
soit le modèle proposé dans la littérature, et particulièrement ceux qui assemblent les résultats de la recherche soit par regroupement, résumé multidocuments ou agrégation, la non-redondance et la complémentarité des résultats
renvoyés ne sont pas considérées.
Nous nous sommes particulièrement penchés dans nos travaux sur la résolution de trois points qui nous paraissent essentiels pour un modèle efficace et
fiable en RI agrégée sur des documents XML :
– dans le premier point, nous estimons que la pertinence d’un terme dans
un élément d’une configuration donnée dépend d’une part de l’ensemble
d’éléments constituant la configuration et d’autre part de la collection
de documents. De ce fait, l’information non disponible dans un élément
à un impact sur l’importance de cet élément dans l’ensemble d’éléments
récupérés. Notre modèle est basé sur les RB, les mesures de probabilités
permettent de représenter l’importance d’un élément dans un document
et dans la collection.
– le second point traite la redondance d’éléments véhiculant la même information. En effet, nous estimons que le fait de renvoyer des éléments qui
sont similaires induit à du bruit. Nous suggérons tout d’abord d’appliquer une contrainte au niveau de la structure : les éléments d’un agrégat
ne doivent pas avoir une relation d’inclusion entre eux (non-overlapping).
La seconde contrainte renforce la première et sera appliquée au niveau de
contenu.
– le dernier point, la complémentarité, est étroitement lié au premier point.
Il découle de fait qu’on cherche à assembler dans un agrégat d’éléments
qui ajoutent ce qui manquait en matière d’informations pertinentes.
Notre objectif est de permettre à un utilisateur de localiser les informations
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
70
les plus pertinentes, non-redondantes et complémentaires répondant complètement à ses besoins.
4.3.2
Architecture générale du modèle
Le modèle que nous proposons est représenté par un réseau bayésien de
topologie illustrée par la figure 4.1. D’un point de vue qualitatif, le graphe
permet de représenter un document XML, ses éléments, les termes d’indexation et la requête. Les arcs orientés permettent de représenter les relations
de dépendances entre les différents nœuds. Ces relations sont issues de la
représentation DOM 1 d’un document XML. D’un point de vue quantitatif,
notre modèle estime des valeurs sur les nœuds à l’aide des mesures de probabilité.
Le noeud D représente un document de la collection C. Un document D
est représenté par une variable aléatoire binaire, prenant ses valeurs dans le
domaine D = {d, ¬d}. L’instanciation (ou activation) d’un nœud document,
D = d (resp. ¬d) signifie que le document est pertinent (resp. non pertinent)
étant donnée une requête. Nous nous intéressons qu’au cas où le document
D = d est activé, et nous le notons d.
Les noeuds E1 , E2 ,..., En représentent les éléments du document d. Chaque
noeud Ej représente une variable aléatoire binaire prenant des valeurs dans
l’ensemble {ej , ¬ej }. L’instanciation Ej = ej signifie que l’élément Ej est indexé
par au moins un noeud terme.
Les noeuds T1 , T2 ,..., Tm sont les noeuds termes d’indexation. Chaque noeud
terme Ti représente une variable aléatoire binaire prenant des valeurs dans le
domaine dom(Ti )={ti , ¬ti } où l’instanciation Ti = ti signifie que le terme Ti
est présent dans le noeud père auquel il est relié c’est-à-dire le noeud balise ej
contient ce terme ti . Il faut noter qu’un terme est relié aussi bien au noeud qui
le comporte ainsi qu’à tous les ascendants de ce noeud.
Une requête Q, prend ses valeurs dans le domaine dom(Q)={q, ¬q}. Nous
sommes intéressés par l’instanciation de la requête, nous ne considérons que
le cas où la requête est instanciée positivement Q = q, c’est-à-dire la requête
introduit de l’information à travers le RB, et nous noterons Q indifféremment
lorsque cela ne prête pas à confusion.
Le passage du document vers la représentation sous forme de RB se fait
de manière assez simple. Il consiste à garder la structure du document d et
assigner des valeurs aux différents noeuds.
1. DOM : Document Object Model
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
71
Figure 4.1 – Architecture simplifiée par document du modèle proposé
Considérons le sous-réseau composé du noeud document et des éléments.
Les arcs sont orientés du noeud document vers les noeuds éléments exprimant
les relations de dépendance entre les deux types de noeuds.
Considérons maintenant le sous-réseau composé des noeuds éléments et
termes d’indexation. Les termes de ce sous-réseau n’ont une existence que parce
qu’ils apparaissent dans ces noeuds éléments qui sont leurs parents. Chaque
élément ej (variable structurelle), ej ∈ E avec E = {e1 , ..., en } dépend directement de son noeud parent dans le RB du document d. Chaque terme ti ∈ T
avec T = {t1 , ..., tm }, dépend uniquement des éléments où il apparaı̂t. Il faut
également noter que la représentation fait apparaı̂tre un seul document (voir
figure 4.1). En fait, nous considérons que les documents sont indépendants les
uns des autres, et donc nous pouvons raisonner en considérant le sous-réseau
qui représente le document que nous le traitons.
Considérons à présent le sous-réseau constitué de la requête et ses termes
d’indexation. La requête exprime une demande d’information à travers une
liste de termes mais elle peut aussi en exclure d’autres. La requête propage
l’information aux noeuds termes qui figurent dans la collection. Ces noeuds
termes forment les noeuds parents de la requête. Un terme d’indexation de la
requête n’apparaissant pas dans un document donné sera considéré comme un
noeud terme racine, n’ayant pas de parents.
Le système est instancié par la soumission de la requête. L’instanciation de
la requête propage l’information à travers le réseau en activant les noeuds termes
d’indexation, parents de la requête. Cette instanciation consiste à injecter la
requête à travers les arcs activés du réseau pour rechercher les documents et
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
72
les éléments pertinents par rapport à la requête. Soit θi cette instanciation,
θi = {E1 , E3 , E5 } noté {e1 , e3 , e5 } est un exemple d’une configuration déduite
à partir de la figure 4.1. Une configuration donnée est considérée comme un
résultat de la recherche. L’ensemble des instances possibles est noté θ.
Nous supposons que la requête Q est composée d’une simple liste de motsclés : Q = {t1 , ..., tm }. L’importance relative des termes entre eux est ignorée et
nous notons T (Q) l’ensemble des termes d’indexation de la requête Q, et T (E)
l’ensemble des termes d’indexation des éléments du document d. Les termes de
la requête qui indexent les éléments de documents, ti ∈ (T (Q) ∧ T (E)), sont
évalués dans le contexte de leurs parents par P (ti |ej ), et séparés des termes de
la requête absents des éléments de documents.
4.3.3
Évaluation de la requête par propagation
L’évaluation de la requête est effectuée par la propagation de l’information
apportée par la requête à travers le réseau. Dans notre modèle, le processus de
propagation est similaire à la propagation probabiliste bayésienne [28, 33]. Le
processus d’évaluation consiste à propager l’information injectée par le noeud
requête vers le noeud document. Les arcs reliés à la requête sont instanciés
dans le but de calculer pour chaque configuration potentielle (instanciation de
noeuds éléments) sa valeur de pertinence et complémentarité étant donnée cette
requête. À l’issue du processus de propagation, chaque configuration aura un
score global de pertinence et de complémentarité. La configuration retenue est
celle qui présente le plus grand score. Cette configuration représentative d’un
document forme un agrégat. Cet agrégat est le résultat de la recherche dans ce
document pour une requête donnée.
Nous décrivons dans ce qui suit, les différentes étapes pour propager une
requête donnée vers le noeud document.
Le modèle est instancié à la réception de la requête. Il existe une configuration possible des parents de la requête qui correspond aux noeuds termes,
qui représentent la requête sous sa forme la plus stricte (exactement telle que
formulée par l’utilisateur).
Le processus de propagation évalue les valeurs de probabilité entre tous les
éléments d’une configuration θi . Dans ce modèle, la probabilité jointe d’observer
une requête Q et son résultat de recherche (réponse) θi dans un document d
est donnée par :
P (Q, θi , d) =
X
−−−→
T (Q)
P (Q|T (Q)) × P (T (Q)|θi ) × P (θi |d) × P (d)
(4.2)
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
73
−−−→
T (Q) représente l’ensemble des configurations possibles des parents de Q.
La quantification totale de la pertinence et complémentarité d’une configuration d’éléments revient à quantifier chaque membre de la formule 4.2. Afin
de simplifier notre modèle 2 , nous nous restreignons tout d’abord au cas où
T (Q) ne contient que des instanciations positives des termes figurant dans la
requête. Ensuite, des probabilités a priori sont affectées aux documents de la
collection, égales à P (d) = N1 (en fait, un seul document est instancié à la
fois, excluant l’instanciation des autres documents de la collection), mais elles
sont supprimées du calcul de la propagation globale parce que ce membre de
la formule 4.2 est considéré comme un coefficient uniforme appliqué à tous les
documents de la collection. Donc, la formule 4.2 sera simplifiée par :
P (Q, θi , d) = P (Q|T (Q)) × P (T (Q)|θi ) × P (θi |d)
(4.3)
La section 4.3.4 décrit les différentes façons que nous proposons pour estimer
la valeur de probabilité du premier membre de la formule 4.3. Par la suite,
nous donnons les pondérations attribuées aux termes d’indexation des éléments
dans les configurations dans la section 4.3.5. Ceci correspond bien au deuxième
membre de la formule 4.3. Dans la section 4.3.6, nous élaguons les configurations
qui sont superflus avec la contrainte structurelle de redondance. Finalement,
nous traitons le troisième membre de la formule 4.3. Il s’agit d’estimer la valeur
de la complémentarité entre les éléments d’une configuration donnée dans la
section 4.3.7.
4.3.4
Agrégation des termes de la requête
La probabilité de la requête étant donnée les termes d’indexation, P (Q|T (Q)),
dépend de l’interprétation de la requête. Plusieurs interprétations sont possibles. Les termes de la requête peuvent être connectés par une conjonction,
une disjonction, ou par une somme probabiliste, ou encore une somme probabiliste pondérée. Ces deux dernières agrégations ont déjà été proposées dans
les travaux de Turtle [220] et Boughanem et al. [36].
L’idée majeure de l’agrégation des termes de la requête est de mesurer
2. L’utilisation des RB en RI a été un challenge à cause de deux principaux
problèmes liés à leur utilisation : (i) le temps de calcul des distributions de probabilité et l’espace nécessaire à leur stockage augmentent d’une manière exponentielle
avec le nombre de noeuds dans le réseau ; (ii) la complexité de la propagation de l’information, c’est-à-dire les inférences nécessaires à propager l’information, dans un
réseau est un problème NP-complet [62] (Ceci parce que dans les réseaux généraux,
il peut exister plusieurs chemins entre les paires de noeuds du graphe).
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
74
la conformité d’une configuration possible, en l’occurrence celle trouvée dans
un élément donné, avec la configuration des termes de la requête. Pour ce
−−−→
faire, pour toute configuration, T (Q) de T (Q), la probabilité conditionnelle
P (Q|T (Q)) est spécifiée par des fonctions d’agrégation en fusionnant les fonctions de ressemblance élémentaires P (Q|Tk = tk ). Chaque P (Q|tk ) est le poids
de la conformité entre l’instance tk du terme Tk avec celle de la requête (dans
Q). Une fonction de ressemblance élémentaire évalue donc à quel point une instance d’un terme dans une configuration donnée ressemble à l’instanciation de
ce même terme dans la requête. Cette configuration est en fait la configuration
telle que trouvée dans un document.
Le stockage de toutes les configurations possibles des termes de la requête
est coûteux en espace et le temps de calcul croı̂t de manière exponentielle
avec le nombre de termes parents de la requête. En effet, une requête, Q de
domaine binaire, composée de 20 termes de domaines binaires aussi, nécessite
2×220 calculs de configurations possibles. Dans notre cas, nous nous intéressons
uniquement au cas Q = q, que nous notons Q pour simplifier. Une organisation
possible serait de pondérer chaque terme de la requête et de calculer le poids
de la jointure des termes de la requête. Lorsque l’utilisateur ne fournit aucune
information sur les opérateurs d’agrégation de sa requête, l’unique connaissance
disponible est l’importance du terme dans la collection. Cette connaissance est
disponible pour chaque terme.
Nous supposons aussi que les termes sont indépendants. En fait, les modèles
basés sur les RB existants supposent l’indépendance entre les termes pour faciliter les calculs, toutefois cette supposition entrave l’exactitude de ces modèles.
Mais, les conclusions des expérimentations sur différentes collections d’évaluation
sont mitigées. En effet, la prise en compte des relations de dépendances entre
les termes ne sont pas toujours avérées efficaces en termes de précision [41].
Le premier membre de la formule 4.3 sera transformé en :
P (Q|T (Q)) = P (Q|T1 , ..., Tm )
=
Y
P (Q|Tk )
(4.4)
Tk ∈T (Q)
Nous donnons dans ce qui suit les différentes techniques que nous proposons
pour agréger les termes de la requête. Ces techniques sont inspirées des travaux
de Boughanem et al. [36, 40]
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
4.3.4.1
75
Agrégations booléennes des termes de la requête
Conjonction : pour une requête booléenne, ET, le processus d’évaluation
restitue les éléments contenant tous les termes de la requête. Ainsi,
P (Q|Tk ) =
(
1
0
si
Tk = tk ,
sinon.
(4.5)
La probabilité de la requête Q étant donnée une configuration possible, T (Q),
−−−→
de T (Q) de tous ses parents est donnée par :
P (Q|T (Q)) =
(
1
0
si
∀Tk ∈ T (Q), Tk = tk ,
sinon.
(4.6)
Dans 4.6, il faut que chaque terme Tk parent de la requête Q soit instancié dans
T (Q) comme dans la requête. Les éléments pertinents pour ce type de requête
sont les éléments contenant simultanément tous ses termes.
Disjonction : pour une requête booléenne, OU, un élément est plus ou
moins pertinent s’il contient au moins un terme d’indexation de la requête. La
pertinence finale d’une configuration augmente avec le nombre de termes de
la requête présents. La conjonction pure est manipulée en remplaçant ∀ par ∃
dans la requête conjonctive 4.6.
P (Q|T (Q)) =
(
1
0
si
∃Tk ∈ T (Q), Tk = tk ,
sinon.
(4.7)
Cette interprétation est trop large pour discriminer entre les éléments. Dans le
cas de la disjonction, le système restitue les éléments contenant au moins un
terme de la requête. La configuration contenant tous les termes de la requête
peut être restituée avec un score de pertinence plus faible qu’une autre configuration ne contenant qu’un terme de la requête. Dans notre approche, le calcul
de la pertinence d’une configuration vis-à-vis d’une requête dépend de la valeur maximum des instances des configurations des parents de la requête. Ce
maximum atteint rapidement la valeur 1, il suffit pour cela qu’au moins un
terme de la requête soit instancié telle que dans la configuration. Le score de
pertinence finale d’une configuration donnée dépend des poids des termes de
la requête présents et absents dans l’ensemble d’éléments en question. Ainsi,
soit une requête Q composée des deux termes t1 , t2 . Il n’est pas impossible que
l’élément e1 contenant le terme t1 se retrouve avec un score de pertinence plus
élevé que celui d’un élément e2 contenant les deux termes de la requête.
Négation : la requête peut contenir la négation d’un terme, signifiant que
l’utilisateur ne veut pas voir ce terme dans l’élément restitué. Lorsque l’élément
contient ce terme alors la pertinence est nulle. La négation d’un terme est une
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
76
opération unaire. Ainsi :
P (Q|Tk ) =
(
1
0
si
Tk = ¬tk ,
sinon.
(4.8)
Le terme parent de la requête doit être instancié à non représentatif lorsque la
requête contient la négation du terme.
4.3.4.2
Quantification des termes de la requête
Supposons qu’une requête est satisfaite par un élément si elle contient au
moins K termes communs avec l’élément. Nous considérons une fonction croissante, f ( K(Tn(Q) ), tel que K(T (Q)) est le nombre de termes de la requête instanciés dans une configuration donnée de T (Q), et que la requête contient n
termes. Nous posons f (0) = 0 et f (1) = 1. f est un quantificateur flou [234].
Par exemple,
(
i
1
si
i ≥ K(Tn(Q)) ,
(4.9)
f( ) =
0
sinon.
n
Pour l’agrégation donnée par 4.9 il faut qu’au moins K termes de la requête
soient en conformité avec T (Q). D’une manière générale, f peut être une fonction non booléenne.
L’approche quantifiée pour calculer la probabilité d’une requête Q étant donnée
une configuration T (Q) de tous ses parents, est donnée par :
P (Q|Tk ) = f (
K(T (Q))
)
n
(4.10)
Le tableau 4.1 présente les résultats d’une quantification sur une requête Q
contenant trois termes T 1, T 2, T 3. Pour cette quantification, la configuration
est considérée “conforme” si au moins deux termes ont la même instanciation
que dans la requête. Le choix du nombre de termes satisfaits de la requête
reste arbitraire. Dans ce cas, cette attribution peut être une fonctionnalité du
système, ou bien l’utilisateur peut spécifier dans sa requête le nombre de termes
indexant l’élément à partir du quel il considère sa requête comme satisfaite. Par
exemple, il peut introduire des quantificateurs du type “au moins deux termes”.
D’autre part, cette quantification, comme dans le cas d’une agrégation disjonctive de la requête, ne permet pas de discriminer entre les documents de la
collection. En effet, seul le nombre de termes satisfaits est considéré. L’importance du terme satisfait (par exemple terme rare, terme fréquent dans la
collection) n’est pas considérée.
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
T1
T2
T3
P (Q|T (Q))
t1
t1
t1
t1
¬t1
¬t1
¬t1
¬t1
t2
t2
¬t2
¬t2
t2
t2
¬t2
¬t2
t3
¬t3
t3
¬t3
t3
¬t3
t3
¬t3
1
1
1
0
1
0
0
0
77
Table 4.1 – Agrégation quantifiée des termes de la requête P (Q|T (Q))
La combinaison des termes de la requête peut être basée sur le “noisy-Or”
[107, 36, 166]. Cet opérateur permet de quantifier les termes de la requête
instanciés dans une configuration donnée comme dans la requête. Par souci de
simplification de calcul, nous nous limitons à des agrégations booléennes dans
notre modèle.
4.3.5
Pertinence
Nous présentons dans cette section les pondérations que nous avons proposées pour les termes d’indexation. Ces pondérations sont reliées aux relations
de dépendance existantes entre un noeud terme et ses parents s’ils existent. En
effet, lors du calcul de la pertinence d’une configuration de termes dans une
configuration d’éléments, certains termes apparaissent dans les éléments et la
requête et d’autres n’apparaissent pas dans les éléments. Dans nos travaux actuels, les termes absents dans une configuration sont considérés lors des calculs
de la pertinence afin d’éviter le problème d’éléments nuls. Un terme en relation
sémantique ou statistique à un terme de la requête et présent dans un élément
peut apporter de l’information supplémentaire et peut constituer un élément
intéressant à intégrer dans le calcul de la pertinence d’une configuration donnée.
Pour évaluer la probabilité qu’une configuration de termes d’indexation
fasse partie dans une configuration d’éléments, le deuxième membre de la formule 4.3 sera transformé en :
P (T (Q)|θi ) = P (T1 , ..., Tm |θi )
=
Y
P (Tk = tk |θi )
Y
P (tk |θi )
Tk ∈T (Q)
=
tk ∈T (Q)
(4.11)
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
78
Dans une configuration donnée, un terme représentatif d’un élément est un
terme qui contribue à sa restitution en réponse à une requête. La probabilité que
le terme tk fasse partie d’une configuration θi est calculée par P (tk |θi ). En fait,
nous avons besoin de cette probabilité pour déterminer la pertinence de cette
configuration de termes d’indexation dans une configuration d’éléments. Cette
probabilité est estimée par : seulement les termes instanciés et qui apparaissent
à la fois dans la configuration de termes T (Q) et la configuration d’éléments θi
sont considérés. Nous supposons que les termes de T (Q) sont indépendants. La
probabilité P (tk |θi ) peut être estimée en utilisant une estimation du maximum
de vraisemblance sur la fréquence du terme ti dans θi . Ceci correspond au
premier facteur de la formule 4.12. Afin d’éviter le problème des fréquences
nulles des quelques termes (quand un terme ne figure pas dans une configuration
θi et éventuellement dans ses éléments), il faut ajouter la fréquence du terme
dans la collection avec celle calculée avec le document (premier facteur de la
formule 4.12). Ceci correspond au deuxième facteur de la formule 4.12. La
formule 4.12 correspond en fait à une technique de lissage de type Dirichlet
[238] mais appliquée à chaque élément XML.
tf (tk )
tf (tk , θi )
+ λt P
∀t∈d tf (t, d)
∀t∈C tf (t)
P
tf (tk )
∀e ∈θ tf (tk , ej )
+ λt P
= (1 − λt ) P j i
∀t∈d tf (t, d)
∀t∈C tf (t)
P (tk |θi ) = (1 − λt ) P
Avec :
(4.12)
1. tf (tk , θi ) est la fréquence du terme tk dans l’ensemble des éléments formant la configuration θi .
2. tf (t, d) est la fréquence du terme t dans le document d.
3. tf (tk , ej ) est la fréquence du terme tk dans l’élément ej .
4. tf (tk ) est la fréquence du terme tk dans la collection de documents C.
5. λt =
µ
.
|d|+µ
λt ∈ [0; 1] est un paramètre de lissage.
6. µ est une constante égale à µ=300.
4.3.6
Redondance
Définition 2 (Redondance) Nous considérons que deux éléments sont redondants si et seulement si ils véhiculent la même information.
Dans chaque configuration, nous nous sommes intéressés à l’agrégation
d’éléments qui ne véhiculent pas la même information. La redondance est
traitée dans notre modèle au niveau structurel avec une première hypothèse
(H1) quand un agrégat est construit à partir d’un document. Une deuxième
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
79
hypothèse (H2) sera appliquée au niveau du contenu quand notre processus
est généralisée : agrégat multi-documents 3 .
– H1 : cette hypothèse est qualifiée comme contrainte de structure ou d’inclusion permettant d’éliminer les redondances. Nous considérons que la
présence d’une relation ancêtre-descendant entre deux éléments signifie
que l’un est inclus dans l’autre. Autrement, nous supposons qu’un utilisateur préfère ne pas avoir des éléments imbriqués dans une configuration
donnée parce que ces éléments véhiculent les mêmes informations mais à
des granularité différentes. Par exemple, dans la figure 4.1, les éléments
e4 et e5 ne doivent pas figurer dans la même configuration. De même
pour l’élément e2 et e5 . Par contre, dans une telle configuration, nous
pouvons avoir à la fois les éléments e3 et e5 qui portent des informations
différentes.
– H2 : cette hypothèse est considérée comme une contrainte de contenu ou
de détection de nouveauté/redondance. Nous supposons qu’un utilisateur
préfère retrouver dans une configuration donnée des éléments non redondants à partir de plusieurs documents. Par souci de simplicité, nous supposons que la détection de nouveauté/redondance est effectuée entre les
éléments d’une configuration donnée qui sont censés être pertinents. Nous
formulons cette problématique par la mesure suivante Redondance(ei , θi )
basée sur l’hypothèse que la redondance d’un élément ej dépend de la
configuration θi . Dans la littérature et dans le cadre de la campagne
d’évaluation TREC, nous trouvons les approches les plus étroitement liés
à la détection de nouveauté/redondance de Clarke et al. [59] qui proposent
un cadre d’évaluation dans TREC afin de mesurer systématiquement la
nouveauté et la diversité. La mesure proposée se base sur le gain cumulé
nxCG (voir formule 2.14). Nous trouvons également d’autres approches
qui se basent sur la technique de clustering pour mesurer la redondance
d’un document par sa distance à chaque cluster dans [153, 204, 78]. Zhang
et al. proposent dans [239], une autre mesure de la redondance en se basant sur la distance entre un document et chacun des autres documents.
Pour simplifier notre modèle, nous utilisons la mesure de similarité cosinus 4 pour détecter la redondance entre les éléments de résultats de
recherche. Nous supposons que la redondance d’un élément ej dépend de
θi , l’ensemble des éléments qualifiés comme réponse à la requête Q. Nous
utilisons Redondance(ej , θi ) pour mesurer si ej est redondant avec θi . Une
façon de calculer cette redondance est de considérer ej et θi représentés
sous forme de vecteurs de termes.
−
→
→
Redondance(ej , θi ) = cosinus(−
ej , θi )
(4.13)
Une autre façon de faire ce calcul est de mesurer la similarité entre ej et
3. C’est un agrégat généré à partir de plusieurs documents.
4. cosine similarity, en anglais.
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
80
chacun des éléments ep de θi .
Redondance(ej , θi ) =
max
j6=p,∀ep ∈θi
→
→
cosinus(−
ej , −
ep )
(4.14)
Dans notre modèle, nous utilisons la formule 4.14 pour détecter les éléments
redondants dans une configuration donnée θi .
4.3.7
Complémentarité
Définition 3 (Compléméntarité) Nous considérons que deux éléments sont
complémentaires si et seulement si l’un apporte de l’information pertinente et
additionnelle à l’autre.
Le troisième membre de la formule 4.3, P (θi |d), mesure la complémentarité
entre les éléments d’une configuration possible. On considère que les éléments
regroupés dans une telle configuration sont indépendants alors les hypothèses
d’indépendance conditionnelle nous permettent ensuite d’écrire :
P (θi |d) =
Y
P (ej |d)
(4.15)
ej ∈θi
L’intérêt de propager une information complémentaire d’un élément ej vers la
racine du document d dans une configuration donnée θi indique à quel point
cet élément ajoute ce qu’il manquait en matière d’information à cette configuration. On suppose que les éléments loin du noeud racine du document d paraissent plus porteurs d’informations complémentaires que ceux situés là-haut
du document. Intuitivement, plus la distance entre un élément et la racine est
grande, plus il contribue à la complémentarité des éléments de la configuration
θi . Nous modélisons cette intuition par l’utilisation dans la fonction de propagation de complémentarité les deux variables dist(d, ej ) et dist(d, deepdown(ej )),
qui représentent respectivement la distance entre le noeud racine d et un de ses
noeuds descendants ej du document (relativement à une configuration donnée
θi ), et la profondeur maximale de la branche qui passe par le noeud interne ej
noté deepdown(ej ). La distance entre deux noeuds quelconques est déterminée
par le nombre d’arcs qui les séparent. La mesure de probabilité de propagation d’un élément ej , supposé complémentaire dans une configuration θi , vers
le noeud racine d est quantifiée comme suit :
P (ej |d) =
dist(d, ej )
dist(d, deepdown(ej ))
(4.16)
La formule 4.16 indique que plus un noeud est proche de la racine, moins il
contribue à la complémentarité d’une configuration donnée. À titre d’exemple et
dans la figure 4.1, les contributions des éléments E2 et E4 notés respectivement
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
81
e2 et e4 (dans ce cas, l’élément le plus profond est E5 et sera noté par e5 ), dans
la complémentarité d’une configuration θi seront estimés comme suit :
P (e2 |d) =
1
dist(d, e2 )
=
dist(d, e5 )
3
(4.17)
P (e4 |d) =
dist(d, e4 )
2
=
dist(d, e5 )
3
(4.18)
Finalement, la probabilité jointe de la formule 4.3 se simplifie en :
P (Q, θi , d) =
Y
tk ∈T (Q)
P (Q|tk ) ×
Y
tk ∈T (Q)
P (tk |θi ) ×
Y
P (ej |d)
(4.19)
ej ∈θi
Dans notre modèle la configuration qui sera sélectionnée est celle qui, comporte
les termes de la requête, maximise la pertinence et la complémentarité de ses
éléments et élimine ceux qui sont redondants. Cette configuration représentative
d’un document forme un agrégat : un résultat de la recherche de la requête dans
le document.
Les deux notions redondance et complémentarité seront discutées dans la
section 5.4.5 du chapitre suivant (5).
4.4
Illustration du modèle proposé
Le but de cette section est de faire une exécution à la main de notre modèle.
Pour illustrer notre approche, nous avons pris un exemple d’une requête de
type CO : “pyramids of Egypt”, cherchant des éléments (title, abstract, section, paragraph, etc.) dans des documents XML sur les pyramides d’Egypte.
Un exemple de document XML (un extrait d’un document) ainsi que le RB qui
lui est associé sont présentés respectivement dans les figures 4.2 et 4.3.
Figure 4.2 – Extrait d’un document XML
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
82
Figure 4.3 – Réseau bayésien relatif à la requête et au document XML
Pour cet exemple, l’ensemble des éléments relatifs au document est présenté
par E = {e1 = T itle, e2 = Abstract, e3 = Section, e4 = T itleSection, e5 =
P aragraph}. L’ensemble des termes d’indexation des éléments, calculé en utilisant le contenu de chaque élément ainsi que celui de ses éléments fils dans
chaque configuration, est tel que T (E) = {t1 = Egypt, t2 = P yramid, t3 =
T echnique, t4 = Construction}. L’ensemble des termes d’indexation de la
requête est T (Q) = {t1 = Egypt, t2 = P yramid}. On ne considère que quelques
termes pour ne pas encombrer l’exemple. Il s’agit de répondre à la requête Q
contenant une fois chacun des termes t1 et t2 .
La réception de la requête conduit à la propagation vers le noeud document. Le
processus de propagation de l’information apportée par la requête entraı̂ne le
calcul des probabilités conditionnelles de chaque configuration d’un document
étant donnée la requête selon la topologie du graphe dans la figure 4.3. Pour
calculer les valeurs de pertinence et complémentarité de chaque configuration
possible dans un document donné, nous avons besoin de calculer la probabilité
jointe P (Q, θi , d) donnée par la formule 4.19.
D’une manière générale, le processus d’évaluation des configurations étant donnée
une requête est déclenché pour tous les documents de la collection contenant
au moins un terme de la requête. L’instanciation positive d’un document D,
D = d, entraine le développement suivant :
Agrégation booléenne des termes de la requête : le tableau 4.2 donne
les valeurs de la probabilité conditionnelle de la requête Q dans le contexte de
ses parents, T (Q). Les valeurs sont proposées pour une agrégation booléenne
de type conjonctive, ET , et disjonctive, OU pour chaque configuration possible
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
83
des parents.
T1 T2
t1 t2
t1 ¬t2
¬t1 t2
¬t1 ¬t2
ET
OU
1
0
1
0
1
1
0
0
Table 4.2 – Probabilités conditionnelles des parents de la requête, T (Q)
Lorsque la requête est en conjonction de termes, il n’existe qu’une seule
configuration possible qui la satisfait, à savoir t1 , t2 . Dans l’exemple que nous
présentons, le seul élément du document qui n’est indexé ni par t1 ni t2 est
e4 . Logiquement, l’ensemble θ est égale à 25 − 1 configurations possibles parce
que nous avons cinq éléments dans T (E) et la configuration vide n’est pas
considérée. Et comme l’élément e4 n’est pas indexé par aucun élément de la
requête, le nombre des configurations possibles devient alors égale à 24 − 1.
Redondance : l’ensemble des configurations générées doit vérifier la première
hypothèse H1. Cette hypothèse, qualifiée comme étant une contrainte d’inclusion, exige que deux éléments dans une même configuration possible θi ne se
chevauchent pas (not overlapping). En appliquant H1, pas mal des configurations seront élaguées à partir de θ. Nous avons réellement 11 configurations
possibles parmi les 24 − 1. En effet, dans une configuration donnée de la figure 4.3, nous ne pouvons pas avoir les deux éléments e3 et e5 parce qu’ils se
chevauchent.
Le tableau 4.3 donne toutes les configurations possibles θ déduites à partir
de la figure 4.3 qui respecte l’hypothèse H1.
Pertinence des termes dans les configurations : Le tableau 4.4 donne
les probabilités conditionnelles des termes instanciés positivement étant donné
une une configuration possible.
Nous rappelons qu’un terme est relié aussi bien au noeud qui le comporte
ainsi qu’à tous les ascendants de ce noeud. Certaines valeurs considérées dans
le tableau 4.4 sont prises à titre d’exemple. Elles ne correspondent pas toujours
aux résultats des formules considérées car nous ne disposons pas de tous les
paramètres pour effectuer le calcul.
Un point intéressant qui peut être remarqué, c’est que quand un terme de
requête ne figure pas dans une configuration donnée, cette probabilité est lissée
par la fréquence des termes dans la collection comme défini par la formule 4.12.
Ces valeurs ne laissent pas de place pour une telle ignorance possible.
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
θi
e1
e2
e3
e5
θ1
θ2
θ3
θ4
θ5
θ6
θ7
θ8
θ9
θ10
θ11
1
1
1
1
1
1
0
0
0
0
0
1
1
1
0
0
0
1
1
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
1
84
Table 4.3 – Ensemble des configurations possibles
P (tk |θi )
P (tk |θ1 )
P (tk |θ2 )
P (tk |θ3 )
P (tk |θ4 )
P (tk |θ5 )
P (tk |θ6 )
P (tk |θ7 )
P (tk |θ8 )
P (tk |θ9 )
P (tk |θ10 )
P (tk |θ11 )
t1
0,17
0,22
0,19
0,114
0,121
0,24
0,075
0,091
0,094
0,026
0,049
t2
0,25
0,34
0,219
0,108
0,17
0,1001
0,121
0,143
0,0911
0,0897
0,081
Table 4.4 – Distribution de probabilité P (tk |θi )
Complémentarité : la tableau 4.5 présente les probabilités conditionnelles
d’un élément étant donné la racine du document où il apparaı̂t. Les valeurs
déterminées dans ce tableau sont basées sur la formule 4.16 à partir de la figure
4.3.
Sélection de l’agrégat : la probabilité jointe de la formule 4.19, pour chaque
configuration, est déterminée dans le tableau 4.6. Ainsi, la configuration qui sera
qualifiée comme réponse à la requête dans le document D est celle qui possède le
meilleur score. Nous appelons cette configuration agrégat. Dans notre exemple,
θ2 est qualifié comme agrégat.
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
ei
e1
e2
e3
e5
85
P (ej |d = Article)
1
=1
1
1
=1
1
1
=0,5
2
2
=1
2
Table 4.5 – Distribution de probabilité P (ej |d)
θi
θ1
θ2
θ3
θ4
θ5
θ6
θ7
θ8
θ9
θ10
θ11
Score
0,02125
0,0748
0,04161
0,006156
0,02057
0,024024
0,0045375
0,013013
0,0085634
0,0011661
0,003969
Table 4.6 – Calcul du score de chaque configuration possible
D’une manière générale, les agrégats sont alors restitués par ordre décroisant de
leur probabilité de pertinence et complémentarité. Nous montrons dans le chapitre des expérimentations (Chapitre 5) des agrégats assemblant des éléments
pertinents, non redondants et complémentaires et nous discutons leurs effets
sur les performances du système de RI ainsi que l’utilité d’une telle agrégation
dans des documents XML.
4.5
Conclusion
Nous avons décrit dans ce chapitre un nouveau modèle de RI agrégée
dans des documents XML. Ce modèle traite la pertinence, la redondance et
la complémentarité des éléments assemblés dans des agrégats d’une manière
originale basée sur la théorie des probabilités et particulièrement les réseaux
bayésiens. Les noeuds dans ce réseau représente un document XML, ses éléments,
les termes d’indexation et la requête. Les arcs entre les noeuds permettent de
représenter les relations de dépendances entre les différents noeuds. Ces noeuds
sont quantifiés par une mesure de probabilité afin de calculer un score pour
chaque configuration possible. La configuration qui possède le meilleur score
et qui répond à la première contrainte d’inclusion structurelle, sera qualifiée
Chapitre 4. Un Modèle de RI agrégée basé sur les RB
86
comme le résultat de recherche dans le document d étant donné une requête
Q. Et cette configuration sera appelé agrégat. Nos contributions peuvent être
essentiellement en trois directions :
– assembler des éléments pertinents par documents ;
– élaguer ceux qui sont redondants en appliquant l’hypothèse H1. Si nous
souhaitons générer des agrégats multi-documents, nous appliquons dans
ce cas l’hypothèse H2 ;
– favoriser dans la formule de calcul de score d’une configuration (cf. formule 4.15) les éléments qui se complètent mutuellement pour avoir une
réponse plus complète (pertinence additionnelle).
Il est indéniable que les points cités ci-dessus sont étroitement liés. Finalement,
nous avons tenté de proposer des poids aux termes dans le but de calculer
le degré de spécificité dans une collection des documents. Ces poids ont été
utilisés dans notre approche pour mesurer l’absence des termes de la requête
des éléments d’une configuration lors de calcul des valeurs de pertinence (cf.
formule 4.12). D’autre part, nous avons considéré que la restitution d’un agrégat
en réponse à une requête peut être considérée dans un cadre d’inférence. En
effet, la restitution d’un agrégat est “causée” par la soumission d’une requête
au système. Les techniques sur lesquelles se basent la plus part des modèles
en littérature pour restituer des agrégats ou une liste d’éléments en réponse
à un besoin informationnel ne traitent pas les deux notions : redondance et
complémentarité, alors que le mien les permis. Plutôt, ils se limitent à la notion
pertinence.
Le dernier chapitre est consacré à la phase de mise à l’épreuve de nos propositions sur la collection de test INEX 2009.
Chapitre 5
Expérimentations
5.1
Introduction
Les expérimentations que nous décrivons dans ce chapitre ont été effectuées
sur la collection de test fournie dans la cadre de la campagne d’évaluation
INEX 2009. Nous avons développé un système de recherche agrégée basée sur
le modèle inférentiel que nous avons proposé.
Nous avons mené deux types d’expérimentations. La première série d’évaluation mesure les performances de notre modèle en comparant notre résultat avec
les meilleurs résultats enregistrés par les participants à INEX 2009. La seconde
série d’évaluation concerne du coeur de notre modèle, évaluer l’intérêt de la
pertinence d’un agrégat pour répondre à une requête ainsi que les impacts de la
redondance et la complémentarité sur les performances des résultats enregistrés.
Ce chapitre est organisé comme suit. La section 5.3 présente la première série
d’évaluation. Dans cette section, nous décrivons rapidement la collection de
test utilisée, à savoir INEX 2009, la stratégie d’évaluation utilisée ainsi qu’une
évaluation comparative avec les meilleurs résultats enregistrés selon la stratégie
Focused. La seconde série d’expérimentations est décrite dans la section 5.4, en
l’absence de protocole ainsi que de collections de test appropriés, nous avons
élaboré notre propre cadre. Nous avons exploité aussi la collection INEX 2009
pour ce cadre. Dans cette section, nous présentons le protocole d’évaluation
ainsi que l’analyse des résultats enregistrés de différentes expérimentations dans
ce cadre afin d’évaluer l’impact de la RI agrégée.
Chapitre 5. Expérimentations
5.2
88
Collection de test
Pour l’évaluation des performances, nous nous appuyons sur la collection
de test fournie dans le cadre de la campagne d’évaluation INEX 2009.
5.2.1
Collection de documents
À partir de 2006 et jusqu’à 2008, la collection “Wikipedia” [69] a été utilisée
dans la plupart des tâches. Cette collection de 6 Go, est composée de 659 388
documents d’une profondeur (nombre de niveaux) moyenne de 6,72. Le nombre
moyen de nœuds XML par document est 161,35. Cette collection est également
utilisée dans la tâche multimedia, elle contient environ 246 730 images.
En 2009, une extension de la collection Wikipedia est fournie [199]. Elle
comporte 2 666 190 articles Wikipedia annotés et ayant une taille totale aux
alentours de 50,7 Go. Cette collection contient 101 917 424 éléments XML
ayant au moins 50 caractères (y compris les espaces blancs). Cette collection
est utilisée dans la tâche adhoc ainsi que dans d’autres tâches.
5.2.2
Topics
Les topics adhoc ont été créés par les participants suivant des instructions
précises. Les topics contenaient une courte requête CO, une option de requête
structuré CAS, un titre, une ligne décrivant la requête et le récit avec quelques
détails de la requête et le contexte de travail dans lequel le besoin d’information se pose. Pour les topics sans le champ < castitle >, par défaut requête
CAS est ajouté sur la base de la requête CO : //*[about(., ”CO-requête”)].
La figure 5.1 présente un exemple d’une topic adhoc. En fait, 115 topics ont
été sélectionnés pour faire l’évaluation dans la campagne INEX 2009 et sont
numérotées 2009001-2009115 [85].
Chapitre 5. Expérimentations
89
Figure 5.1 – Topic 2009114 de la campagne INEX 2009
5.3
Évaluation du modèle selon la stratégie de
recherche Focused d’INEX
En absence de cadre approprié pour l’évaluation de la pertinence des agrégats,
nous avons adapté notre agrégat pour répondre à la stratégie de recherche Focused définis dans la cadre d’INEX.
Nous allons décrire dans ce qui suit la stratégie de recherche Focused, la collection évaluée ainsi que la manière dont nous avons adapté notre résultat pour
pouvoir effectuer ces évaluations.
5.3.1
Stratégie de recherche Focused d’INEX
Plusieurs stratégies de recherche sont proposées dans la tâche ad-hoc, parmi
lesquelles on peut citer la stratégie “focused”. Cette stratégie consiste à décider
quels éléments doivent être retournés en se focalisant sur le besoin de l’utilisateur. Ces éléments doivent être les plus exhaustifs et spécifiques et ne doivent
pas être imbriqués les uns dans les autres. Ce type de recherche suppose que
l’utilisateur préfère l’élément (un seul) le plus pertinent d’un sous arbre pertinent [112].
5.3.2
Adaptation de notre résultat
Nous rappelons que dans notre approche, nous renvoyons des agrégats. Un
agrégat comporte un ensemble d’éléments non redondants et complémentaires.
Dans cette expérimentation, nous trions les éléments d’un agrégat selon un score
de pertinence. Ainsi, nous comparons les éléments de notre agrégat avec la liste
d’éléments renvoyés par les meilleurs résultats enregistrés par les participants à
Chapitre 5. Expérimentations
90
INEX 2009. Pour que les résultats soient comparables, nous avons transformé
nos agrégats sous forme d’une liste. Pour cela, nous parcourons les agrégats en
largeur et en longueur afin de construire une liste d’éléments équivalente à celle
retournée par les participants selon la stratégie de recherche Focused.
5.3.3
Résultats
Dans cette expérimentation, nous utilisons les mesures officielles pour l’évaluation de notre résultat à savoir la précision interpolée selon certains niveaux de rappel sélectionnés iP [x] et la moyenne de ces précisions interpolées
moyennées M AiP selon 101 niveaux de rappel [112]. L’intérêt de ces mesures
est d’évaluer la pertinence des fragments de document et pas du document entier. Pour cela, le rappel et la précision ne sont pas calculés en terme de nombre
de documents mais plutôt en terme de quantité d’information exprimée grâce
au nombre de caractères. Ces mesures sont déjà présenté dans le chapitre 2,
section 2.7.4.2.
Le tableau 5.1 présente les meilleures résultats obtenus par les participants
à INEX 2009 selon la stratégie Focused en utilisant uniquement des requêtes
CO. La dernière ligne de ce tableau présente les résultats enregistrés par notre
approche. La première colonne détermine le rang des runs. La deuxième colonne
donne l’identifiant de chaque run. De la troisième à la cinquième colonne, nous
donnons la précision interpolée aux points de rappel 0%, 1% et 5%. La dernière
colonne donne la M AiP sur les 101 niveaux de rappel (0%, 1%, ..., 100%).
D’après les résultats enregistrés, l’approche proposée est moins performantes
que les approches existantes. En comparant notre résultat aux autres, nous remarquons que seulement sept résultats utilisent des requêtes de type CO. Les
trois résultats suivants : le cinquième (p6-UamsFSsec2docbi100), le sixième (p5BM25BOTrangeFOC) et le septième (p16-Spirix09R001) utilisent des requêtes
de type CAS. Le premier résultat (p78-UWatFERBM25F) effectue une recherche par passage (passage retrieval). Le deuxième résultat (p68-I09LIP6Okapi), le quatrième résultat (p60-UJM15525) et le septième résultat (p16Spirix09-R001) récupèrent seulement des articles complets. Par élimination, il
nous reste à comparer notre résultat avec ceux qui sont les plus spécifiques, à
savoir le troisième (p10-MPII-COFoBM), le huitième (p48-LIG-2009-focused1F), le neuvième (p22-emse2009-150) et le dixième (p25-ruc-term-coF), puisque
notre approche récupère uniquement les éléments les plus spécifiques. Ça montre
bien que notre résultat vient juste après ces quatre.
Chapitre 5. Expérimentations
Rang
1
2
3
4
5
6
7
8
9
10
11
Participant
p78-UWatFERBM25F
p68-I09LIP6Okapi
p10-MPII-COFoBM
p60-UJM-15525
p6-UamsFSsec2docbi100
p5-BM25BOTrangeFOC
p16-Spirix09R001
p48-LIG-2009-focused-1F
p22-emse2009-150
p25-ruc-term-coF
Notre résultat
91
iP[0,00]
0,6797
0,6244
0,6740
0,6241
0,6328
0,6049
0,6081
0,5861
0,6671
0,6128
0,5659
iP[0,01]
0,6333
0,6141
0,6134
0,6060
0,5997
0,5992
0,5903
0,5853
0,5844
0,4973
0,4935
iP[0,05]
0,5006
0,5823
0,5222
0,5742
0,5140
0,5619
0,5342
0,5431
0,4396
0,3307
0,3112
MAiP
0,1854
0,3001
0,1973
0,2890
0,1928
0,2912
0,2865
0,2702
0,1470
0,0741
0,06547
Table 5.1 – Comparaison des résultats enregistrés dans le cas de la tâche CO
de la collection INEX 2009 selon la stratégie Focused
5.4
Évaluation du modèle d’agrégation
En raison de l’absence d’un cadre approprié pour évaluer la pertinence des
agrégats, nous avons adopté une stratégie d’évaluation basée sur l’utilisation
des utilisateurs sollicités pour évaluer la pertinence des éléments agrégés.
Pour réaliser cette série d’expérimentations, nous avons sélectionné un ensemble de vingt requêtes CO. Ces requêtes sont numérotés 2009n avec n :
001-006, 010-015, 020, 023, 026, 028, 029, 033, 035, 036. Pour les participants,
nous avons sollicité vingt-trois utilisateurs (doctorants et étudiants en M2) de
notre laboratoire pour évaluer ces requêtes. La tâche d’évaluation est la suivante. Pour chaque requête soumise au système, le résultat de la recherche est
une liste ordonnée des agrégats (voir formule 4.19). En moyenne, cinq agrégats
par requête évalués par les utilisateurs. Chaque requête a été évaluée par quinze
utilisateurs.
L’utilisateur juge chaque agrégat en fonction de trois dimensions : la pertinence (voir la section 5.4.2 pour plus de détails), la redondance (voir la section
5.4.3 pour plus de détails) et la complémentarité (voir la section 5.4.4 pour plus
de détails).
Chapitre 5. Expérimentations
5.4.1
92
Distribution d’éléments
Dans cette expérimentation, nous mesurons le nombre moyen d’éléments retourné par agrégat et par requête. L’objectif est d’étudier l’effet de la première
hypothèse H1 (voir section 4.3.6). En fait, les agrégats ne sont pas des éléments
uniques. Nous arrivons à récupérer un agrégat par document qui est souvent formé de plusieurs éléments. Ensuite, nous construisons une série de cinq
agrégats par requête. Nous faisons la somme des éléments constituant les agrégats
formés et nous divisons cette somme par cinq afin de déterminer le nombre
moyen d’éléments par agrégat et par requête.
La figure 5.2 présente la répartition des vingt requêtes CO sur la base des
éléments retournés. En moyenne, il y avait cinq éléments par agrégat qui
sont retournés. Nous constatons que pour les requêtes suivantes : Q001, Q002,
Q003, Q010, Q012, Q014, Q020, Q026, Q028, Q033, Q035 et Q036, le nombre
d’éléments retournés est inférieur à la moyenne globale. Ceci est du en raison
de l’hypothèse H1 qui permet d’élaguer les éléments qui se chevauchent.
Figure 5.2 – Impact de l’hypothèse H1 sur le nombre d’éléments par agrégat
et par requête
Chapitre 5. Expérimentations
5.4.2
93
Évaluation de la pertinence d’agrégats
Notre objectif dans cette section est d’évaluer la pertinence d’un agrégat.
Pour cela, nous avons demandé aux utilisateurs de juger la pertinence d’un
agrégat en fonction de trois niveaux de pertinence définis comme suit :
Définition 4 (Agrégat totalement pertinent) Un agrégat est totalement
pertinent si tous ses éléments sont pertinents.
Définition 5 (Agrégat partiellement pertinent) Un agrégat est partiellement pertinente s’il contient des éléments pertinents.
Définition 6 (Agrégat non pertinent) Un agrégat est non pertinent s’il ne
contient que des éléments non pertinents.
Dans cette première expérimentation, nous étudions la pertinence des agrégats avant d’appliquer l’hypothèse H2 (voir section 4.3.6). Ainsi, il est possible
d’avoir des éléments redondants dans un agrégat. La figure 5.3 liste le pourcentage d’agrégats pertinents, non pertinents et partiellement pertinents par
requête sur l’ensemble des utilisateurs.
Les premiers résultats intéressants montrent que 87% d’agrégats sont pertinents, soit 29% totalement ou 58% partiellement pertinents. Les résultats
montrent que seulement 13% des agrégats ne sont pas pertinents (la moyenne
de la partie verte de la figure 5.3).
Figure 5.3 – Distribution de la pertinence d’agrégats par requête
Chapitre 5. Expérimentations
94
Afin d’obtenir une analyse plus fine de ces résultats, nous étudions le nombre
d’éléments pertinents renvoyés par agrégat et par requête. Pour cela, nous
mesurons la précision dans les top-5 agrégats. Nous définissons tout d’abord la
précision d’un agrégat k par :
Pag(k)
N ombre d′ éléments pertinents dans ag(k)
=
N ombre total d′ éléments dans ag(k)
(5.1)
où ag(k) est un agrégat au rang (k).
La précision moyenne pour une requête q, notée APq @k, est calculée par la
moyenne des précisions pour les top-k agrégats comme suit :
APq @k =
Pk
Pag(i)
|k|
i=1
(5.2)
Ainsi, la moyenne des précisions moyennes M AP @k pour toutes les requêtes
est calculée comme suit :
M AP @k =
P
APq @k
|Q|
q∈Q
(5.3)
Avec :
1. APq @k est la précision moyenne pour une requête q.
2. Q est l’ensemble des requêtes.
Dans cette deuxième expérimentation, nous testons la précision par requête
pour les top-k agrégats à Pag(1) , Pag(2) , Pag(3) , Pag(4) et Pag(5) . Les résultats sont
présentés sur la figure 5.4.
Figure 5.4 – Pertinence d’agrégats par requête à Pag(1) , Pag(2) , Pag(3) , Pag(4) ,
Pag(5)
Chapitre 5. Expérimentations
95
Pour les vingt requêtes de test et en utilisant la mesure proposée dans la
formule 5.1 à Pag(1) , huit requêtes avaient plus de 40% des éléments pertinents,
onze requêtes avaient entre 10% et 40% des éléments pertinents. À Pag(5) , parmi
les vingt requêtes de test, une seule a plus de 40% des éléments pertinents,
onze requêtes avaient entre 10% et 40% d’éléments pertinents, et huit requêtes
ont moins de 10% des éléments pertinents par agrégat. La plus grande (resp.
faible) valeur AP @5 est pour le Q012 requête (resp. Q006) et elle est égale
à 0,576 (resp. 0,121). La M AP @5 pour les vingt requêtes est égale à 0,28.
Ainsi, notre approche renvoie plus d’éléments pertinents dans le premier top-k
agrégats, guide l’utilisateur à identifier les éléments pertinents d’un document
XML et réduit également les efforts déployés par l’utilisateur afin de localiser
les informations recherchées. Toutefois, dans certains cas, Q010 et Q020, le
précision Pag(3) est supérieure à Pag(1) .
Ces résultats sont évalués par l’utilisateur sans se demander si un agrégat
contient des éléments redondants et/ou complémentaires. Ces questions sont
abordées dans les expérimentations ci-après.
5.4.3
Impact de la redondance
Cette troisième expérimentation est conçue comme un test de cohérence de
la redondance au niveau des résultats retournés. En effet, nous avons fourni
deux degrés pour mesurer la redondance au sein d’un agrégat : redondants
et non-redondants. Nous avons demandé aux utilisateurs de vérifier chaque
agrégat et répondre à la question de la redondance :
Définition 7 (Redondants) Si un utilisateur juge qu’un ou quelques éléments
d’un agrégat n’apportent pas de nouvelles informations.
Définition 8 (Non-redondants) Si chaque élément d’un agrégat apporte une
nouvelle information.
Pour chaque requête, chaque utilisateur est invité à évaluer la redondance
entre les éléments de premier agrégat (top-1 agrégat). Il convient de noter que
nous ne regardons pas si les éléments sont pertinents. La figure 5.5 montre
les résultats qui sont très intéressants. En effet, nous constatons que 90,85%
des jugements considèrent que les agrégats renvoyés contiennent des éléments
qui ne véhiculent pas la même information. Il est tout à fait logique, car à
ce moment-là, nous avons travaillé avec un document unique. Même si cela se
produit, la première hypothèse H1 a déjà été appliquée afin d’éviter l’inclusion
structurelle entre les éléments d’un même agrégat.
Chapitre 5. Expérimentations
96
Figure 5.5 – Distribution des jugements de la redondance par requête
En ce qui concerne l’hypothèse H2, son impact est minime (même sans effet), mais la question qui se pose : À quoi elle sert ? Tout simplement, notre
modèle est censé également fonctionner si l’agrégat est construit à partir de plusieurs documents (multi-documents). Dans ce cas, il est fort probable d’avoir
d’éléments qui portent la même information et le recours à cette hypothèse sera
indispensable.
5.4.4
Impact de la complémentarité
Dans cette quatrième expérimentation, nous voulons évaluer si les éléments
de l’agrégat sont complémentaires afin d’avoir une vue d’ensemble sur les
résultats retournés. Nous avons également cherché à mesurer l’intérêt d’un
agrégat par rapport à des éléments pris individuellement. Pour cela, nous
présentons chaque top-1 agrégat de toutes les requêtes à chaque utilisateur
et nous lui posons la question suivante : Est-ce que les éléments d’un agrégat se
complètent ? En d’autres termes, si chaque utilisateur trouve de l’information
pertinente et additionnelle, par rapport à son besoin d’information, entre les
éléments de l’agrégat.
La distribution des jugements de la complémentarité entre les vingt requêtes
est présenté dans la figure 5.6. Nous avons constaté que les utilisateurs considèrent
que les éléments du top-1 agrégat apportent des informations pertinentes et
supplémentaires pour plus de 62,42% des jugements 1 . On remarque que pour la
plupart des requêtes, ces éléments peuvent être sémantiquement complémentaires.
Cela prouve la capacité de notre modèle à agréger d’éléments qui se complètent
1. Nombre totale de jugements = 15 utilisateurs × 20 requêtes, soit au total 300
jugements
Chapitre 5. Expérimentations
97
Figure 5.6 – Distribution des jugements de la complémentarité par requête
mutuellement c’est-à-dire chaque élément est qualifié pour fournir des informations pertinentes et supplémentaires.
5.4.5
Complémentarité vs. Redondance
Une des questions que nous aimerions discuter dans cette section porte sur la
différence entre la redondance et la complémentarité, en d’autres termes si nous
avons besoin de ces deux notions ou une seule d’entre elles est suffisante. Afin de
mieux comprendre la différence, considérons une requête ambigüe, par exemple
la requête “jaguar” (voiture vs animal), il y aura plusieurs éléments retournés
qui parlent de l’usine automobile ou du parc animalier dans chaque agrégat.
Dans ce cas, ces éléments seront non-redondants parce que chaque élément
porte une nouvelle information par rapport au sujet de la requête. Mais, cela ne
signifie pas que ces éléments sont complémentaires, car ils n’apportent aucune
information supplémentaire vis-à-vis le besoin informationnel de l’utilisateur.
Mais si nous avons un autre élément qui apporte l’adresse d’une usine ou d’un
parc. Dans ce cas, on peut considérer que ce dernier élément est complémentaire
aux éléments déjà récupérés (si nous parlons des voitures ou des animaux).
Maintenant, revenons aux deux figures 5.5 et 5.6, et vérifions le comportement des deux requêtes, à savoir, Q012 et Q035. Les agrégats de ces requêtes
sont totalement non-redondants (voir figure 5.5), mais ils se comportent différemment sur le facteur de complémentarité. La figure 5.6 montrent que les éléments
de l’agrégat de la requête Q012 sont complémentaires à 100% alors que pour
l’agrégat de la requête Q035, 67% de ses éléments sont complémentaires. La
Chapitre 5. Expérimentations
98
principale conclusion qu’on peut en tirer est que deux éléments sont complémentaires alors ils doivent d’abord être non-redondants. Et donc, la non-redondance
est une condition nécessaire mais non suffisante pour la complémentarité.
5.4.6
RI agrégée vs. Liste ordonnéee
L’objectif principal de ce travail est de fournir aux utilisateurs d’agrégats au
lieu d’une liste d’éléments pris séparément. La principale question que nous tentons d’évaluer dans cette cinquième expérimentation concerne l’intérêt de renvoyer des résultats agrégés par rapport à la traditionnelle liste triée d’éléments.
Cette tâche n’est pas destinée à évaluer la façon de présenter les résultats (à
travers une interface), mais l’utilité d’assembler les éléments dans des agrégats
par rapport à une liste ordonnée. Donc, nous avons demandé aux utilisateurs
de répondre à la question suivante : Que préférez-vous la recherche agrégée ou
une liste ordonnée ?
Rappelons que pour chaque requête (parmi les vingt requêtes), nous avons
quinze participants qui répondront à la question ci-dessus. Soit un total de
300 jugements. Dans 177 de jugements (soit 59%), les utilisateurs préfèrent les
résultats retournés soient assemblés en agrégats qu’une simple liste ordonnée
(cf. figure 5.7). Cela montre implicitement que la recherche agrégée est utile
parce que souvent un seul élément ne suffit pas, alors que les éléments d’un
agrégat peuvent se compléter mutuellement pour aboutir à une réponse plus
complète. En résumé, la recherche agrégée fournit de meilleurs résultats que la
RI structurée dans la majorité des requêtes.
Figure 5.7 – Utilité de la RI Agrégée
Chapitre 5. Expérimentations
5.4.7
99
Dégré d’accord entre participants et temps consacré
à chaque requête
Dans cette expérimentation, nous essayons de déterminer le degré d’accord
entre les jugements des utilisateurs à l’aide de coefficient de Kappa (K). Nous
utilisons le coefficient Kappa de Fleiss [76] comme mesure pour évaluer la fiabilité entre un nombre fixe d’utilisateurs. Cette mesure est utilisée pour mesurer
l’accord entre deux participants. Dans [129], les auteurs ont donné les intervalles
suivants pour interpréter les valeurs de K. K < 0 (désaccord), K ∈ [0, 01; 0, 2]
(accord très faible), K ∈ [0, 21; 0, 4] (accord faible), K ∈ [0, 41; 0, 6] (accord
modéré), K ∈ [0, 61; 0, 8] (accord fort) et K ∈ [0, 81; 1] (accord presque parfait). Notons que la durée d’une session est le temps moyen nécessaire pour
qu’un utilisateur évalue une requête pour chaque expérimentation. La durée de
chaque session ainsi que le degré d’accord pour chaque expérimentation sont
présentés dans le tableau 5.2.
Expérimentation
Durée (en secondes)
Degré d’accord
1
315
0,40
2
264
0,36
3
24
0,60
4
37
0,44
5
167
0,46
Table 5.2 – Durée et degré d’accord basés sur des contextes réels (user studies)
Le degré d’accord de nos expérimentations n’affecte pas la validité des
résultats mentionnés dans les sections précédentes parce qu’en RI la valeur
de K est toujours faible entre les utilisateurs. Ce même constat est également
reconnu dans le cadre de campagnes d’évaluation tels que INEX et TREC [130].
Pour conclure, les utilisateurs sont en accord faible pour évaluer les expérimentations 1 et 2 sur la pertinence des agrégats. En outre, ces deux expérimentations sont assez longues car l’évaluation concerne les top-5 agrégats. D’autre
part, les deux autres expérimentations 3 et 4 sont plutôt rapides parce que
l’évaluation porte uniquement sur le top-1 agrégat de chaque requête et elles
sont en accord modéré. En ce qui concerne la dernière expérimentation, le
temps d’évaluation est moyen par rapport aux autres et il fait également partie
de l’accord modéré.
5.4.8
Discussion
A notre connaissance, notre approche est parmi les premières qui abordent
le problème de la recherche agrégée dans des documents XML. L’évaluation
Chapitre 5. Expérimentations
100
expérimentale montre que la recherche agrégée peut contribuer dans la recherche d’information dans des documents XML. En effet, nous exigeons qu’un
agrégat soit qualifié comme réponse à une requête s’il répond à trois caractéristiques a savoir la pertinence, non redondante et complémentarité. Pour répondre
à la première caractéristique, nous essayons d’identifier les éléments les plus significatifs dans l’agrégat sélectionné à partir d’un document XML. Dans ce
cas, un agrégat pertinent permet d’améliorer l’interprétation des résultats, guider l’utilisateur à identifier les éléments pertinents dans un document XML et
réduire également les efforts déployés par l’utilisateur qui doit fournir pour localiser les informations souhaitées. Pour satisfaire la deuxième caractéristique,
nous avons besoin de générer des agrégats sous contraintes les deux hypothèses
H1 et H2. Pour remplir la troisième caractéristique, nous exigeons que les
éléments d’un agrégat apportent des informations pertinentes et additionnelles
entre eux. Toutefois, dans quelques cas si des éléments ne sont pas complémentaires ceci ne veux pas dire que ces éléments ne sont pas sémantiquement liés
à la requête de l’utilisateur.
Ce type d’agrégation est très utile car il permet une distinction très fine de
différentes thématiques exprimées dans la requête de l’utilisateur lorsque son
besoin en information est générique. Il vise également à donner à l’utilisateur un
aperçu sur les différentes informations disponibles dans le corpus de documents
et qui sont liées à son besoin. Dans le cas échéant, il peut reformuler sa requête.
5.5
Conclusion
Nous avons abordé la problématique d’évaluation des agrégats générés à
partir des documents XML. Nous avons pris en considération l’évaluation des
agrégats selon trois caractéristiques à savoir la pertinence, la redondance et la
complémentarité.
Nous avons fourni un cadre d’évaluation spécifique à la recherche agrégée à
l’aide de plusieurs séries d’expériences. D’une manière générale, ces expérimentations permettent de démontrer que :
– l’utilisateur peut trouver dans les agrégats générés plus d’informations
pertinentes et réduit ainsi l’effort à fournir afin de satisfaire son besoin
d’information (voir section 5.4.2) ;
– dans la plupart des agrégats renvoyés, ses éléments ne véhiculent pas la
même information (voir section 5.4.3) ;
– dans plus la moitié des agrégats sélectionnés, ses éléments portent des
informations pertinentes et additionnelles (voir section 5.4.4) ;
– l’intérêt de la RI agrégée par rapport à la RI structurée (voir section
5.4.6).
Conclusion générale
Synthèse
Les travaux présentés dans cette thèse s’inscrivent dans le contexte général
de la RI et plus particulièrement dans le cadre de la RI agrégée dans des
documents semi-structurés de type XML.
En RI Structurée (RIS), les éléments potentiellement pertinents renvoyés par
un système en réponse à une requête sont présentés à l’utilisateur sous forme
d’une simple liste ordonnée de résultats. Plusieurs questions se posent dans ce
contexte. Les principales sont : à partir de quel moment est-on certain d’avoir
collecté assez d’information ? Comment sélectionner l’unité d’information qui
répond le mieux à une requête ? La plupart des systèmes de RIS retournent les
résultats de recherche sous la forme d’une liste d’éléments disjoints, d’autres
commencent à présenter les résultats de la recherche sous la forme de résumés
multi-documents. D’autres questions plus techniques font aussi le sujet de cette
thèse, elles concernent les résultats retournés : Doit-on renvoyer des résultats
qui véhiculent la même information ? Dans ce cas, quelle est l’utilité d’une telle
recherche ? Peut-on avoir des résultats qui se complètent ?
Notre objectif est d’apporter des réponses à ces questions. Nous avons alors
proposé un modèle de RIS permettant une “meilleure” forme de construction des résultats répondant à la requête. Notre modèle trouve ses fondements
théoriques dans les RB. Plus précisément, le modèle que nous proposons est
basé sur un réseau pour chaque document. Dans chaque réseau, les nœuds
représentent un document, ses éléments, les termes d’indexation et la requête.
La topologie du réseau permet de prendre en compte naturellement les relations
de dépendance entre ces nœuds.
Plus précisément, nos contributions présentées dans cette thèse ont porté
sur quatre volets : l’agrégation des éléments les plus potentiellement pertinents, l’élagage d’éléments redondants à partir d’un ou plusieurs documents, la
détermination d’éléments porteurs d’informations pertinentes et additionnelles
et la proposition d’un cadre d’évaluation d’agrégats.
1. L’utilisation des RB en RI s’est avérée intéressante grâce notamment à
Conclusion générale
102
leur puissance pour inférer la pertinence des documents vis-à-vis d’une
requête ainsi qu’à leur capacité de représenter de manière naturelle les
différents liens existants entre les objets manipulés en RI, à savoir les
documents, les éléments, les termes et la requête. L’évaluation de la pertinence d’une configuration vis-à-vis d’une requête est effectuée par un
processus de propagation à travers les nœuds termes reliés à cette requête.
Les termes de la requête absents dans les représentations d’agrégats via
ses éléments sont donc naturellement et explicitement considérés dans le
calcul des scores de pertinence contrairement aux systèmes actuels de RI.
Compte tenu de l’intérêt que nous avons accordé à cette notion d’importance (ou de représentativité) d’un terme dans une configuration,
nous avons proposé une estimation du maximum de vraisemblance sur
la fréquence d’un terme dans une configuration permettant de mieux
quantifier l’importance d’un terme dans une configuration. Afin d’éviter
le problème des fréquences nulles des quelques termes (si un terme ne
figure pas dans une configuration) et éventuellement dans ses éléments,
il faut ajouter la fréquence du terme dans la collection avec celle calculée avec le document. En fait, nous utilisons une technique de lissage
de type Dirichlet appliquée à chaque élément XML de la configuration en
question ;
2. Dans notre processus de propagation, nous nous sommes intéressés à
l’agrégation d’éléments qui ne véhiculent pas la même information dans
une configuration donnée. Les techniques d’élagage proposées, afin d’éliminer les éléments redondants dans la même configuration, portent aussi
bien sur la première source d’évidence à savoir la structure à l’aide d’une
première hypothèse (H1) et sur la deuxième source d’évidence à savoir le
contenu à l’aide d’une deuxième hypothèse (H2) quand notre processus
de propagation est généralisé.
– H1 : cette hypothèse est qualifiée comme contrainte de structure permettant d’éliminer les éléments redondants. Nous considérons que la
présence d’une relation ancêtre-descendant entre deux éléments signifie que l’un est inclus dans l’autre ;
– H2 : cette hypothèse est considérée comme une contrainte de contenu.
Nous supposons qu’un utilisateur préfère retrouver dans une configuration donnée des éléments non redondants à partir de plusieurs documents. Par souci de simplicité, nous proposons d’utiliser la distance
cosinus pour détecter la redondance entre les éléments renvoyés.
3. De plus, nous avons proposé d’assembler des éléments qui se complètent
dans la même configuration. La complémentarité indique à quel point un
élément ajoute ce qu’il manquait en matière d’information à un ensemble
d’éléments. Pour modéliser cette caractéristique, nous avons également
proposé une fonction de propagation qui favorise les éléments les plus loin
de nœud racine. En effet, les éléments loin du nœud racine d’un document paraissent plus porteurs d’informations complémentaires que ceux
situés plus haut dans le document. Intuitivement, plus la distance entre
Conclusion générale
103
un élément et la racine est grande, plus il contribue à la complémentarité
des éléments d’une telle configuration. L’objectif de cette caractéristique
est de favoriser dans les configurations les éléments qui se complètent
mutuellement pour avoir une réponse plus complète :“pertinence additionnelle” ;
4. Le dernier volet de notre contribution consiste en la définition d’un cadre
d’évaluation approprié pour la RI agrégée dans des documents XML. Le
cadre proposé consiste à utiliser les ressources de la collection de test
fournie dans le cadre de la campagne d’évaluation INEX 2009.
Les expérimentations menées portent essentiellement sur :
– l’évaluation de la pertinence des agrégats : les premiers résultats intéressants montrent que par parmi les agrégats renvoyés 29% sont totalement pertinents et 58% sont partiellement pertinents. Seulement 13%
sont non-pertinents ;
– l’évaluation de la redondance : nous avons trouvé que 91% des agrégats
renvoyés contiennent des éléments qui ne véhiculent pas la même information ;
– l’évaluation de la complémentarité : nous avons constaté que les utilisateurs considèrent que les éléments du top-1 agrégat apportent d’informations pertinentes et additionnelles pour plus de 63% des agrégats ;
– l’évaluation des performances ainsi que l’utilité de la RI agrégée par
rapport à la recherche d’information structurée (RIS) : Les résultats
obtenus de cette comparaison montrent que notre modèle est efficace et
performant pour agréger des éléments à partir d’un document. En effet,
nous avons trouvé 59% de jugements, des utilisateurs qui préfèrent les
agrégats qu’une simple liste ordonnée d’éléments. Ces résultats peuvent
être considérés intéressants ;
– l’évaluation de degré d’accord entre les jugements d’utilisateurs à l’aide
de test statistique de Kappa de Cohen.
Il est également à noter que notre approche est applicable sur des requêtes de
type CO.
Limites et perspectives
L’évaluation expérimentale de notre modèle a montré son efficacité selon
plusieurs aspects, et ouvrent des perspectives à court terme portant sur l’utilisation de requêtes CAS, l’intégration d’un processus itératif à la recherche
pour la reformulation de requêtes, la définition des relations de dépendances
dans un cadre qualitatif et d’autres à long terme portant sur l’intégration des
relations de dépendances entre des paires de termes d’indexations ou de documents, l’intégration des relations entre paires de documents dans un cadre
Conclusion générale
104
ordinal.
Plus particulièrement, nos perspectives a court terme portent essentiellement sur les volets suivants :
1. Étendre notre modèle pour supporter aussi des requêtes orientées contenu
et structure. Nous proposons également d’étendre notre modèle pour supporter des collections hétérogènes (c’est à dire ayant des documents aux
structures différentes).
2. Intégrer un processus itératif à la recherche pour la reformulation de
requêtes. Pour ce faire, deux techniques existant dans les modèles basés
sur les RB probabilistes pourraient être adaptées à notre approche. La
première préconise l’ajout des nœuds ou d’arcs dans le réseau pour recalculer les distributions de probabilité. Cette technique permet ainsi d’ajouter des relations de dépendance entre des termes et la requête. Ces termes
peuvent être issus d’agrégats jugés par l’utilisateur ou les termes des n
premiers agrégats restitués initialement par le système. La seconde technique considère la requête reformulée comme une nouvelle information à
introduire dans le système ;
3. Définir les relations de dépendance dans un cadre qualitatif. Les valeurs
affectées à ces relations traduiraient des ordres partiels de préférence. La
théorie des possibilités offre deux cadres de travail. Le cadre qualitatif ou
ordinal et le cadre numérique. Nous avons proposé notre modèle dans un
cadre numérique basé sur la théorie des probabilités. Nous proposons ici
de traduire ce modèle dans un cadre ordinal basé sur les réseaux possibilistes. Ainsi, des préférences pourraient être définies entre les termes d’indexation pour représenter les documents et/ou la requête. Ces préférences
peuvent être données par des experts, ou par des études statistiques sur
le texte, etc. Ces préférences permettraient par la suite, de restituer des
agrégats classés par préférence de pertinence. Il serait possible dans un
tel cadre de mesurer le point auquel un agrégat a1 est préféré à l’agrégat
a2 ou de mesurer la préférence d’un agrégat a1 par rapport à un ensemble
d’agrégats a3 ,a4 .
À long terme nous prévoyons de :
4. Intégrer des relations de dépendance entre des paires de termes d’indexation ou des paires de documents. Cette perspective peut être en relation
avec la perspective précédente. Dans ce contexte, les arcs sont mesurés
par des valeurs numériques traduisant des quantités et non pas des ordres
partiels. Afin de quantifier ces relations, nous pourrions nous baser sur
la connaissance représentée dans une ontologie. Une ontologie permet de
formaliser des liens sémantiques entre des concepts unités de sens. Définie
dans un cadre probabiliste, elle pourrait ajouter de l’information pertinente à considérer lors du processus de propagation déclenchée par la
requête. Le réseau serait composé d’un sous réseau documents et d’un
sous réseau requête. Ces sous réseaux pourraient être reliées à travers
Conclusion générale
105
une ontologie ;
5. Intégrer des relations entre paire d’agrégats dans un cadre numérique ou
ordinal. Les relations de dépendances entre paires d’agrégats pourraient
traduire des liens sémantiques ou statistiques évaluant les distributions
des termes communs à des paires ou ensembles d’agrégats. Les termes ou
les agrégats peuvent ainsi être regroupés dans des classes communes ;
6. Mettre en place un cadre d’évaluation standard pour la RI agrégée dans
des documents XML où l’évaluation est vigoureusement contrôlée en utilisant une collection de test réelle dont les requêtes sont émises par des
utilisateurs et leurs interactions sont exploitables pour fournir des jugements de pertinence sur des agrégats construits pour les vingt requêtes
proposées.
Annexe A
Les documents semi-structurés
A.1
A.1.1
XML : concepts de base
Documents structurés et documents semi-structurés
La structure d’un document est l’agencement de ses différents éléments afin
de lui donner sa cohérence, sa forme et sa rigidité. Une balise (ou tag) est une
suite de caractère encadrés par “<” et “>”, comme par exemple <titre>. Un
élément est une unité syntaxique encadrant les fragments d’informations par
une balise de début et une balise de fin, comme par exemple <titre> RI Structurée < /titre>. Les éléments d’un document peuvent être imbriqués comme
le montre l’exemple de la figure A.1, mais ils ne doivent pas se recouvrir. Les
attributs des éléments sont intégrés à la balise de début en utilisant la syntaxe nomattribut=′′ valeur′′ . Par exemple, <titre sujet=′′ xml′′ > RI Structurée
< /titre>.
Le langage de description à balises SGML (Standard Generalized Markup
Language) [87], de norme ISO 1 (International Organization for Standardization) et sa version simplifiée XML (eXtensible Markup Language) permettent
de produire des documents structurés ou semi-structurés. Les documents structurés possèdent une structure régulière, ne contiennent pas d’éléments mixtes
(c’est à dire d’éléments contenant du texte et d’autres éléments) et l’ordre des
différents éléments qu’ils contiennent est généralement non significatif.
Les documents semi-structurés sont des documents qui possèdent une structure
flexible et des contenus hétérogènes. La modification, l’ajout ou la suppression
d’une donnée entraine une modification de la structure de l’ensemble [9].
1. ISO est un organisme créé en 1947 et a pour but de produire des normes internationales dans les domaines industriels et commerciaux appelées normes ISO
Annexe A. Les documents semi-structurés
107
Figure A.1 – Exemple d’un document XML
Dans ce contexte, nous nous intéressons à la RI dans des documents semistructurés. Les documents structurés servent à conserver des données au sens
Bases de données. Par abus de langage, on parlera de la RIS. Le format XML
nous permet d’illustrer nos propos.
A.1.2
Les fondements de XML
XML 2 est un standard mis en place par le W3C 3 (World Wide Web Consortium) et dérivé du langage SGML. Selon [51], la définition d’un document XML
est la suivante : “Un document en XML constitue [...] un terme technique, qui
ne correspond pas nécessairement à la notion classique d’un document narratif,
c’est-à-dire à un ensemble de données textuelles organisées et mises en forme
à l’attention d’un lecteur. Il s’applique également à toute structure de données
à vocation d’échange inter-applications.”
Un document XML est hiérarchisé sous forme d’un arbre. Chaque nœud
de l’arbre est un élément XML. Cette structure logique permet de faire des
recherches très pointues sur les éléments d’un document XML. Ces éléments
ne peuvent pas se chevaucher mais ils peuvent s’imbriquer. Le choix du nom
de ses éléments et leurs attributs ainsi que leur organisation est laissé au choix
2. http ://www.w3.org/XML/
3. http ://www.w3.org
Annexe A. Les documents semi-structurés
108
Figure A.2 – Exemple de DTD correspondant au document XML da la figure
A.1
de l’auteur. C’est pourquoi le langage XML est dit générique.
XML fournit un moyen de vérifier la syntaxe d’un document grâce aux
DTD (Document Type Definition) [143]. C’est un sous langage restreignant
décrivant la structure des documents y faisant référence grâce à une organisation prédéfinie. Ainsi un document XML doit suivre scrupuleusement les
conventions de notation XML et peut éventuellement faire référence à une
DTD décrivant l’imbrication des éléments possibles. Un document suivant les
règles de XML est appelé document bien formé. Un document XML possédant
une DTD et étant conforme à celle-ci est appelé document valide. La figure A.2
présente une DTD correspondante au document XML A.1.
XML permet donc de définir un format d’échange selon les besoins de l’utilisateur et offre des mécanismes pour vérifier la validité du document produit.
Il est donc essentiel pour le receveur d’un document XML de pouvoir extraire
les données du document. Cette opération est possible à l’aide d’un outil appelé
analyseur (en anglais parser, parfois francisé en parseur).
Le parseur permet d’une part d’extraire les données d’un document XML
(on parle d’analyse du document ou de parsing) ainsi que de vérifier éventuellement
la validité du document. Il existe deux types d’analyseurs de documents XML,
le parseur s’appuyant sur des flux d’évènements SAX (Simple API for XML)
et le parseur DOM 4 qui produit un graphe d’objets.
Le DOM représente en mémoire les éléments, les attributs et le texte des
éléments au sein des nœuds d’un arbre comme illustre la figure A.3. Grâce à ses
4. http ://www.w3.org/DOM
Annexe A. Les documents semi-structurés
109
Figure A.3 – Exemple de DOM correspondant au document XML de la figure
A.1
fonctions, le DOM permet de consulter et de modifier le contenu et la structure
d’un document chargé en mémoire. Il est recommandé d’utiliser le DOM pour
se repérer efficacement dans un document XML, relativement à un élément de
l’arbre XML. Si le besoin en information est exprimé selon un chemin XML
absolu, il devient ardu d’utiliser DOM et d’avoir recours à d’autres standards
tel que XPath.
XPath est un langage d’expression s’appliquant à XML ; il s’agit d’un langage permettant de sélectionner des sous-arbres d’un document XML. Il possède
une syntaxe simple et non ambigüe et implémente des types usuels (chaı̂nes,
nombres, booléens, variables, fonctions) [58].
XPath est une spécification conçue pour parcourir une collection de documents
XML, et de sélectionner un ensemble de nœuds en exploitant notamment les
relations existantes entre ces derniers. Ces nœuds devront répondre à certaines
contraintes structurelles ou sémantiques (contenu) pour être sélectionnés. Les
contraintes sont sous la forme d’un chemin. L’utilisateur doit décrire des expressions de chemin dans l’arbre d’un document XML pour retourner des fragments
de document.
A.2
Stockage des documents XML
Le stockage des collections de documents XML peut se faire selon trois
techniques : utilisation des fichiers textes, utilisation des SGBD relationnels et
utilisation d’un SGBD XML natif [215].
Annexe A. Les documents semi-structurés
A.2.1
110
Modèles de fichiers textes
Les fichiers textes constituent le moyen le plus simple de stocker les documents XML. Ils présentent l’avantage de pouvoir être lus et édités par un
utilisateur. Ce format constitue de plus le moyen d’échange le plus simple des
données XML sur un réseau. Pour l’interrogation, XQuery [75] permet d’interroger ces documents après une traduction préalable sous forme d’un arbre
d’objets en mémoire selon le standard DOM.
A.2.2
Modèles de SGBD relationnels
Les principaux SGBD relationnels (Oracle, SQL server, etc.) ont été étendus
pour les données XML. Deux méthodes de stockage existent :
– définir un nouveau type de données adapté à XML et stocker les documents XML comme des objets dans une colonne,
– réaliser une correspondance entre un document XML et un ensemble de
tables en s’appuyant sur le DTD du document (destruction du document
XML afin de stocker les éléments et les attributs en colonnes de tables).
Les documents stockés peuvent êtres manipulés en SQL par un jeu de fonctions
prédéfinies, par exemple l’extraction des objets par une expression XPath.
A.2.3
Modèles de SGBD XML natifs
Les SGBD natifs sont développés spécifiquement pour XML. Ils stockent et
manipulent directement des arbres XML au lieu de passer par une structure intermédiaire (table relationnelle). Ils possèdent des index spécialisés permettant
d’accéder aux composants d’un arbre de documents XML : éléments, attributs
et texte. Les langages d’interrogation pour ce type de modèles sont les langages
de requête XPath et XQuery.
Bibliographie personnelle
[1] N. Naffakhi, and R. Faiz. Less is More : aggregating meaningful elements
for xml keyword search. In Cépadues-Editions, International Journal on
Information - Interaction - Intelligence (I3), volume 12, number 1, 2012.
[2] N. Naffakhi, M. Boughanem, and R. Faiz. Recherche d’Information
Agrégée dans des documents XML basée sur les Réseaux Bayésiens. In
D. A. Zighed et G. Venturini, editor, Revue des Nouvelles Technologies
de l’Information (RNTI), volume 1, pages 369–380. Hermann, 2012.
[3] N. Naffakhi, and R. Faiz. Using Bayesian Networks Theory for Aggregated Search to XML retrieval. In The 2nd International Conference on
Web Intelligence, Mining and Semantics (WIMS), Craiova, Romania,
13/06/2012-15/06/2012, pages 71, ICPS, ACM digital library, 2012.
[4] N. Naffakhi, and R. Faiz. Aggregated Search in XML Documents : What
to retrieve ?. In IEEE International Conference on Information Technology and e-Services (ICITeS), Sousse, Tunisia, 24/03/2012-26/03/2012,
pages 121–126, March 24-26, 2012. IEEEXplore digital library.
[5] N. Naffakhi, M. Boughanem, and R. Faiz. Un Modèle Bayésien pour
l’Agrégation des Documents XML. In Conférence francophone en
Recherche d’Information et Applications (CORIA), Avignon, France,
16/03/2011-18/03/2011, pages 335–348, Association ARIA, Mars 2011.
Université d’Avignon.
[6] N. Naffakhi, M. Boughanem, and R. Faiz. Réseau bayésien pour un
modèle de Recherche d’Information agrégée dans des documents semistructurés. In Actes de XXVIIIème Congrès INFormatique des ORganisations et Systèmes d’Information et de Décision (INFORSID), Marseille,
France, 25/05/2010-28/05/2010, pages 111–126, Association INFORSID,
Mai 2010. Université de Provence.
[7] N. Naffakhi, and R. Faiz. Modèle basé sur les réseaux bayésiens pour
agréger des éléments XML pertinents et non-redondants. In Atelier de Recherche et Fouille d’Information sur le Web (RFIW) en conjonction avec
la 11ème Conférence Internationale Francophone : Extraction et Gestion
des Connaissances (EGC), Brest, France, 25/01/2011-28/01/2011, pages
58–69, Hermann-Éditions, Janvier 2011. Université de Bretagne Occidentale.
Bibliographie
112
[8] N. Naffakhi. Un modèle bayésien pour l’agrégation des documents semistructurés. In Rencontres des Jeunes Chercheurs en Recherche d’Information, en conjonction avec Colloque International Francophone sur
l’Écrit et le Document et COnférence en Recherche d’Information et
Applications (RJCRI :CIFED-CORIA), Sousse, Tunisie, 18/03/201020/03/2010, CPU, pages 495–500, Mars 2010.
Bibliographie
[9] S. Abiteboul. Querying semi-structured data. In 6th International Conference on Data Theory (ICDT), volume 1186 of Lecture Notes in Computer
Science, pages 1–18. Springer, 1997.
[10] S. Abiteboul, I. Manolescu, B. Nguyen, and N. Prada. A test plateform
for the inex heterogeneous track. In Pre-proceedings Workshop of the
Initiative for the Evaluation of XML retrieval (INEX), pages 177–182,
2004.
[11] S. Abiteboul, D. Quass, J. McHugh, J. Widom, and J.-L. Wiener. Query
language for semi-structured data. International Journal on Digital Libraries (IJDL), 1(1) :68–88, 1997.
[12] M. Abolhassani and N. Fuhr. Applying the divergence from randomness
approach for content-only search in xml documents. In Proceedings of the
European Conference on Information Retrieval (ECIR), pages 409–419,
2004.
[13] P. Aditya and K. Jaya. Leveraging query association in federated search.
In Proceedings of the ACM SIGIR 2008 Workshop on Aggregated Search,
pages 31–39, 2008.
[14] R. Agrawal, S. Gollapudi, A. Halverson, and S. Ieong. Diversifying search
results. In Proceedings of the Second ACM International Conference on
Web Search and Data Mining (WSDM), pages 5–14, 2009.
[15] E. Alfonseca, M. Pasca, and E. Robledo-Arnuncio. Acquisition of instance attributes via labeled and related instances. In Proceedings of 33rd
international ACM SIGIR conference on Research and Development in
Information Retrieval, pages 58–65, 2010.
[16] S. AmerYahia, C. Botev, and J. Shanmugasundaram. Texquery : A fulltext search extension to xquery. In Proceedings of World Wide Web
(WWW) Conference, pages 253–265, 2004.
[17] V. Anh and A. Moffat. Compression and an ir approach to xml retrieval.
In Proceedings of the First Annual Workshop of the Initiative for the
Evaluation of XML retrieval (INEX), pages 253–265, 2002.
[18] M. B. Aouicha. Une Approche Algébrique pour la Recherche d’Information
Structurée. Thèse de Doctorat de l’Université Paul Sabatier, Toulouse,
France, 2009.
Bibliographie
114
[19] J. Arguello, F. Diaz, J. Callan, and B. Carterette. A methodology for
evaluating aggregated search results. In Proceedings of the 33rd European
conference on Advances in information retrieval (ECIR), pages 141–152,
2011.
[20] J. Arguello, F. Diaz, J. Callan, and J.-F. Crespo. Sources of evidence
for vertical selection. In Proceedings of 32nd international ACM SIGIR
conference on Research and Development in Information Retrieval, pages
315–322, 2009.
[21] T. Avrahami, L. Yau, L. Si, and J. Callan. The fedlemur project : Federated search in the real world. Journal of the American Society for
Information Science and Technology (JASIST), 57(3) :347–358, 2006.
[22] M. Azevedo, L. Amorim, and N. Ziviani. A universal model for xml
information retrieval. In Proceedings of the INEX Workshop, pages 311–
321, 2004.
[23] R. Baeza-Yates and R. Ribeiro-Neto. Modern Information Retrieval. New
York : ACM Press ; Harlow England : Addison-Wesley, cop., 1999.
[24] K. Balog, A. Vries, P. Serdyukov, P. Thomas, and T. Westerveld. Overview of the trec 2009 entity track. In TREC 2009 Working Notes.
Springer-Verlag, 2009.
[25] K. Balog, A. Vries, P. Serdyukov, P. Thomas, and T. Westerveld. Overview of the trec 2009 entity track. In Proceedings of the Eighteenth Text
REtrieval Conference (TREC 2009). Springer-Verlag, 2010.
[26] C. L. Barry. User-defined relevance criteria : an exploratory study. Journal of the American Society for Information Science, 45 :149–159, 1994.
[27] M. Bautin and S. Skiena. Concordance-based entity-oriented search. Web
Intelligence and Agent Systems (WIAS), 7(4) :303–319, 2009.
[28] S. BenFerhat, D. Dubois, D. Garcia, and H. Prade. Possibilistic logic
bases and possibilistic graphs. In Proceedings of the Conference on Uncertainty in Artificial Intelligence, pages 57–64, 1999.
[29] F. Bessai-Mechmache and Z. Alimazighi. Aggregated search in xml documents. Journal of Emerging Technologies in Web Intelligence (JETWI),
4(2) :181–188, 2012.
[30] P. Bhaskar, S. Banerjee, and S. Bandyopadhyay. A hybrid tweet contextualization system using ir and summarization. In S. Geva, J. Kamps,
and R. Schenkel, editors, Proceedings of the 10th International Workshop
of the Initiative for the Evaluation of XML Retrieval, pages 164–175.
Lecture Notes in Computer Science, Springer Verlag, 2012.
[31] T. Bilyana, M. Kacimi, and G. Weikum. Gathering and ranking photos
of named entities with high precision, high recall, and diversity. In Proceedings of the the third ACM international conference on Web Search
and Data Mining (WSDM), pages 431–440, 2010.
Bibliographie
115
[32] T. Bogers, K. Christensen, and B. Larsen. Rslis at inex 2011 : Social book
search track. In S. Geva, J. Kamps, and R. Schenkel, editors, Proceedings
of the 10th International Workshop of the Initiative for the Evaluation of
XML Retrieval, pages 45–56. Lecture Notes in Computer Science, Springer Verlag, 2012.
[33] C. Borgelt, J. Gebhardt, and R. Kruse. Possibilistic graphical models. In
Computational Intelligence in Data Mining, Courses and Lectures, pages
51–68. Springer, 2000.
[34] P. Borlund. The concept of relevance in ir. Journal of the American
Society for Information Science, 54(10) :913–925, 2003.
[35] P. Borlund and P. Ingwersen. The development of a method for the
evaluation of interactive retrieval systems. Journal of Documentation,
53(3) :225–250, 1997.
[36] M. Boughanem, A. Brini, and D. Dubois. Possibilistic networks for
information retrieval. International Journal of Approximate Reasoning
(IJAR), 7(50) :957–968, 2009.
[37] M. Boughanem, C. Chrisment, and C. Soulé-Dupuy. Query modification
based on relevance back-propagation in adhoc environnement. Information Processing Management Journal, 35(2) :121–139, 1999.
[38] M. Boughanem and J. Savoy, editors. Recherche d’information états des
lieux et perspectives. Hermès Science Publications, 2008.
[39] O. Bouidghaghen, L. Tamine-Lechani, and M. Boughanem. Dynamically
personalizing search results for mobile users. In Proceedings of In Flexible
Query Answering (FQAS), pages 99–110, 2009.
[40] A. Brini and M. Boughanem. Relevance feedback : introduction of partial
assessments for query expansion. In Proceedings of the Conference of the
EUropean Society for Fuzzy Logic And Technology (EUSFLAT), pages
67–72, 2003.
[41] A. H. Brini. Un modèle de Recherche d’Information basé sur les réseaux
possibilistes. Thèse de Doctorat de l’Université Paul Sabatier, Toulouse,
France, 2005.
[42] C. W. Bruce. Organizing and Searchning Large Files of Document Descriptions. Ph.D thesis, University of Cambridge, Massachusetts, USA,
1979.
[43] E. Brunet. Le lemme comme on l’aime. In actes de la 6ème Journées
Internationales d’Analyse Statistique des Données Textuelles, pages 221–
232, 2002.
[44] C. Buckley and E. M. Voorhees. Evaluating evaluation measure stability.
In Proceedings of the 23rd annual international ACM SIGIR Conference
on Research and Development in Information Retrieval, pages 33–40, New
York, NY, USA, 2000. ACM.
Bibliographie
116
[45] P. Buneman, G. Davidson, G. Hillebrand, and D. Suciu. A query language
and optimization techniques for unstructured data. In Proceedings of
ACM SIGMOD International Conference on Management of Data, pages
505–516. ACM, 1996.
[46] H. Bunke. Recent developments in graph matching. In ICPR, pages
2117–2124, 2000.
[47] J. M. Cafarella, Y. A. Halvey, and N. Khoussainova. Data integration for
the relational web. In Proceedings of the 36th international conference on
Very large data bases (VLDB), pages 1090–1101, 2010.
[48] M. Cafarella, M. Banko, and O. Etzioni. Relational web search. Technical
report, University of Washington, 2006.
[49] J. Callan. Distributed information retrieval. In Advances in Information
Retrieval, pages 235–266. Kluwer Academic Publishers, 2000.
[50] J. Carbonell and J. Goldstein. The use of mmr, diversity-based re-ranking
for reordering documents and producing summaries. In Proceedings of the
ACM SIGIR International Conference on Research and Development in
Information Retrieval, pages 335–336, 1998.
[51] C. Carson, S. Belongie, H. Greenspan, and J. Malik. Blobworld :
Image segmentation using expectation-maximization and its application
to image querying. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 24(2) :1026–1038, 1999.
[52] S. Ceri, S. Comai, E. Damiani, P. Fraternali, S. Paraboschi, and L. Tanca.
Xml-gl : A graphical language for querying and restructuring www data.
In Proceedings of WWW Conference, pages 1171–1187, 1999.
[53] D. Chamberlin, J. Robie, A. Berglund, and S. Boag.
Xquery
1.0 : An xml query language (second edition). Technical report,
http ://www.w3.org/TR/xquery/, 2010.
[54] D. Chamberlin, J. Robie, and D. Florescu. Quilt : An xml query language
for heterogeneous data sources. In Proceedings of the 3rd Internation
Workshop on World Wide Web and databases, pages 1–25, 2000.
[55] Y. Chiaramella and P. Mulhem. De la documentation automatique à la
recherche d’information en contexte. Document numérique, 10(1) :11–38,
2007.
[56] Y. Chiaramella, P. Mulhem, and F. Fourel. A model for multimedia information retrieval. Technical report, FERMI ESPRIT BRA 8134, University of Glasgow, 1999.
[57] C. Clark, N. Craswell, and I. Soboroff. verview of the trec 2009 web track.
Technical report, 2010.
[58] J. Clark and S. DeRose. Xml path language (xpath) version 1.0. Technical
report, World Wide Web Consortium, 1999.
[59] C. L. A. Clarke, M. Kolla, V. G. Cormack, O. Vechtomova, A. Ashkan,
S. Büttcher, and I. Mackinnon. Novelty and diversity in information
retrieval evaluation. In Proceezdings of SIGIR, pages 659–666, 2008.
Bibliographie
117
[60] C. Cleverdon. Readings in information retrieval. In The cranfield tests
on index language devices, pages 47–59, 1997.
[61] P. Clough, M. Sanderson, M. Abouammoh, S. Navarro, and L. M. Paramita. Multiple approaches to analysing query diversity. In Proceedings
of SIGIR, pages 734–735, 2009.
[62] G. F. Cooper. The computational complexity of probabilistic inference
using bayesian belief networks (research note). Artif. Intell., 42(2-3) :393–
405, 1990.
[63] C. Crouch. Dynamic element retrieval in a structured environment. ACM
Trans. Inf. Syst., 24(4) :437–454, 2006.
[64] C. Crouch, S. Apte, and H. Bapat. An approach to structured retrieval based on extended vector model. In Proceedings of the INEX 2003
Workshop, pages 89–93, 2002.
[65] C. Crouch, D. Crouch, N. Acquilla, R. Banhatta, S. Chittilla, N. Nagalla, and R. Navenvarapu. Focused elements and snippets. In S. Geva,
J. Kamps, and R. Schenkel, editors, Focused Retrieval of Content and
Structure, pages 295–299. Lecture Notes in Computer Science, Springer
Verlag, 2012.
[66] A. C. Cuadra and V. R. Katter. Opening the black box of relevance.
Journal of Documentation, 23(4) :291–303, 1967.
[67] L. M. De Campos, J. M. Fernãndez luna, and J. F. Huete. Using context
information in structured document retrieval : an approch based on influence diagrams. Information Processing and Management, 40(5) :829–
847, 2004.
[68] L. Denoyer and P. Gallinari. Bayesian network model for semistructured document classification. Information Processing Management,
40(5) :807–827, 2004.
[69] L. Denoyer and P. Gallinari. The wikipedia xml corpus. In The 29th annual international ACM SIGIR conference on Research and development
in information retrieval, SIGIR Forum, pages 64–69, 2006.
[70] L. Denoyer, G. Wisniewski, and P. Gallinari. Document structure matching for heterogenous corpora. In Proceedings of the 27th ACM SIGIR
2004 workshop on XML and Information Retrieval, pages 1–7, 2004.
[71] F. Diaz. Integration of news content into web results. In Proceedings
of the Second ACM International Conference on Web Search and Data
Mining (WSDM), pages 182–191, 2009.
[72] R. Dragomir, J. Otterbacher, A. Winkel, and S. B. Goldensohn. Newsinessence : summarizing online news topics. In Communications of the
Association of Computing Machinery (ACM), pages 95–98, 2005.
[73] R. Dragomir, R. Weiguo, and F. Zhu. Webinessence : a personalized webbased multi-document summarization and recommendation system. In
NAACL Workshop on Automatic Summarization, pages 79–88, 2001.
Bibliographie
118
[74] D. Dunlavy, D. O’Leary, J. M. Conroy, and J. D. Schlesinger. Qcs : A
system for querying, clustering and summarizing documents. In International Journal : Information Processing and Management (IPM), pages
1588–1605, 2007.
[75] M. F. Fernãndez, T. Jim, K. Morton, N. Onose, and J. Simeon. Highly
distributed xquery with dxq. In Proceedings of the 2007 ACM SIGMOD
International Conference (SIGMOD), pages 1159–1161, 2007.
[76] J. Fleiss. Measuring nominal scale agreement among many raters 1971.
Psychological Bulletin, pages 378–382, 1971.
[77] D. Florescu and D. Kossmann. Storing and querying xml data using an
rdmbs. IEEE Data Engineering Bulletin, 22(3) :27–34, 1999.
[78] M. Franz, A. Ittycheriah, J. McCarley, and T. Ward. First story detection : Combining similarity and novelty based approaches. Technical
report, Topic detection and tracking Workshop report, 2001.
[79] N. Fuhr and K. Grossjohann. Xirql : a query language for information retrieval in xml documents. In Proceedings of the 24th annual international
ACM SIGIR Conference, pages 172–180, 2001.
[80] N. Fuhr, M. Lalmas, S. Malik, and Z. Szlavik. Xml information retrieval :
Inex 2004. In Advances in XML Information Rretreival and evaluation,
pages 409–410, 2004.
[81] N. Fuhr, M. Lalmas, S. Malik, and Z. Szlávik. Advances in xml information retrieval, third international. In Proceedings of the INEX 2004
Workshop. Lecture Notes in Computer Science, Springer, 2005.
[82] M. Fuller, E. Mackie, R. Sacks-Davids, and R. Wilkinson. Structural
answers for a large structured document collection. In Proceedings of the
ACM SIGIR 1993, pages 204–213, 1993.
[83] S. Geva. Gpx-gardens point xml information retrieval at inex 2004. In
Proceedings of the INEX 2004 Workshop, pages 211–223, 2004.
[84] S. Geva. Gpx-gardens point xml information retrieval at inex 2005. In
Proceedings of the INEX 2005 Workshop, pages 240–253, 2005.
[85] S. Geva, J. Kamps, M. Lethonen, R. Schenkel, J. Thom, and A. Trotman. Overview of the inex 2009 ad hoc track. In Proceedings of the INEX
2009 Workshop Pre-proceedings, pages 16–50. IR Publications, Amsterdam, 2009.
[86] L. Goeuriot. Découverte et caractérisation des corpus comparables. Thèse
en informatique, Université de Nantes, Nantes, France, 2009.
[87] C. F. Goldfarb. The SGML Handbook. Oxford University Press, 1990.
[88] N. Gövert. Assessments and evaluation measures for xml document retrieval. In Proceedings of the INEX 2002 Workshop, 2002.
[89] N. Gövert, M. Abolhassani, N. Fuhr, and K. Grossjohan. Content oriented
xml retrieval with hyrex. In Proceedings of the INEX 2002 Workshop,
pages 26–32, 2002.
Bibliographie
119
[90] T. Grabs and H. Schek. Eth zürich at inex : Flexible information retrieval
from xml with powerdb-xml. In Proceedings of the INEX 2002 Workshop,
pages 141–148, 2002.
[91] L. Gravano, H. G. Molina, and A. Tomasic. The effectiveness of gioss for
the text database discovery problem. In Proceedings of the ACM International Conference on Management of Data (SIGMOD), pages 126–137,
1994.
[92] O. Greenshpan, T. Milo, and N. Polyzotios. Autocompletion for mashups.
In Proceedings of VLDB, pages 538–549, 2009.
[93] A. Gutierrez, R. Motz, and D. Viera. Building databases with information extracted from web documents. In Proceedings XX International
Conference of the Chilean Computer Sciences Society, pages 41–49, 2000.
[94] S. Hattori, T. Tezuka, and K. Tanaka. Context-aware query refinement
for mobile web search. In Proceedings of International Symposium on
Applications and the Internet Workshops (SAINT-W), pages 15–, 2007.
[95] Y. Hayashi, J. Tomita, and G. Kikoi. Searching text-rich xml documents
with relevance ranking. In Proceedings ACM SIGIR 2000 Workshop on
XML and IR, pages 27–35, 2000.
[96] S. Hennig and M. Wurst. Incremental clustering of newsgroup articles. In
Proceedings of the 19th international conference on Advances in Applied
Artificial(IEA/AIE), pages 332–341, 2006.
[97] L. Hlaoua. Reformulation de requêtes par réinjection de Pertinences dans
les documents semi-structurés. Thèse de Doctorat de l’Université Paul
Sabatier, Toulouse, France, 2007.
[98] V. Hristidis, Y. Papakonstantinou, and A. Balmin. Keyword proximity
search on xml graphs. In proceedings of International Conference on Data
Engineering ICDE, pages 367–378, 2003.
[99] Y. Huang, Z. Liu, and Y. Chen. Query biased snippet generation in xml
search. In proceedings of Special Interest Group on Management Of Data
SIGMOD’08, pages 315–326, 2008.
[100] G. Hubert. A voting method for xml retrieval. In Proceedings of the
3rd International Workshop of the Initiative for the Evaluation of XML
Retrieval (INEX), pages 183–196, 2005.
[101] G. Huck, I. Macherius, and P. Fankhauser. Pdom : Lightweight persistency support for the document object model. In OOPSLA’99 workshop
proceedings : Business Object Design and Implementation III, pages 106–
123, 1999.
[102] G. P. Ipeirotis. Classifying and searching hidden-web text databases. PhD
thesis, New York, NY, USA, 2004.
[103] T. S. Jaakkola, M. Diekhans, and D. Haussler. Using the fisher kernel
method to detect remote protein homologies. In Proceedings of the Seventh International Conference Intelligent Systems for Molecular Biology
(ISMB), pages 149–158, 1999.
Bibliographie
120
[104] H. Jang, Y. Kim, and D. Shin. An effective mechanism for index update in
structured documents. In Proceedings ACM Conference on Information
and Knowledge Management (CIKM), pages 383–390, 1999.
[105] B.-J. Jansen and A. Spink. An Analysis of document viewing pattern of
web search engine user. Idea Publishing Group, Hershey PA, 2005.
[106] K. Järvelin and J. Kekäläinen. Cumulated gain-based evaluation of ir
techniques. ACM Transactions on Information Systems, 20(4) :422–446,
2002.
[107] F. Jensen and D. Nielsen. Springer, Verlag, 2007.
[108] B. T. Jones and S. R. Purves. Geographical information retrieval. In
Encyclopedia of Database Systems, pages 1227–1231, 2009.
[109] V. Kakade and P. Raghavan. Encoding xml in vector spaces. In Proceedings of ECIR, 2005.
[110] J. Kamps, M. de Rijkeek, and B. Sigurbj.̇ornsson. Length normalization
in xml retrieval. In Proceedings of the SIGIR International Conference,
pages 80–87, 2004.
[111] J. Kamps, M. Marx, M. de Rijke, and B. Sigurbjörnsson. Xml retrieval :
What to retrieve ? In C. L. A. Clarke, G. Cormack, J. Callan, D. Hawking,
and A. Smeaton, editors, Proceedings of the 26th Annual International
ACM SIGIR Conference on Research and Development in Information
Retrieval, pages 409–410. ACM Press, New York NY, 2003.
[112] J. Kamps, J. Pehcevski, G. Kazai, M. Lalmas, and S. Robertson. Inex
2007 evaluation measures. In Proceedings of INEX 2007 Workshop, pages
24–33, 2007.
[113] C.-C. Kanne and G. Moerkotte. Efficient storage of xml data. In Proceedings of the 16th International Conference on Data Engineering (ICDE),
pages 359–381, 2000.
[114] R. Kaptein and M. Marx. Focused retrieval and result aggregation with
political data. Information Retrieval, 13(5) :412–433, 2010.
[115] P. M. Kato, H. Ohshima, S. Oyama, and K. Tanaka. Query by analogical
example : relational search using web search engine indices. In Proceedings
of the 18th ACM Conference on Information and Knowledge Management
(CIKM), pages 27–36, 2009.
[116] G. Kazai, M. Lalmas, and A. P. de Vries. The overlap problem in content
oriented xml retrieval evaluation. In Proceedings of SIGIR 2004 International Conference, pages 72–79, 2004.
[117] G. Kazai, M. Lalmas, and A. P. de Vries. Reliability tests for the xcg and
inex-2002 metrics. In Pre-Proceedings of INEX 2004 Workshop, pages
33–39, 2004.
[118] G. Kazai, M. Lalmas, and T. Roelleke. Focused structured document
retrieval. In The 9th String Processing and Information Retrieval Symposium (SPIRE), pages 241–247, 2002.
Bibliographie
121
[119] J. Kekäläinen and K. Järvelin. Evaluating information retrieval systems
under the challenges of interaction and multidimensional dynamic relevance. In Proceedings of the CoLIS 4 Conference, pages 253–270, 2002.
[120] L. S. Kennedy and M. Naaman. Generating diverse and representative
image search results for landmarks. In Proceedings of the 17th ACM
WWW, pages 297–306, 2008.
[121] A. Kopliku. Approaches to implement and evaluate aggregated search.
Thèse de Doctorat de l’Université Paul Sabatier, Toulouse, France, 2011.
[122] A. Kopliku, M. Boughanem, and K. Pinel-Sauvagnat. Towards a framework for attribute retrieval. In Proceedings of the 20th ACM Conference
on Information and Knowledge Management (CIKM), pages 515–524,
2011.
[123] A. Kopliku, F. Damak, K. Pinel-Sauvagnat, and M. Boughanem. Interest
and evaluation of aggregated search. In Proceedings of the International Conference on Web Intelligence (IEEE/WIC/ACM), pages 154–161,
2011.
[124] A. Kopliku, K. Pinel-Sauvagnat, and M. Boughanem. Aggregated search :
Potential, issues and evaluation. Technical report, Institut de Recherche
en Informatique de Toulouse, 2009.
[125] A. Kopliku, K. Pinel-Sauvagnat, and M. Boughanem. Attribute retrieval
from relational web tables. In Proceedings of the Symposium on String
Processing and Information Retrieval (SPIRE), pages 117–128, 2011.
[126] J. Lafferty and C. Zhai. Language models, query models, and risk minimization for information retrieval. In Research and Development in Information Retrieval, In Proceedings of the ACM SIGIR, pages 111–119,
2001.
[127] M. Lalmas. Dempster-shafer’s theory of evidence applied to structured
documents : modeling uncertainty. pages 110–118, Philadelphia, USA,
1997. ACM.
[128] M. Lalmas and P. Vannoorenberghe. Indexation et recherche de documents xml par les fonctions de croyance. In Proceedings of COnférence en
Recherche d’Information et Applications (CORIA), pages 143–160, 2004.
[129] J. R. Landis and G. Koch. The measurement of observer agreement for
categorical data. Biometrics, 33(1) :159–174, 1977.
[130] B. Larsen, S. Malik, and A. Tombros. A comparison of interactive and
adhoc relevance assessments. In N. Fuhr, M. Lalmas and A. Trotman
editors, INEX’07, pages 348–358. springer, Dagstuhl Castle, Germany,
2007.
[131] R. R. Larson. Cheshire ii at inex : using a hybrid logistic regression
and boolean model for xml retrieval. In Proceedings of the INEX 2002
Workshop, pages 18–25, 2002.
Bibliographie
122
[132] K.-H. Lee, Y.-C. Choy, and S.-B. Cho. An efficient algorithm to compute differences between structured documents. IEEE Transactions on
Knowledge and Data Engineering (TKDE), 16(8) :965–979, August 2004.
[133] Y. K. Lee, S.-J. Yoo, K. Yoon, and P. B. Berra. Index structures for
structured documents. In Proceedings of the first ACM international
conference on Digital Libraries (DL), pages 91–99, 1996.
[134] M. Lehtonen. Extirp2004 : Towards heterogeneity. In Proceedings of
INEX Workshop, pages 372–381, 2004.
[135] A. Levy, M. Fernãndez, D. Suciu, D. Florescu, and A. Deutsch. Xmlql : A
query language for xml. Technical report, World Wide Web Consortium,
1998.
[136] X. Li, Y.-Y. Wang, and A. Acero. Learning query intent from regularized
click graphs. In Proceedings of the 31st annual international ACM SIGIR
conference on Research and development in information retrieval, pages
339–346, 2008.
[137] W. Lian and D. Cheung. An efficient and scalable algorithm for clustering
xml documents by structure. IEEE Transactions on Knowledge and Data
Engineering (TKDE), 16(1) :82–96, August 2004.
[138] J. A. List, V. Mihajlovic, A. Vries, G. Ramirez, and D. Hiemstra. The
tijah xml-ir system at inex 2003. In Proceedings of INEX Workshop, pages
102–109, 2003.
[139] K.-L. Liu, W. Meng, J. Qiu, C. Yu, V. Raghavan, Z. Wu, Y. Lu, H. He,
and H. Zhao. Allinonenews : development and evaluation of a largescale news metasearch engine. In Proceedings of the 2007 ACM SIGMOD
international conference on Management of data, pages 1017–1028, 2007.
[140] M. Liu, J. Yan, and Z. Chen. A probabilistic model based approach for
blended search. In Proceedings of the 18th international conference on
World Wide Web ACM WWW, pages 1075–1076, 2009.
[141] S. Liu, Q. Zou, and W. Chu. Configurable indexing and ranking for xml
information retrieval. In Proceedings of the 27th annual international
ACM SIGIR, pages 88–95, 2004.
[142] Z. Liu and Y. Chen. Identifying meaningful return information for xml
keyword search. In Proceedings of the 2007 ACM SIGMOD international
conference on Management of data (SIGMOD), pages 329–340, 2007.
[143] S. Lu, Y. Sun, M. Atay, and F. Fotouhi. On the consistency of xml dtds.
Data & Knowledge Engineering (DKE), 52(2) :231–247, 2005.
[144] R. Luk, H. Leong, T. Dillon, A. Shan, B. Croft, and J. Allan. A survey in
indexing and searching xml documents. Journal of the American Society
for Information Science and Technology (JASIST), 53(3) :415–435, 2002.
[145] M. Maaman, Y. Song, A. Paepcke, and H. Garcia-Molina. Assigning
textual names to sets of geographic coordinates. Computers, Environment
and Urban Systems, 30(4) :418–435, 2006.
Bibliographie
123
[146] C. D. Manning, P. Raghavan, and H. Schütze. Introduction to Information Retrieval. Cambridge University Press, NY, USA, July 2008.
[147] M. E. Maron and J. L. Kuhns. On relevance, probabilistic indexing and
information retrieval. ACM Journal, 7(3) :216–244, 1960.
[148] M. Marx, J. Kamps, and M. de Rijke. The university of amsterdam at
inex 2002. In Proceedings of the INEX Workshop, pages 23–28, 2002.
[149] Y. Mass and M. Mandelbord. Retrieving the most relevant xml components. In Proceedings of INEX 2003 Workshop, pages 53–58, 2003.
[150] Y. Mass and M. Mandelbord. Component ranking and automatic query
refinement for xml retrieval. In Proceedings of the INEX 2004 Workshop,
pages 73–84, 2004.
[151] Y. Mass, M. Mandelbord, E. Amitay, Y. Maarek, and A. Soffer. Juruxml an xml retrieval system at inex’02. In Proceedings of the INEX Workshop,
pages 73–80, 2002.
[152] K. McKeown, R. Brazilay, J. Chen, D. Elson, D. Evans, J. Kalvans,
A. Nenkova, B. Schiffman, and S. Sigelman. Tracking and summarizing news on a daily basis with columbia’s newsblaster. In Proceedings
of the second international conference on Human Language Technology
Research, pages 280–285, 2002.
[153] D. Miller, T. Leek, and R. Schawartz. markov model information retrieval
system. In B. Croft, D. J. Harper, D. H. Kraft, and J. Zobel, editors,
Proceedings of the ACM SIGIR, pages 214–221, 2001.
[154] S. Mizzaro. Relevance, the whole (hi) story. Journal of the American
Society for Information Science and Technology (JASIST), 48(9) :810–
832, 1997.
[155] V. Moriceau and X. Tannier. Fidji : using syntax for validating answers
in multiple documents. Information Retrieval Journal, 13 :507–533, 2010.
[156] D. Mountain and A. Macfarlane. Geographic information retrieval in a
mobile environment : evaluating the needs of mobile individuals. Journal
of Information Science, 33(5) :515–530, 2007.
[157] P. Mulhem and J.-P. Chevallet. Modèle de langue par type de doxel pour
l’indexation de documents structurés. In Proceedings of COnférence en
Recherche d’Information et Applications (CORIA), pages 361–372, 2010.
[158] V. Murdock and M. Lalmas. Workshop on aggregayted search. In Proceedings of SIGIR, pages 80–83, 2008.
[159] P. Ogilvie and J. Callan. Combining documents representations of knownitem search. In Proceedings of annual international ACM SIGIR Conference on research and development in Information retrieval, pages 143–
150, 2003.
[160] P. Ogilvie and J. Callan. Using language models for flat text queries
in xml retrieval. In Proceedings of the the Second Annual Workshop of
Bibliographie
124
the Initiative for the Evaluation of XML retrieval (INEX), pages 12–18,
2003.
[161] S. Ou and S. Khoo. Aggregating search results for social science by
extracting and organizing research concepts and relations. In SIGIR
2008 Workshop on aggregated search, pages 1–8, 2008.
[162] C. Paris, S. Wan, and P. Thomas. Focused and aggregated search :
a perspective from natural language generation. Information Retrieval
Journal, 44(3) :434–459, 2010.
[163] C. Paris, S. Wan, R. Wilkinson, and M. Wu. Generating personal travel
guides - and who wants them ? In Proceedings of the 8th International Conference on User Modeling (UM), pages 251–253. Springer-Verlag,
2001.
[164] S. Park and J. H. Lee. Unified search service of naver, a major korean
search engine. In Proceedings of the ACM SIGIR 2008 Workshop on
Aggregated Search, pages 17–19, 2008.
[165] J. Pearl. Fusion, propagation, and structuring in belief networks. Journal
of Artificial Intelligence, 29 :241–288, 1986.
[166] J. Pearl. Probabilistic reasoning in intelligent systems : networks of plausible inference. Morgan Kaufmann Publishers Inc., San Francisco, CA,
USA, 1988.
[167] J. Perry, M. Berry, and A. Kent. Machine literature searching. Western
Reserve University Press, Cleveland, Ohio, USA, 1956.
[168] K. Pinel-Sauvagnat. Modèle flexible pour la Recherche d’Information dans
des corpus de documents semi-structurés. Thèse de Doctorat de l’Université Paul Sabatier, Toulouse, France, 2005.
[169] K. Pinel-Sauvagnat and M. Boughanem. Xfirm : A flexible information
retrieval model for indexing and searching xml documents. In Proceedings
of ECIR, pages 17–18, 2004.
[170] K. Pinel-Sauvagnat and M. Boughanem. A la recherche des nœuds informatifs dans des corpus des documents xml. In Proceedings CORIA,
pages 119–134, 2005.
[171] K. Pinel-Sauvagnat and M. Boughanem.
Propositions pour la
pondération des termes et l’évaluation de la pertinence des élémens en
recherche d’information structurée. Journal of Information - Interaction
- Intelligence (I3), 6(2) :77–98, 2006.
[172] K. Pinel-Sauvagnat, M. Boughanem, and C. Chrisment. Answering
content and structure-based queries on xml documents using relevance
propagation. Information Systems Journal, 31(7) :621–635, 2006.
[173] K. Pinel-Sauvagnat and C. Chrisment. Xml et recherche d’information.
In M. Boughanem and J. Savoy, editors, Recherche d’information : état
des lieux et perspectives, volume 1, chapter 4, pages 99–138. Hermès, avril
2008.
Bibliographie
125
[174] K. Pinel-Sauvagnat, L. Hlaoua, and M. Boughanem. Xml retrieval :
what about using contextual relevance ? In Annual ACM Symposium on
Applied Computing (SAC), pages 1114–1120, 2006.
[175] B. Piwowarski. Techniques d’apprentissage pour le traitement d’information structurées : application à la recherche d’information. Thèse de
Doctorat de l’Université Paris 6, Paris, France, 2003.
[176] B. Piwowarski. Working group report : the assessment tool. In Proceedings of INEX 2003, pages 181–183, 2003.
[177] B. Piwowarski, G. Faure, and P. Gallinari. Bayesian networks and inex.
In Proceedings of the First Annual Workshop of the Initiative for the
Evaluation of XML retrieval (INEX), pages 149–154, 2002.
[178] B. J. Ponte and W. Bruce Croft. A language modeling approach to
information retrieval. In Proceedings of the 21st annual international
ACM SIGIR Conference on Research and Development in Information
Retrieval, pages 275–281, 1998.
[179] M. Porter. An algorithm for suffix stripping. Program, 14 :130–137, 1980.
[180] F. Radlinski and S. Dumais. Improving personalized web search using
result diversification. In Proceedings of SIGIR, pages 691–692, 2006.
[181] A. Ranganathan, A. Riabov, and O. Udrea. Mashup based information retrieval for domain experts. In Proceedings of the 18th ACM Conference on
Information and knowledge Management (CIKM), pages 711–720, 2009.
[182] V. C. Rijsbergen. Information Retrieval. Butterworth & Co (Publishers)Ltd, London, 1979.
[183] S. Robertson. The probability ranking principle in information retrieval.
Journal of Documentation, 33(4) :294–304, 1977.
[184] S. Robertson and S. Walker. Some simple effective approximations to
the 2-poisson model for probabilistic weighted retrieval. In Proceedings
of the 17th Annual International ACM-SIGIR Conference on Research
and Development in Information Retrieval, pages 232–241, 1994.
[185] S. Robertson, S. Walker, S. Jones, M. Hancock-Beaulieu, and M. Gatford.
Okapi at trec 3. In Proceedings of the 3rd Text REtrieval Conference
(TREC-3), pages 109–126, 1994.
[186] S. E. Robertson. Readings in information retrieval. chapter The probability ranking principle in IR, pages 281–286. Morgan Kaufmann Publishers
Inc., San Francisco, CA, USA, 1997.
[187] T. Roelleke, M. Lalmas, G. Kazai, J. Ruthven, and S. Quicker. The
accessibility dimension for structured document retrieval. In Proceedings
of the European Conference on Information Retrieval (ECIR), pages 284–
302, 2002.
[188] C. Rohr and D. Tjondronegoro. Aggregated cross-media news visualization and personalization. In Proceedings of the 1st ACM international
Bibliographie
126
conference on Multimedia Information Retrieval (MIR), pages 371–378,
2008.
[189] N. Sahoo, J. Callan, R. Krishnan, G. Duncan, and R. Padman. Incremental hierarchical clustering of text documents. In Proceedings of the
15th ACM international Conference on Information and Knowledge Management (CIKM), pages 357–366, 2006.
[190] G. Salton. A comparison between manual and automatic indexing methods. Journal of American Documentation (JAD), 20(1) :61–71, 1971.
[191] G. Salton, editor. The SMART Retrieval System - Experiments in Automatic Document Processing. Prentice Hall, Englewood, Cliffs, New Jersey,
1971.
[192] G. Salton, J. Allan, and C. Buckley. Approaches to passage retrieval
in full text information systems. In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in
Information Retrieval, pages 49–58, 1993.
[193] G. Salton and C. Buckley. Term weighting approaches in automatic text
retrieval. Technical report, Ithaca, 1987.
[194] G. Salton and M. McGill. The concept of ”relevance” in information
science : A historical review. R.R. Bowker, New York, 1970.
[195] G. Salton and M. McGill, editors. Introduction to modern information
retrieval. McGraw-Hill Int. Book Co, 1983.
[196] G. Salton, A. Wong, and C. S. Yang. A vector space model for automatic
indexing. Communications of the ACM, 18(11) :613–620, 1975.
[197] G. Salton and C. Yang. On the specification of term values in automatic
indexing. Journal of American Documentation (JAD), 29(4) :351–372,
1973.
[198] M. Sanderson and J. Kohler. Analyzing geographic queries. In Workshop
on Geographic Information Retrieval, pages 1–2, 2006.
[199] R. Schenkel, F. Suchanek, and G. Kasneci. Yawn : A semantically annotated wikipedia xml corpus. In 12. GI-Fachtagung für Datenbanksysteme
in Business, Technologie und Web (BTW 2007), volume 103, pages 277–
291. Lecture Notes in Informatics, 2007.
[200] T. Schlieder and H. Meuss. Querying and ranking xml documents. Journal of the American Society for Information Science and Technology (JASIST), 53(6) :489–503, 2002.
[201] D. Shin, H. Jang, and H. Jin. Bus : an effective indexing and retrieval scheme in structured documents. In Proceedings of the third ACM
international conference on Digital Libraries (DL), pages 235–243, 1998.
[202] B. Sigurbjörnsson, J. Kamps, and M. de Rijke. An element-based approach to xml retrieval. In Proceedings of INEX 2003 workshop, pages
19–26, 2003.
Bibliographie
127
[203] K. Sparck-Jones, S. E. Robertson, and M. Sanderson. Ambiguous requests : implications for retrieval tests, systems and theories. In Proceedings of SIGIR forum, pages 8–17, 2007.
[204] N. Stokes and J. Carthy. Combining semantic and syntactic document
classifiers to improve first story detection. In Proceedings of the ACM
SIGIR, pages 424–425, 2001.
[205] A. Strotmann and D. Zhao. Bibliometric maps for aggregated visual
browsing in digital libraries. In SIGIR 2008 Workshop on aggregated
search, pages 9–16, 2008.
[206] S. Sushmita, H. Joho, and M. Lalmas. A task-based evaluation of an aggregated search interface. In Proceedings of the 16th International Symposium on String Processing and Information Retrieval (SPIRE), pages
322–333, 2009.
[207] S. Sushmita, H. Joho, M. Lalmas, and J. M. Lose. Understanding domain
relevance in web search. In WWW 2009 Workshop on Web Search Result
Summarization and Presentation, pages 70–74, 2009.
[208] S. Sushmita, H. Joho, M. Lalmas, and R. Villa. Factors affecting clickthrough behavior in aggregated search interfaces. In Proceedings of the
19th ACM international Conference on Information and Knowledge Management(CIKM), pages 519–528, 2010.
[209] S. Sushmita, M. Lalmas, and A. Tombros. Using digest pages to increase
user result space : preliminary designs. In Proceedings of the ACM SIGIR
2008 Workshop on Aggregated Search, pages 20–26, 2008.
[210] Z. Szlávik, A. Tombros, and M. Lalmas. Feature and query-based table of
contents generation for xml documents. In Proceedings of the 29th ECIR
Conference, pages 456–467. Spring-Verlag, 2007.
[211] L. Tamine and S. Calabretto. Recherche d’information contextuelle et
web. In M. Boughanem and J. Savoy, editors, Recherche d’information :
état des lieux et perspectives, volume 1, chapter 7, pages 201–224. Hermès,
avril 2008.
[212] A. Theoblad and G. Weikum. The index-based xxl search engine for querying xml data with relevance ranking. In Proceedings of the 8th International Conference on Extending Database Technology (EDBT), pages
477–495, 2002.
[213] P. Thomas, K. Noack, and C. Paris. Evaluating interfaces for government metasearch. In Proceedings of the third symposium on Information
interaction in context (IIiX), pages 65–74, 2010.
[214] H. Tong, J. He, M. Li, C. Zhang, and W.-Y. Ma. Graph based multimedia learning. In Proceedings of the 13th annual ACM International
Conference on Multimedia, pages 862–871, 2005.
[215] G. Torsten. Storage and retrieval of xml documents within a cluter of
database systems. Thèse de Doctorat, Institut fédéral de technologie,
Zurich, Suisse, 2003.
Bibliographie
128
[216] A. Trotman. Choosing document structure weights. International Journal
of Information Processing and Management (IPM), 41(2) :243–264, 2005.
[217] A. Trotman and R. A. O’Keefe. Identifing and ranking relevant document
element. In Proceedings of INEX 2003 Workshop, pages 149–154, 2003.
[218] A. Trotman and B. Sigurbjörnsson. Narrowed extended xpath i (nexi).
In Proceedings of INEX 2004 Workshop [81], pages 219–237.
[219] A. Trotman and B. Sigurbjörnsson. Nexi, now and next. In Proceedings
of INEX 2004, pages 10–15, 2004.
[220] H. Turtle. Inference networks for document retrieval. Ph.D. Thesis, University of Massachusetts, Amherst, MA, USA, 1991.
[221] S. Vaid, B. C. Jones, H. Joho, and M. Sanderson. Spatio-textual indexing
for geographical search on the web. In Proceedings of the 9th international conference on Advances in Spatial and Temporal Databases (SSTD),
pages 218–235, 2005.
[222] D. Vallet and H. Zaragoza. Inferring the most important types of a query :
a semantic approach. In Proceedings of the the 31st annual international ACM SIGIR conference on Research and development in information
retrieval, pages 857–858, 2008.
[223] J.-N. Vittaut, B. Piwowarski, and P. Gallinari. An algebra for structured
queries in bayesian networks. In Pre-proceedings of INEX 2004, pages
58–65, 2004.
[224] E. M. Voorhees. Proceedings of the 8th text retrieval conference. In
TREC-8 Question Answering Track Report, pages 77–82, 1999.
[225] E. M. Voorhees, N. K. Gupta, and J. Laird. The collection fusion problem.
In TREC, 1994.
[226] H.-T. Vu, L. Denoyer, and P. Gallinari. Un modèle statistique pour la
classification de documents structurés. In Actes de 3ème conférence internationale francophone Extraction et Gestion des Connaissances, EGC
2003, pages 233–246, 2003.
[227] S. Walker, S. E. Robertson, M. Boughanem, G. J. F. Jones, and
K. Sparck Jones. Okapi at trec-6 automatic ad hoc, vlc, routing, filtering
and qsdr. In TREC, pages 125–136, 1997.
[228] F. Weigel, K. Shulz, and H. Meuss. Ranked retrieval of structured doucments with the sterm vector space model. In Proceedings of the INEX
2004 Workshop, pages 126–133, 2004.
[229] R. Wilkinson. Effective retrieval of structured documents. In the 17th
ACM SIGIR 1994, pages 311–317, 1994.
[230] J. E. Wolff, H. Florke, and A. B. Cremers. Searching and browsing collections of structural information. In Proceedings of IEEE Advances in
Digital Libraries (ADL), pages 141–150, 2000.
[231] A. Woodley and S. Geva. Nlpx at inex 2004. In N. Fuhr, M. Lalmas, S.
Malik, and Z. Szlavik, editors, INEX’04, pages 382–394. springer, 2004.
Bibliographie
129
[232] M. Wu and M. Fuller. Supporting the answering process. In Proceedings
of the Second Australian Document Computing Symposium, pages 65–73,
1997.
[233] J. Xu and B. Croft. Corpus based stemming using cooccurrence of word
variants. In ACM Transactions on Information Systems, pages 61–81,
1998.
[234] R. Yager and H. L. Larsen. Retrieving information by fuzzification of
queries. Journal of Intelligent Information Systems, 4(2) :106–119, 1993.
[235] G.-W. You, S.-W. Hwang, Z. Nie, and J.-R. Wen. Social search : enhancing entity search with social network matching. In Proceedings of
the 14th International Conference on Extending Database Technology
(EDBT), pages 515–519, New York, NY, USA, 2011. ACM.
[236] H. Zargayouna. Contexte et sémantique pour une indexation de documents sémi-structurés. In Proceedings CORIA, pages 571–581, 2004.
[237] H. Zeng, Q. He, Z. Chen, and W. Ma. Learning to cluster web search
results. In Proceedings of the ACM SIGIR, pages 210–217, 2004.
[238] C.-X. Zhai. Statistical language models for information retrieval a critical review. Journal Foundations and Trends in Information Retrieval
(FTIR), 2(3) :137–213, 2008.
[239] Y. Zhang, P. J. Callan, and P. T. Minka. Novelty and redundancy detection in adaptive filtering. In Proceedings of the ACM SIGIR, pages
81–88, 2002.
[240] K. Zhou, R. Cummins, and M. Lalmas. Evaluating large scale distributed vertical search. In Proceedings of the 9th International Workshop
on Large-Scale and Distributed Systems for Information Retrieval (LSDSIR), pages 9–14, 2011.