THÈSE
Présentée devant
l’Université Paul Sabatier de Toulouse
en vue de l’obtention du
Doctorat de l’Université Paul Sabatier
Spécialité : INFORMATIQUE
P ar
Lobna HLAOUA
Reformulation de Requêtes par
Réinjection de Pertinence dans les
Documents Semi-Structurés
Soutenue le 14 Décembre 2007, devant le jury composé de :
M. M. BOUGHANEM
M. C. CHRISMENT
M. P. GALLINARI
M. M. S. HACID
Mme. M. LALMAS
Mme. K. PINEL-SAUVAGNAT
Mme. F. SEDES
Professeur à l’Université Paul Sabatier, Toulouse III
Professeur à l’Université Paul Sabatier, Toulouse III
Professeur à l’Université Pierre et Marie Curie, Paris VI
Professeur à Université Claude Bernard Lyon 1
Professeur à l’Université de Queen Mary, Londres
Maitre de Conférence à l’Université Paul Sabatier, Toulouse III
Professeur à l’Université Paul Sabatier, Toulouse III
INSTITUT DE RECHERCHE EN INFORMATIQUE DE TOULOUSE
Centre National de la Recherche Scientifique - Institut National Polytechnique - Université Paul Sabatier
Université Paul Sabatier, 118 Route de Narbonne, 31062 Toulouse Cedex 04. Tel : 05.61.55.66.11
Directeur de thèse
Examinateur
Rapporteur
Examinateur
Rapporteur
Invitée
Examinateur
ii
Résumé
En raison de la diversité des masses d’informations, l’utilisateur a en général
de plus en plus de difficultés pour accéder aux informations qui répondent à son
besoin. XML est aujourd’hui présenté comme un nouveau standard permettant de
mieux décrire l’information. L’accès à ce type de document soulève de nouvelles
problématiques liées à la co-existence de l’information structurelle et de l’information
de contenu. L’objectif des systèmes de Recherche d’Information Structurée n’est plus
de renvoyer le document répondant à la requête, mais plutôt l’unité documentaire, la
partie du document répondant au mieux à la requête. Afin de mieux préciser le besoin
de l’utilisateur, les requêtes peuvent être améliorées via la stratégie de reformulation
de requêtes.
Les travaux décrits dans cette thèse s’intéressent à la reformulation de requêtes
par réinjection de pertinence dans les documents semi-structurés de type XML. Nous
proposons de nouvelles approches de réinjection de pertinence en utilisant différentes
sources d’évidences (le contenu et la structure).
Nous proposons dans une première approche d’enrichir le contenu de la requête initiale par des termes pertinents sélectionnés selon leur distribution dans les éléments
pertinents et non pertinents ainsi que leur proximité vis-à-vis des termes de la requête
initiale. Nous avons aussi proposé d’appliquer la réinjection de la pertinence négative
en introduisant le facteur bruit pour la sélection des termes pertinents.
Une autre source d’évidence que nous avons aussi utilisée est l’information structurelle. Nous traduisons ainsi la notion de structure pertinente, dont l’existence est
prouvée grâce à une étude empirique. Nous proposons l’algorithme Smallest Common Ancestor (SCA) pour l’extraction des structures pertinentes. Cette approche
a d’abord été appliquée pour des collections homogènes. Nous proposons aussi un
processus permettant d’extraire des structures pertinentes dans le cas des collections
hétérogènes.
Nous proposons également de faire cohabiter les deux sources d’évidence (contenu
et structure) dans une approche combinée. Nous proposons plusieurs méthodes de
combinaison. L’approche ”naı̈ve” consiste à regrouper les termes pertinents et les
structures pertinentes au niveau de la réécriture des requêtes. Une deuxième méthode
prend en compte la sémantique des éléments pertinents pour l’extraction des termes
pertinents. Enfin une méthode flexible permet de distribuer les termes pertinents en
fonction des structures pertinentes.
Quelle que soit l’approche de reformulation proposée, la réécriture de la requête
est formalisée au sein d’une grammaire. L’ensemble de ces méthodes a été appliqué
pour les deux types de requêtes structurées et non structurées.
Les résultats montrent l’intérêt des deux approches proposées (réinjection de
contenu et réinjection de structures), la combinaison des deux sources d’évidence
permettant également d’améliorer les performances.
Mots Clés : Réinjection de pertinence, Recherche d’Information Structurée,
XML, termes pertinents, structure pertinente, combinaison de sources d’évidence.
iv
Remerciements
Cette thèse est le fruit de trois années d’efforts incessants, mais aussi d’échanges
bénéfiques et de collaborations fructueuses. Ce travail n’aurait pas pu aboutir sans
le concours précieux et généreux de personnes qui partagent la même passion pour
la recherche scientifique. C’est avec un énorme plaisir que je remercie aujourd’hui
toutes les personnes qui m’ont soutenue durant ces trois années de travail pour faire
réussir cette thèse.
J’adresse mes sincères remerciements à Monsieur Claude Chrisment, Professeur
à l’Université Paul Sabatier, à Monsieur Gilles Zurfluh, Professeur à l’Université des
sciences sociales de Toulouse, qui m’ont accueillie au sein de l’équipe SIG.
Je tiens à remercier mon Directeur de thèse et encadrant, Monsieur Mohand
Boughanem, Professeur à l’Université Toulouse III, pour avoir accepté de diriger mes
travaux de recherches. Je le remercie pour la patience, la gentillesse et la disponibilité
dont il a fait preuve. Si j’arrive aujourd’hui au bout c’est grâce à ses conseils et ses
remarques constructives. Enfin, je n’oublierai jamais les moments où il était le seul
à pouvoir me réalimenter de force et de volonté, qu’il trouve ici l’expression de ma
très grande gratitude.
Je tiens à exprimer ma reconnaissance à Mme Karen Pinel-Sauvagnat, Maı̂tre
de conférence à l’Université Paul Sabatier de Toulouse de m’avoir fait profiter de sa
propre expérience, pour ses précieux conseils et sa ferme volonté de collaboration.
Un très grand merci à mes rapporteurs, dont la lecture approfondie de ce mémoire
a permis d’en améliorer la qualité : Madame Mounia Lalmas, Professeur de l’Université de Queen Mary de Londres et Monsieur Patrick Gallinari, Professeur à l’université de Marie Curie de Paris.
Je tiens également à remercier Mme Florence Sèdes, Professeur à l’Université
Toulouse III, Monsieur Mohand Saı̈d Hacid, Professeur à l’Université Claude Bernard
de Lyon et Monsieur Claude Chrisment, Professeur à l’Université Toulouse III pour
l’intérêt qu’ils ont porté à mes travaux en examinant ce mémoire et pour l’honneur
qu’ils me font en participant à ce jury.
Mes remerciements vont de même à tous les membres de l’équipe SIG de l’IRIT
pour leur aide et leur gentillesse. Merci aussi au personnel du laboratoire (Annie,
Brigitte, Aghathe, Françoise, Jean-Pierre, ...) pour sa gentillesse ainsi que pour son
aide.
Je tiens également à remercier tous les thésards qui sont présents (Mouna, Meriam, Desiré, Mohamed, Karim,...) avec qui j’ai partagé de bons moments à la salle
machine, aux pauses café, au RU,.... Je n’oublie pas non plus les docteurs qui ont été
des anciens thésards (Hamid, Kais,...) et qui m’ont encouragé, leurs conseils m’ont
toujours servi.
Bouchra, Dana, les filles les plus adorables qui m’ont toujours supportée et soutenue. Vous avez fait preuve d’une sincère amitié, j’ai vécu des moments inoubliables
avec vous, GRAND merci. Merci aussi à tous les amis que j’ai connus à Toulouse,
ainsi que mon amie Wafa que j’ai connue en Tunisie, et avec laquelle j’ai partagé
également de bons moments à Toulouse.
Enfin, je remercie du fond du cœur et avec un grand amour mes parents qui
n’ont jamais cessé de croire en moi pendant toutes mes années d’études. Merci aussi
à mes sœurs et frère, à mes oncles (Mahmoud, Mohamed,...), mes tantes et à toute
la famille qui m’ont toujours encouragée.
vi
Table des matières
Introduction Générale
Contexte du travail . .
Problématique . . . .
Contribution . . . . .
Organisation . . . . .
I
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Etat de l’Art
1 Recherche d’Information Structurée
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Processus de Recherche d’Information Classique . . . . . . . . . . . .
1.2.1 Indexation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Appariement document-requête . . . . . . . . . . . . . . . . .
1.2.2.1 Le modèle booléen . . . . . . . . . . . . . . . . . . .
1.2.2.2 Le modèle vectoriel . . . . . . . . . . . . . . . . . .
1.2.2.3 Le modèle probabiliste . . . . . . . . . . . . . . . .
1.2.2.4 Le modèle inférentiel bayésien . . . . . . . . . . . .
1.2.2.5 Les modèles de langage . . . . . . . . . . . . . . . .
1.2.3 Reformulation de requêtes . . . . . . . . . . . . . . . . . . . .
1.2.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4.1 Mesures d’évaluation . . . . . . . . . . . . . . . . .
1.2.5 Collections de référence . . . . . . . . . . . . . . . . . . . . .
1.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Documents semi-structurés et enjeux de la Recherche d’Information
Structurée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Documents semi-structurés . . . . . . . . . . . . . . . . . . .
1.3.2 Enjeux de la Recherche d’Information Structurée . . . . . . .
1.3.2.1 Unité d’information recherchée . . . . . . . . . . . .
1.3.2.2 Problématiques spécifiques de la RI structurée . . .
1.3.3 Principales stratégies en recherche d’information structurée .
1.4 Indexation et langages de requêtes . . . . . . . . . . . . . . . . . . .
1.4.1 Indexation de documents semi-structurés . . . . . . . . . . .
1.4.1.1 Indexation de l’information textuelle . . . . . . . . .
1.4.1.2 Indexation de l’information structurelle . . . . . . .
1
1
2
4
6
8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
10
11
13
13
13
14
15
17
18
19
19
22
22
.
.
.
.
.
.
.
.
.
.
23
23
24
24
27
28
30
30
31
32
1.4.2
1.5
1.6
1.7
Langages de requêtes . . . . . . . . . . . . . . . . . . . . . . .
1.4.2.1 XQuery . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.2.2 XQL . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.2.3 NEXI . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.2.4 XOR . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.2.5 Autres langages d’interrogation . . . . . . . . . . . .
Appariement élément-requête . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Modèle vectoriel étendu . . . . . . . . . . . . . . . . . . . . .
1.5.2 Modèle booléen pondéré . . . . . . . . . . . . . . . . . . . . .
1.5.3 Modèle probabiliste . . . . . . . . . . . . . . . . . . . . . . .
1.5.4 Modèle inférentiel . . . . . . . . . . . . . . . . . . . . . . . .
1.5.5 Modèles de langage . . . . . . . . . . . . . . . . . . . . . . . .
1.5.6 Autres modèles de recherche . . . . . . . . . . . . . . . . . .
1.5.7 Modèles spécifiques aux collections de documents hétérogènes
Évaluation de la RIS : La campagne INEX . . . . . . . . . . . . . . .
1.6.1 Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.2 Requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.3 La tâche ad-hoc . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.3.1 Tâche CO . . . . . . . . . . . . . . . . . . . . . . .
1.6.3.2 Tâche CAS . . . . . . . . . . . . . . . . . . . . . . .
1.6.3.3 Stratégies de recherche . . . . . . . . . . . . . . . .
1.6.4 Autres tâches . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.4.1 Traitement automatique du langage naturel . . . . .
1.6.4.2 Tâche Reformulation par réinjection de pertinence
(Relevance Feedback) . . . . . . . . . . . . . . . . .
1.6.4.3
Tâche Hétérogène . . . . . . . . . . . . . . . . . . .
1.6.4.4 Fouille de données (Data mining) . . . . . . . . . .
1.6.4.5 Tâche interactive . . . . . . . . . . . . . . . . . . . .
1.6.4.6
Tâche multimedia . . . . . . . . . . . . . . . . . . .
1.6.5 Jugements de pertinence . . . . . . . . . . . . . . . . . . . . .
1.6.6 Mesures d’évaluation . . . . . . . . . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Reformulation de Requêtes
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . .
2.2 Techniques pour l’amélioration des performances des
cherche . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Expansion et combinaison de requêtes . . . .
2.2.2 Combinaison de requêtes . . . . . . . . . . .
2.3 Réinjection de pertinence . . . . . . . . . . . . . . .
2.3.1 Motivation . . . . . . . . . . . . . . . . . . .
2.3.2 Processus général de RF . . . . . . . . . . . .
2.3.3 Méthodes d’extraction des termes . . . . . . .
viii
. . . . . . .
systèmes de
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
34
34
35
35
36
36
37
39
39
41
42
43
43
45
45
45
48
48
49
49
50
50
.
.
.
.
.
.
.
.
50
50
51
51
51
51
52
54
55
. . . 55
re. . . 56
. . . 57
. . . 58
. . . 59
. . . 59
. . . 59
. . . 61
2.3.4
2.4
2.5
2.6
Principales approches de réinjection de pertinence en RI . . . .
2.3.4.1 Approche de Rocchio . . . . . . . . . . . . . . . . . .
2.3.4.2 Réinjection de pertinence dans le modèle probabiliste
2.3.4.3 Réinjection de pertinence dans le modèle inférentiel .
2.3.4.4 Autres propositions . . . . . . . . . . . . . . . . . . .
2.3.5 Reformulation par réinjection de pertinence négative . . . . . .
2.3.6 Autres formes de Réinjection de pertinence . . . . . . . . . . .
2.3.6.1
Réinjection automatique de pertinence . . . . . . . .
2.3.6.2 Réinjection de pertinence à itérations multiples . . . .
2.3.6.3 Extension interactive de requêtes . . . . . . . . . . . .
2.3.6.4
Combinaison d’algorithmes de réinjection de pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . .
Réinjection de pertinence en RIS . . . . . . . . . . . . . . . . . . . . .
2.4.1 Problématiques de la réinjection de pertinence en RIS . . . . .
2.4.2 Principales approches de la réinjection de pertinence en RIS . .
2.4.2.1 Approches orientées contenu . . . . . . . . . . . . . .
2.4.2.2 Approches orientées contexte . . . . . . . . . . . . . .
2.4.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Évaluation de la reformulation de requêtes . . . . . . . . . . . . . . . .
2.5.1 Différentes stratégies d’évaluation de la reformulation . . . . .
2.5.2 Évaluation selon la campagne d’évaluation INEX . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
64
65
67
68
70
71
71
73
73
73
74
74
75
75
77
80
81
81
83
84
II Nouvelles Approches pour la Reformulation de requêtes
86
en Recherche d’Information Structurée
3 Reformulation de requêtes par réinjection de contenu et de struc87
tures
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.3 Approche orientée Contenu . . . . . . . . . . . . . . . . . . . . . . . . 90
3.3.1 Extraction et Sélection des termes pertinents . . . . . . . . . . 90
3.3.1.1 Stratégie de base : Sélection par probabilité de pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.3.1.2 Stratégie basée sur le contexte . . . . . . . . . . . . . 91
3.3.1.3 Prise en compte de la pertinence négative . . . . . . . 94
3.3.2 Pondération des termes de la requête . . . . . . . . . . . . . . . 96
3.3.3 Réécriture de la requête . . . . . . . . . . . . . . . . . . . . . . 97
3.3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.4 Réinjection de la structure . . . . . . . . . . . . . . . . . . . . . . . . 99
3.4.1 La notion de structure pertinente . . . . . . . . . . . . . . . . . 100
3.4.2 Extraction de la structure pertinente . . . . . . . . . . . . . . . 102
ix
3.4.3
3.5
3.6
Extraction de structures pertinentes dans des documents homogènes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.4.3.1 Algorithmes de recherche des ancêtres communs . . . 103
3.4.3.2 L’algorithme SCA (Smallest Common Ancestor) . . . 104
3.4.3.3 Exemple d’application de l’algorithme SCA . . . . . . 105
3.4.4 Extraction des structures pertinentes dans des documents hétérogènes108
3.4.5 Réécriture de la requête . . . . . . . . . . . . . . . . . . . . . . 111
Approche Combinée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3.5.1 Combinaison naı̈ve . . . . . . . . . . . . . . . . . . . . . . . . . 114
3.5.2 Combinaison avec dépendance contextuelle . . . . . . . . . . . 116
3.5.3 Combinaison flexible . . . . . . . . . . . . . . . . . . . . . . . . 118
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4 Evaluations & Expérimentations
123
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.2 Plateforme pour l’évaluation . . . . . . . . . . . . . . . . . . . . . . . . 124
4.2.1 Le système de recherche XFIRM . . . . . . . . . . . . . . . . . 124
4.2.1.1 Évaluation de pertinence des noeuds feuilles . . . . . 124
4.2.1.2 Propagation de pertinence dans une requête non structurée . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.2.1.3 Propagation de pertinence dans une requête structurée125
4.2.2 Rappel sur les collections de test . . . . . . . . . . . . . . . . . 127
4.2.2.1 Collection de documents . . . . . . . . . . . . . . . . 127
4.2.2.2 Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.2.2.3 Jugements de pertinence . . . . . . . . . . . . . . . . 128
4.2.2.4 Mesures d’évaluation . . . . . . . . . . . . . . . . . . 129
4.2.3 Stratégies d’évaluation . . . . . . . . . . . . . . . . . . . . . . . 130
4.2.4 Résultats de base . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.2.5 Démarche d’évaluation . . . . . . . . . . . . . . . . . . . . . . . 131
4.3 Échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.3.1 Choix du nombre d’éléments jugés . . . . . . . . . . . . . . . . 132
4.3.1.1 Tâche CO . . . . . . . . . . . . . . . . . . . . . . . . 133
4.3.1.2 Tâche CO+S . . . . . . . . . . . . . . . . . . . . . . . 135
4.3.1.3 Tâche VVCAS . . . . . . . . . . . . . . . . . . . . . 136
4.3.1.4 Discussion et bilan . . . . . . . . . . . . . . . . . . . . 137
4.3.2 Choix du nombre d’éléments jugés pertinents dans un échantillon139
4.3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.4 Évaluation de la RF Orientée Contenu . . . . . . . . . . . . . . . . . . 145
4.4.1 Nombre de termes réinjectés . . . . . . . . . . . . . . . . . . . . 146
4.4.1.1 Tâche CO . . . . . . . . . . . . . . . . . . . . . . . . 146
4.4.1.2 Tâche CO+S . . . . . . . . . . . . . . . . . . . . . . . 147
4.4.1.3 Tâche VVCAS de la collection 2005 . . . . . . . . . . 148
4.4.1.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . 148
x
4.4.2
4.5
4.6
4.7
4.8
4.9
Impact des stratégies de sélection et de pondération des termes
de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.2.1 Tâche CO . . . . . . . . . . . . . . . . . . . . . . .
4.4.2.2 Tâche CO+S . . . . . . . . . . . . . . . . . . . . .
4.4.2.3 Tâche VVCAS . . . . . . . . . . . . . . . . . . . .
4.4.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Évaluation de la reformulation Orientée-Structure . . . . . . . . . . .
4.5.1 Nombre adéquat de structures à réinjecter . . . . . . . . . . .
4.5.2 Réinjection de la balise ou du chemin . . . . . . . . . . . . .
4.5.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Évaluation de la reformulation Orientée-Contenu & Structure . . . .
4.6.1 Tâche CO . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6.2 Tâche CO+S . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6.2.1 Tâche VVCAS . . . . . . . . . . . . . . . . . . . . .
4.6.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Autres études qualitatives . . . . . . . . . . . . . . . . . . . . . . . .
4.7.1 Impact des jugements de pertinence . . . . . . . . . . . . . .
Autres applications de la Réinjection de pertinence . . . . . . . . . .
4.8.1 Application de plusieurs itérations de réinjection . . . . . . .
4.8.2 Utilisation de la réinjection de pertinence ”aveugle” . . . . .
Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9.2 Étude comparative . . . . . . . . . . . . . . . . . . . . . . . .
4.9.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
151
151
152
153
153
154
154
156
157
158
159
159
161
161
162
162
163
163
165
166
166
167
169
Conclusion Générale
171
Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
A Les
A.1
A.2
A.3
Documents XML
175
Structure du document XML . . . . . . . . . . . . . . . . . . . . . . . 175
Les DOMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
XPath . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
xi
Liste des tableaux
3.1
3.2
Propriétés des jugement de pertinence . . . . . . . . . . . . . . . . .
Répartition des éléments pertinents en fonction des types de structures
- INEX 2005-2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Récapitulation des différences de distance entre les structures . . . .
3.4 Algorithme d’extraction de la structure générique. . . . . . . . . . .
3.5 Grammaire de la réécriture des requêtes par injection de structure. .
3.6 Grammaire de la réécriture des requêtes par injection des structures
et des mots clés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7 Distribution des termes dans les structures génériques. . . . . . . . .
3.8 Les relations termes pertinents-structures génériques. . . . . . . . . .
3.9 Grammaire de la réécriture des requêtes par injection flexible des
structures et des mots clés. . . . . . . . . . . . . . . . . . . . . . . .
3.10 Distribution des termes dans les structures génériques. . . . . . . . .
4.1
4.2
Résultats de base des collections 2005 et 2006. . . . . . . . . . . . .
Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la
tâche CO de la collection 2005 . . . . . . . . . . . . . . . . . . . . .
4.3 Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la
tâche CO de la collection 2006 . . . . . . . . . . . . . . . . . . . . .
4.4 Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la
tâche CO+S de la collection 2005 . . . . . . . . . . . . . . . . . . . .
4.5 Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la
tâche CO+S de la collection 2006 . . . . . . . . . . . . . . . . . . . .
4.6 Impact du nombre d’éléments jugés sur l’échantillon dans le cas de la
tâche VVCAS de la collection 2005 . . . . . . . . . . . . . . . . . . .
4.7 Moyennes des éléments jugés pertinents dans les échantillons . . . .
4.8 Impact du nombre d’éléments jugés pertinents sur l’échantillon dans
le cas de la tâche CO de la collection 2005 . . . . . . . . . . . . . . .
4.9 Impact du nombre d’éléments jugés pertinents sur l’échantillon dans
le cas de la tâche CO+S de la collection 2005 . . . . . . . . . . . . .
4.10 Impact du nombre d’éléments jugés pertinents sur l’échantillon dans
le cas de la tâche CO+S de la collection 2006 . . . . . . . . . . . . .
4.11 Impact du nombre d’éléments jugés pertinents sur l’échantillon dans
le cas de la tâche VVCAS de la collection 2005 . . . . . . . . . . . .
4.12 Moyennes des éléments jugés dans les échantillons . . . . . . . . . .
. 101
.
.
.
.
101
103
105
113
. 115
. 118
. 119
. 120
. 121
. 131
. 134
. 134
. 135
. 136
. 137
. 138
. 139
. 140
. 140
. 141
. 142
4.13 Résultats selon le nouvel échantillon de test pour les différentes tâches
de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.14 Comparaison des résultats du nouvel échantillon et l’échantillon fixe . 144
4.15 Impact du nombre de termes pertinents à réinjecter dans le cas de la
tâche CO de la collection 2005 . . . . . . . . . . . . . . . . . . . . . . 146
4.16 Impact du nombre de termes pertinents à réinjecter dans le cas de la
tâche CO+S de la collection 2005 . . . . . . . . . . . . . . . . . . . . . 147
4.17 Impact du nombre de termes pertinents à réinjecter dans le cas de la
tâche CO+S de la collection 2006 . . . . . . . . . . . . . . . . . . . . . 148
4.18 Impact du nombre de termes pertinents à réinjecter dans le cas des
requêtes VVCAS de la collection 2005 . . . . . . . . . . . . . . . . . . 149
4.19 Impact des stratégies de sélection et pondération des termes dans le
cas des requêtes CO de la collection 2005 . . . . . . . . . . . . . . . . 151
4.20 Impact des stratégies de sélection et pondération des termes dans le
cas de la tâche CO+S de la collection 2005 . . . . . . . . . . . . . . . 152
4.21 Impact des stratégies de sélection et pondération des termes dans le
cas de la tâche CO+S de la collection 2006 . . . . . . . . . . . . . . . 152
4.22 Impact des stratégies de sélection et pondération des termes dans le
cas de la tâche VVCAS de la collection 2005 . . . . . . . . . . . . . . . 153
4.23 Impact du nombre de structures pertinentes à réinjecter dans le cas
des tâches CO, CO+S et VVCAS de la collection 2005 et la tâche
CO+S de la collection 2006 . . . . . . . . . . . . . . . . . . . . . . . . 155
4.24 Réinjection de structure (Element cible, Chemin spécifique et Chemin
générique) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.25 Reformulation de requêtes par combinaison dans le cas de la tâche CO
de la collection 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
4.26 Reformulation de requêtes par combinaison dans le cas de la tâche
CO+S de la collection 2005 . . . . . . . . . . . . . . . . . . . . . . . . 160
4.27 reformulation de requêtes par combinaison dans le cas de la tâche
CO+S de la collection 2006 . . . . . . . . . . . . . . . . . . . . . . . . 160
4.28 Reformulation de requêtes par combinaison dans le cas de la tâche
VVCAS de la collection 2005 . . . . . . . . . . . . . . . . . . . . . . . 161
4.29 Réinjection de pertinence basée sur un jugement de pertinence généralisé163
4.30 Réinjection de pertinence en 2 itérations . . . . . . . . . . . . . . . . . 164
4.31 Réinjection de pertinence en 3 itérations . . . . . . . . . . . . . . . . . 164
4.32 Réinjection de pertinence ”aveugle” . . . . . . . . . . . . . . . . . . . 165
4.33 Evaluation selon le protocole d’INEX . . . . . . . . . . . . . . . . . . . 167
4.34 Classement de notre système parmi les résultats officiels de la campagne d’évaluation INEX 2005 dans le cas de la tâche CO . . . . . . . 168
4.35 Classement de notre système parmi les résultats officiels de la campagne d’évaluation INEX 2005 dans le cas de la tâche CO+S . . . . . 168
4.36 Classement de notre système parmi les résultats officiels de la campagne d’évaluation INEX 2006 dans le cas de la tâche CO+S . . . . . 169
xiii
Table des figures
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
Le Processus en U de la Recherche d’Information . . . . . . . . .
Modèle de réseau inférentiel bayésien simple . . . . . . . . . . . .
Définition du rappel et de la précision . . . . . . . . . . . . . . .
Courbes de rappel-précision pour deux requêtes R1 et R2 . . . .
Exemple d’un document XML . . . . . . . . . . . . . . . . . . . .
Modèle d’augmentation [61] . . . . . . . . . . . . . . . . . . . . .
Exemple d’un article de la collection IEEE au format XML . . .
Exemple d’un article de la collection Wikipédia au format XML .
Exemple de requête CO de la collection 2005 . . . . . . . . . . .
Exemple de requête de la collection 2006 . . . . . . . . . . . . . .
2.1
2.2
Le Processus général de l’amélioration de la recherche . . . . . . . . . 57
Le Processus général de la réinjection de pertinence . . . . . . . . . . . 60
3.1
3.2
3.3
3.4
3.5
3.6
3.7
Mécanisme de reformulation . . . . . . . . . . . . .
Variation du bruit en fonction de fréquences . . . .
Recherche d’une structure générique :A . . . . . .
Recherche d’une structure générique : C . . . . . .
Recherche d’une structure générique : B . . . . . .
Recherche d’une structure générique : C . . . . . .
Présentation des structures dans un graphe orienté
4.1
Nombre de termes à réinjecter en fonction de la taille des requêtes. . . 150
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
16
20
21
25
40
46
46
47
47
89
95
106
106
107
107
111
A.1 Exemple d’un document XML . . . . . . . . . . . . . . . . . . . . . . . 176
A.2 L’arbre DOM d’un document XML . . . . . . . . . . . . . . . . . . . . 178
A.3 Axes de navigation XPath . . . . . . . . . . . . . . . . . . . . . . . . . 179
Introduction Générale
Contexte du travail
Chercher une information sur le web devient un geste quotidien que font des
utilisateurs diversifiés en âge, en culture, en spécialité, et ayant des domaines
d’intérêt variés. De nos jours, la richesse documentaire augmente, et ce essentiellement grâce à la croissance massive des documents numériques, souvent
hétérogènes dans leur forme et leur contenu.
En raison de la diversité des masses d’informations, l’utilisateur a en général
de plus en plus de difficultés pour accéder aux informations qui répondent à son
besoin. C’est cette diversité qui a conduit le W3C (World Wide Web Consortium) à mettre en œuvre de nombreux chantiers permettant de mieux décrire
l’information. Les premiers résultats en sont les langages XML (eXtensible Markup Language) [196] et RDF (Resource Description Framework ) [113].
XML est aujourd’hui présenté comme un nouveau standard dont la vocation
n’est rien de moins que de standardiser le formatage des données indépendamment d’un quelconque format propriétaire, quel que soit le type de données.
Ce langage présente une véritable révolution dans la manière de traiter ces
données.
Les documents XML, outre les données elles mêmes, intègrent des méta-informations et des informations structurelles. On parle ainsi de documents semistructurés.
L’accès à ce type de document soulève de nouvelles problématiques liées à
la co-existence de l’information structurelle et de l’information de contenu. Les
Systèmes de Recherche d’Information (SRI ) conçus en Recherche d’information (RI ) traditionnelle, traitent les documents comme des unités atomiques
d’information et ne répondent pas à la nature des documents structurés et
semi-structurés.
Introduction Générale
2
Afin de valoriser au mieux l’ensemble des informations disponibles, les
méthodes existantes de RI doivent être adaptées ou de nouvelles méthodes
doivent être proposées. C’est dans ce contexte de Recherche d’Information
Structurée (RIS ) que se situent nos travaux. L’objectif des systèmes de RIS
n’est plus de renvoyer le document répondant à la requête, mais plutôt l’unité
documentaire, la partie du document répondant au mieux à la requête. Pour
répondre à ce challenge, plusieurs modèles de recherche ont été proposés dans
la littérature [60, 62, 63, 65, 64].
Nous nous intéressons dans nos travaux à l’application de la reformulation
de requêtes en RIS afin de satisfaire l’utilisateur en lui restituant les meilleurs
granules documentaires (parties de documents) répondant à son besoin.
Problématique
La recherche d’information est un processus qui se base essentiellement sur
la requête exprimée par l’utilisateur pour répondre à ses besoins. En effet, quel
que soit le système de recherche utilisé, le résultat d’une recherche ne peut être
pertinent si la requête ne décrit pas explicitement et clairement les besoins de
l’utilisateur. Or, il est généralement reconnu que l’utilisateur se contente de
donner quelques mots clés. Ces derniers sont issus d’une connaissance générale
sur le sujet recherché. Par conséquent, les documents renvoyés par le système
de recherche peuvent ne pas satisfaire les besoins de l’utilisateur.
La reformulation de requêtes est une des stratégies qui permet d’améliorer
la construction d’une requête. Elle consiste de manière générale à enrichir la
requête de l’utilisateur en ajoutant des termes permettant de mieux exprimer
son besoin [52]. Une des techniques les plus répandues en RI est la reformulation par réinjection de la pertinence, communément appelée Relevance Feedback
(RF). Elle consiste à extraire à partir d’un échantillon de documents jugés pertinents par l’utilisateur les mots clés les plus pertinents, et à les ajouter à la
requête.
Les travaux décrits dans cette thèse s’intéressent à la reformulation de
requêtes par réinjection de pertinence dans les documents semi-structurés de
type XML. La nature des documents manipulés dans ce contexte, comportant
du texte et des informations structurelles sous forme de balises, réactualise la
problématique de la RI classique (plein texte) en général et de la reformulation
de requêtes en particulier.
Introduction Générale
3
– Tout d’abord au niveau de l’expression des requêtes, l’utilisateur peut
exprimer ses besoins de deux manières, soit en n’utilisant que des mots
clés (on parle alors de requêtes orientée contenu), ou bien en utilisant des
requêtes comportant des mots clés et des contraintes structurelles (on
parle alors de requêtes orientées contenu et structure).
En pratique, la plupart des utilisateurs se contentent de formuler leurs
requêtes par de simples mots clés qui représentent le langage de requêtes
le plus simple. Leurs requêtes peuvent également contenir des contraintes
structurelles au sens large, c’est à dire des contraintes structurelles assez
vagues. En effet, la formulation d’une requête bien structurée nécessite
d’une part une connaissance de la structure des documents, d’autre part
une certaine compétence dans le langage de requête.
– Ensuite au niveau de la recherche, contrairement à la RI traditionnelle
qui considère le document comme une unité d’information atomique, la
RI structurée a pour but d’identifier de manière automatique la partie du
document (l’élément du document XML), répondant à la fois de manière
exhaustive et spécifique à la requête de l’utilisateur. Une information
est dite exhaustive si elle contient toute information répondant aux besoins de l’utilisateur et spécifique si elle ne contient que l’information
répondant aux besoins de l’utilisateur.
– Enfin, au niveau du processus de Relevance Feedback (RF ), il est nécessaire
de tenir compte de l’information structurelle des documents, à la fois dans
la requête initiale, les documents jugés par l’utilisateur et la requête reformulée.
Nous nous intéressons dans le cadre de cette thèse à la réinjection de pertinence en Recherche d’Information Structurée. Plusieurs questions se posent
dans ce contexte, elles portent en général sur la manière de prendre en compte
l’information structurelle. Plus précisément :
– En RI classique, l’unité documentaire jugée et donc à partir de laquelle
les termes sont extraits, est le document entier. Les méthodes proposées
ont montré leur intérêt en termes de rappel-précision [154], [152]. Or
dans le contexte de la RIS, l’unité documentaire peut avoir différentes
formes. Elle peut être le document entier ou tout élément du document.
Une adaptation simpliste des méthodes de la RI classique à la RI structurée consisterait à extraire les termes pertinents à partir des éléments
de différentes granularités jugés pertinents par l’utilisateur. Cette adaptation simpliste est-elle en adéquation avec la RI structurée ? Comment
tenir compte du fait que les éléments peuvent être imbriqués les uns dans
les autres ? Permet-elle effectivement d’améliorer les performances de la
Introduction Générale
4
recherche ? Au lieu de sélectionner indifféremment tous les éléments pertinents pour l’extraction des termes, doit-on au contraire prendre en compte
les sémantiques différentes des éléments (par exemple, paragraphe, titre,
section) ?
– La reformulation de requêtes s’est intéressée à enrichir la requête initiale
par extraction et réinjection des termes pertinents, mais qu’en est-il de
la dimension structurelle ? Est-il intéressant d’enrichir une requête avec
des contraintes structurelles ? Avant de répondre à ces questions il faut
tout d’abord répondre à celle-ci : Existe-t-il des structures pertinentes et
comment sont-elles définies ?
– Comme nous l’avons signalé, en RI structurée, la pertinence des éléments
dépend de deux dimensions : la spécificité et l’exhaustivité. Ainsi, la
pertinence ne peut plus être évaluée d’une façon booléenne (pertinent/
non pertinent). La problématique considérée à ce niveau est : comment
prendre en compte cette graduation de la pertinence dans la reformulation de requêtes ?
– Une dernière question concernant le processus de la reformulation est la
réécriture de la requête. D’une manière générale, on aura à rajouter des
termes pertinents et/ou des structures pertinentes à des requêtes structurées et non structurées. La question est comment intégrer ces deux
évidences dans la requête initiale ? Comment pondérer les termes ? Doiton re-pondérer les termes originaux ? Comment rajouter des structures
à des requêtes déjà structurées ? A quels groupes de mots-clés doit-on
ajouter des conditions structurelles ?
Contribution
Afin de répondre aux questions listées précédemment, nous avons proposé
un mécanisme complet et flexible de reformulation partant de la sélection
de l’échantillon des éléments jugés jusqu’au renvoi d’un ensemble d’éléments
répondant à la requête reformulée.
Les approches proposées se basent sur l’extraction et la réinjection de différentes évidences (mots clés et structures) dans la nouvelle requête. Nous avons
proposé deux principales approches : l’approche orientée contenu et l’approche
orientée structure.
Introduction Générale
5
Plus précisément, au niveau de l’approche orientée contenu, nous avons
procédé de manière à extraire et sélectionner des termes pertinents, au sein des
éléments jugés pertinents en fonction de leur probabilité de pertinence et de
leur contexte. Dans notre approche, nous estimons le contexte en fonction de
la position d’un terme pertinent vis à vis des termes de la requête initiale. Ces
termes sont ensuite pondérés soit en se basant directement sur le score ayant
permis leur sélection ou selon une formule prenant en compte leur importance
dans la collection d’éléments et la collection de documents. Nous avons aussi
proposé d’appliquer la réinjection de la pertinence négative en introduisant
le facteur bruit pour la sélection des termes pertinents. Cette approche est
évaluée pour les requêtes structurées et non structurées en utilisant deux collections provenant d’INEX1 .
Au niveau de l’approche orientée structure, nous avons tout d’abord
effectué une étude empirique qui nous a permis de conclure qu’il existe une ou
plusieurs structures pertinentes pour une requête donnée. Nous avons ramené la
notion de structure pertinente à la notion de structure générique que nous avons
définie en fonction de son apparition dans les structures des éléments jugés pertinents. Nous avons ensuite proposé un algorithme appelé Smallest Common
Ancestor (SCA) pour l’extraction de cette dernière. Cette approche a d’abord
été appliquée pour des collections homogènes (c’est à dire possédant des documents aux structures similaires), puis nous avons proposé d’étendre l’algorithme
pour supporter les collections hétérogènes (c’est à dire ayant des documents aux
structures différentes). Cette approche a également été appliquée pour les deux
types de requêtes orientées contenu et orientées contenu et structure.
Nous avons également proposé une approche combinée utilisant les deux
approches précédentes. Elle considère les deux sources d’évidence contenu et
structure. Nous avons proposé plusieurs méthodes de combinaison, dont la plus
simple, appelée ”naı̈ve”, consiste à regrouper les termes pertinents et les structures pertinentes au niveau de la réécriture des requêtes. Une deuxième méthode
prend en compte la sémantique des éléments pertinents pour l’extraction des
termes pertinents. Enfin une méthode flexible permet de distribuer les termes
pertinents en fonction des structures pertinentes. L’ensemble de ces méthodes
a été appliqué pour les deux types de requêtes.
Quelle que soit l’approche de reformulation proposée la réécriture de la
requête est formalisée au sein d’une grammaire. De plus, toutes les méthodes
sont évaluées sur le système de recherche d’information structurée XFIRM [166]
1 INEX
: INiative for the Evaluation of XML REtrieval, est une campagne
d’évaluation de la recherche d’information dans les documents XML
Introduction Générale
6
élaboré au sein de notre équipe.
Enfin, toutes nos propositions ont été évaluées sur des collections standards issues des campagnes d’évaluation INEX (INiative for the Evaluation of
XML REtrieval ) 2005 et INEX 2006. Nous proposons également d’appliquer
les différentes approches en mode aveugle, dans lequel l’utilisateur n’intervient
pas sur le jugement des éléments pertinents. Les résultats montrent l’intérêt des
deux approches proposées (réinjection de contenu et réinjection de structures).
La combinaison des deux sources d’évidence permet également d’améliorer les
performances de manière significative.
Organisation
Ce mémoire de thèse est composé de la présente introduction générale,
de deux principales parties (état de l’art et contribution) et d’une conclusion
générale dans laquelle nous présentons les principales conclusions ainsi que les
perspectives de nos travaux.
Les deux principales parties sont organisées comme suit :
– La première partie, composée de deux chapitres présente un état de l’art.
Dans le premier chapitre nous introduisons le cadre général de notre
contribution. Nous présentons brièvement le processus de recherche d’information traditionnelle (section 1.2). Ensuite, nous détaillons les enjeux
de la recherche d’information structurée (section 1.3) ainsi que les approches d’indexation et d’appariement développées dans ce cadre (section
1.4 et section 1.5). Enfin, nous présentons l’évaluation des systèmes de
recherche en RIS dans la section 1.6.
Dans le deuxième chapitre, nous présentons les différentes méthodes et
approches proposées pour l’amélioration des performances des systèmes
de recherche en général (section 2.2). Nous décrivons ensuite les différentes
propositions développées pour la reformulation des requêtes par réinjection
de pertinence appliquées aux systèmes de recherche classique (section
2.3) et structuré (section 2.4). Nous présentons également les différentes
méthodes d’évaluation de la réinjection de pertinence dans la section 2.5.
– La deuxième partie concerne notre contribution. Dans le premier chapitre nous détaillons nos trois propositions (l’approche orientée contenu,
l’approche orientée structure, et l’approche combinée). Pour la première
approche (section 3.3), nous décrivons les trois étapes sous-jacentes :
l’extraction et la sélection des termes (section 3.3.1), la pondération de
termes (section 3.3.2) et la réécriture de la requête (section 3.3.3). Nous
Introduction Générale
7
présentons également la réinjection de pertinence négative dans la section 3.3.1.3. Pour l’approche orientée structure (section 3.4), nous montrons statistiquement l’intérêt du concept de structure pertinente (section
3.4.1). Nous définissons ensuite la notion de structure générative et nous
détaillons le processus d’extraction dans les sections 3.4.2 et 3.4.3. Puis
nous proposons l’extension de cette approche à des collections hétérogènes
dans la section 3.4.4. Enfin, nous définissons la grammaire de réécriture
pour les deux types de requêtes structurées et non structurées dans la
section 3.4.5. L’approche combinée propose trois combinaisons différentes
de l’approche orientée contenu et l’approche orientée structure. Elles sont
détaillées respectivement dans les sections 3.5.1, 3.5.2 et 3.5.3.
Dans le second chapitre, après avoir décrit notre plateforme d’évaluation
dans la section 4.2, nous étudions dans la section 4.3 l’échantillonnage
pour l’évaluation de nos approches. Les impacts des approches orientée
contenu, orientée structure et combinée sont détaillés dans les sections
4.4, 4.5 et 4.6. Nous réalisons d’autres études expérimentales dans la section 4.7 pour évaluer l’impact de la nature du jugement de pertinence
(section 4.7.1). Enfin (section 4.8), nous testons l’application de la reformulation en plusieurs itérations (section 4.8.1) et de la réinjection aveugle
(section 4.8.2).
Première partie
Etat de l’Art
8
Chapitre 1
Recherche d’Information
Structurée
1.1
Introduction
Un Système de Recherche d’Information (SRI) permet de retrouver à partir d’une collection de documents les documents pertinents répondant à une
requête d’utilisateur. Trois notions clés caractérisent un SRI : document, requête
et pertinence.
Un document désigne toute unité qui peut présenter une réponse à une requête
donnée. En effet, un document peut être un morceau de texte, une page Web,
une image, une séquence vidéo, etc. En outre, les documents textuels peuvent
avoir plusieurs spécifications ; un document peut être un texte sans aucune
structuration (appelé plein texte), mais peut aussi contenir des balises descriptives on parle alors de documents semi-structurés de type XML par exemple.
Les documents peuvent aussi être complètement structurés, c’est à dire qu’ils
possèdent une structure fixe comme par exemple des formulaires.
Une requête exprime le besoin d’information d’un utilisateur. Elle peut être
exprimée selon différents langages. Le langage le plus utilisé est le langage naturel.
La pertinence est une notion fondamentale en RI. Elle est l’objet de tout
système de recherche d’information. Elle peut être définie comme la correspondance entre un document et une requête selon le système ou l’utilisateur.
La recherche d’Information (RI) est un domaine apparu en même temps
que les ordinateurs. Au début, la RI se concentrait sur les applications dans les
bibliothèques. A la fin des années 1960 et au début des années 1970, G. Salton
a développé le système SMART [154], qui a grandement influencé le domaine
Chapitre 1. Recherche d’Information Structurée
10
de la RI.
Depuis les années 1990, marquées par l’apparition d’Internet, le champ d’application de la RI s’est accru, et ce à cause de la nature des documents disponibles
sur le web. En particulier, les documents semi-structurés ont donné naissance
à une nouveau domaine de la RI : la Recherche d’Information structurée (RIS).
Ce domaine, bien qu’il présente de nouvelles problématiques, s’est servi des
notions et des approches déjà développées en RI classique.
Dans ce chapitre, nous commençons par présenter brièvement le processus de RI traditionnelle (section 1.2), puis nous détaillons les enjeux de la
recherche d’information structurée (section 1.3) ainsi que les différentes techniques développées pour chacune des étapes suivantes : l’indexation et l’interrogation (section 1.4) ainsi que l’appariement éléments-requêtes (section 1.5).
L’évaluation des approches de RIS est enfin présentée dans la section 1.6.
1.2
Processus de Recherche d’Information Classique
Un système de recherche d’information a pour but la mise en relation des
informations contenues dans le corpus documentaire d’une part, et les besoins
de l’utilisateur d’autre part. Le besoin d’information d’un utilisateur est formulé à travers une requête. Le système doit retourner à l’utilisateur le maximum de documents pertinents à la requête (et le minimum de documents nonpertinents). Un SRI est composé de trois fonctions principales, représentées
schématiquement par le processus U de recherche d’information [17]. Cette architecture générale est représentée sur la figure 1.1.
On distingue trois modules principaux :
– Le module d’indexation, qui permet une représentation des documents et
des requêtes
– Le module d’appariement requête-document, qui permet de répondre à
l’interrogation
– Le module de reformulation de la requête.
Ces trois modules sont détaillés ci-après.
Chapitre 1. Recherche d’Information Structurée
11
Fig. 1.1 – Le Processus en U de la Recherche d’Information
1.2.1
Indexation
Pour que le coût de la recherche soit acceptable, il convient d’effectuer une
étape primordiale sur la collection de documents. Cette étape consiste à analyser les documents afin de créer un ensemble de mots-clés : on parle de l’étape
d’indexation. Ces mots-clés seront plus facilement exploitables par le système
lors du processus ultérieur de recherche. L’indexation permet de créer une vue
logique du document. On entend par vue logique la représentation des documents dans le système. L’indexation peut être :
– Manuelle : chaque document est analysé par un spécialiste du domaine
ou par un documentaliste
– Automatique : le processus d’indexation est entièrement informatisé
– Semi-automatique : l’indexeur intervient souvent pour choisir d’autres
termes significatifs (synonymes, etc.) à partir de thésaurus ou d’une ontologie.
De manière générale, l’indexation automatique est réalisée selon les étapes suivantes :
analyse lexicale :
L’analyse lexicale (tokenization en anglais) est le processus qui permet de
convertir le texte d’un document en un ensemble de termes. Un terme est
un groupe de caractères constituant un mot significatif [58]. L’analyse lexicale
permet de reconnaı̂tre les espaces de séparation des mots, des chiffres, les ponctuations, etc.
Chapitre 1. Recherche d’Information Structurée
12
L’élimination des mots vides :
Un des problèmes majeurs de l’indexation consiste à extraire les termes significatifs des mots vides (pronoms personnels, prépositions, ...). Les mots vides
peuvent aussi être des mots athématiques (les mots qui peuvent se retrouver
dans n’importe quel document parce qu’ils exposent le sujet mais ne le traitent
pas, comme par exemple contenir, appartenir ). On distingue deux techniques
pour éliminer les mots vides :
– L’utilisation d’une liste de mots vides (aussi appelée anti-dictionnaire,
stoplist en anglais),
– L’élimination des mots dépassant un certain nombre d’occurrences dans
la collection.
Lemmatisation :
Un mot donné peut avoir différentes formes dans un texte. On peut par exemple
citer économie, économiquement, économétrie, économétrique, etc. Il n’est pas
forcément nécessaire d’indexer tous ces mots et un seul suffirait à représenter le
concept véhiculé. Pour résoudre le problème, une substitution des termes par
leur racine ou lemme est utilisée. Frakes et Baeza-Yates [59] distinguent cinq
types stratégiques de lemmatisation : la table de consultation (dictionnaire),
l’élimination des affixes (on peut citer le très connu algorithme de Porter [144]),
la troncature, les variétés de successeur et la méthode des n-grammes.
Pondération des termes :
La pondération permet d’assigner aux termes leurs degré d’importance dans les
documents. Un terme peut être expressif s’il apparaı̂t suffisamment fréquemment
pour être statistiquement important sans toutefois excéder une certaine limite
qui le classerait dans la catégorie des mots outils (vides). La plupart des techniques de pondération sont basées sur les facteurs TF et IDF :
– TF (Term Frequency) : cette mesure est proportionnelle à la fréquence
du terme dans le document. Elle peut être utilisée telle quelle ou selon
plusieurs déclinaisons (log(TF), présence/absence,...)
– IDF (Inverse of Document Frequency) : ce facteur mesure l’importance
d’un terme dans toute la collection. Un terme qui apparaı̂t souvent dans
la base documentaire ne doit pas avoir le même impact qu’un terme moins
fréquent. Il est généralement exprimé comme suit : log(N/df ), où df est
le nombre de documents contenant le terme et N est le nombre total de
documents de la base documentaire
La mesure TF*IDF donne une bonne approximation de l’importance du
terme dans le document, particulièrement dans les corpus de documents de
taille homogène.
Chapitre 1. Recherche d’Information Structurée
1.2.2
13
Appariement document-requête
La comparaison entre le document et la requête permet de calculer une
mesure appelée pertinence système, supposée représenter la pertinence du
document vis-à-vis de la requête. Cette valeur est calculée à partir d’une fonction de similarité notée RSV(Q,D) (Retrieval Status Value), où Q est une
requête et D un document. Cette mesure tient compte du poids des termes
dans les documents. D’une façon générale, l’appariement document-requête et
le modèle d’indexation permettent de caractériser et d’identifier un modèle
de recherche d’information. L’ordre dans lequel les documents susceptibles
de répondre à la requête sont retournés est important. En effet, l’utilisateur
se contente généralement d’examiner les premiers documents renvoyés (les 10
ou 20 premiers). Si les documents recherchés ne sont pas présents dans cette
tranche, l’utilisateur considérera le SRI comme mauvais vis-à-vis de sa requête.
De nombreux modèles de recherche ont été proposés dans la littérature [11].
Dans ce qui suit, nous présentons les principaux, qui ont par la suite été repris
dans le cadre de la recherche d’information structurée.
1.2.2.1
Le modèle booléen
Le modèle booléen [160] est historiquement le premier modèle de RI, et est
basé sur la théorie des ensembles. Un document est représenté par une liste
de termes (termes d’indexation). Une requête est représentée sous forme d’une
équation logique. Les termes d’indexation sont reliés par des connecteurs logiques ET, OU et NON.
Le processus de recherche mis en œuvre consiste à effectuer des opérations sur
l’ensemble de documents afin de réaliser un appariement exact avec l’équation
de la requête. L’appariement exact est basé sur la présence ou l’absence des
termes de la requête dans les documents.
La décision binaire sur laquelle est basée la sélection d’un document ne permet pas d’ordonner les documents renvoyés à l’utilisateur selon un degré de
pertinence.
1.2.2.2
Le modèle vectoriel
C’est un modèle qui préconise la représentation des requêtes utilisateurs
et des documents sous forme de vecteurs, dans l’espace engendré par tous les
termes d’indexation [161]. D’une manière formelle, les documents (Dj ) et les
requêtes Q sont des vecteurs dans un espace vectoriel des termes d’indexation
(t1 , t2 , ..., tT ) de dimension T et représentés comme suit :
Chapitre 1. Recherche d’Information Structurée
14
Dj = [dj1 , dj2 , ..., djT ], Q = [q1 , q2 , ..., qT ]
où dji et qi sont respectivement les poids des termes ti dans le document Dj
et la requête Q. D’après ce modèle, le degré de pertinence d’un document
relativement à une requête est perçu comme le degré de corrélation entre les
vecteurs associés. Ceci nécessite alors la spécification d’une fonction de calcul
de similarité entre vecteurs mais également d’une fonction de pondération des
termes. La plus répandue est celle de Sparck et Needham [179] qui définit le
poids d’un terme ti dans un document dj comme suit :
dji = tfji ∗ idfi
Où :
tfji : est la fréquence relative du terme ti dans le document Dj .
idfi : est l’inverse de la fréquence absolue du terme ti dans la collection.
idfi = log nNi ; avec ni le nombre de documents contenant le terme ti
et N est le nombre total de documents dans la collection.
La fonction de similarité permet de mesurer la ressemblance des documents et
de la requête. La mesure la plus répandue est celle du cosinus [160] :
PT
qi dji
RSV (Q, Dj ) = qP i=1qP
T
T
2
2
i=1 qi
i=1 dji
Le modèle vectoriel suppose l’indépendance entre termes. En effet, la représentation vectorielle considère chaque terme séparément alors qu’on peut avoir des
termes qui sont en relation sémantique entre eux.
1.2.2.3
Le modèle probabiliste
Le modèle probabiliste aborde le problème de la recherche d’information
dans un cadre probabiliste. Le premier modèle probabiliste a été proposé par
Maron et Kuhns [124] au début des années 1960. Le principe de base consiste
à présenter les résultats de recherche d’un SRI dans un ordre basé sur la probabilité de pertinence d’un document vis-à-vis d’une requête. Robertson [151]
résume ce critère d’ordre par le ”principe de classement probabiliste”, aussi
désigné par PRP (Probability Ranking Principle).
Etant donnés une requête utilisateur notée Q et un document D, formellement, le modèle P RP peut être traduit de la manière suivante : pour chaque
document D et chaque requête Q, Quelle est la probabilité que ce document soit
pertinent pour cette requête ? Deux évènements sont alors possibles :
Chapitre 1. Recherche d’Information Structurée
15
– R, D est pertinent pour Q ;
– R, D est non pertinent pour Q.
Selon PRP, le score d’appariement entre le document D et la requête, noté
RSV (Q, D) [149], est donné par :
P (R/D)
(1.1)
P (R/D)
En utilisant la règle de Bayes et en simplifiant, cela revient à ordonner les
documents selon :
P (D/R)
(1.2)
P (D/R)
RSV (Q, D) =
Plusieurs solutions ont été proposées pour représenter le document D et
pour estimer les paramètres du modèle. Parmi elles citons BIR (Binary Independance Retrieval) [152].
Un des inconvénients de ce modèle est l’impossibilité d’estimer ses paramètres si des collections d’apprentissage ne sont pas disponibles. Pour pallier
cet inconvénient, Roberston a proposé le modèle 2-poisson basé notamment sur
la notion de termes élites [149], [197]. Le résultat de ces travaux est la fameuse
formule BM 25, largement discutée dans les travaux actuels de RI. La formule
est la suivante :
i +0.5
X qtf × (k2 + 1)
tfij (k1 + 1) × log N n−n
i +0.5
×
(1.3)
RSV (Q, D) =
ldj
k
2 × qtf
k1 × ((1 − b) + b avg dl ) + tfij
t∈Q
avec :
qtf : la fréquence du P
terme t dans la requête, ldj : la longueur du
document dj ; ldj =
i∈dj tfij , les auteurs ont aussi proposé de
mesurer en octets les longueurs des documents ;
documents
avg dl : la longueur moyenne des P
P detfijla collection. Elle
est calculée comme suit : avg dl = j∈N
i∈T N , N le nombre de
documents de la collection ; ni le nombre de documents contenant
le terme ti , T le nombre de termes de la collection. k1 , k2 et b sont
des constantes.
Les expérimentations ont montré que k1 = 1.2, k2 = 0.8, b = 0.75 ont donné
les meilleurs résultats, en termes de performances, sur les collections TREC
considérées.
1.2.2.4
Le modèle inférentiel bayésien
Les réseaux inférentiels bayésiens [192] considèrent le problème de la recherche d’information d’un point de vue épistémologique. Ils associent des variables aléatoires avec les termes de l’index, les documents et les requêtes de
Chapitre 1. Recherche d’Information Structurée
16
l’utilisateur. Les termes de l’index et les documents sont représentés comme
des nœuds. Une variable aléatoire associée avec un document dj représente
l’événement d’observer ce document. Les arcs sont dirigés du noeud document
vers ses nœuds termes : ainsi, l’observation d’un document est la cause d’une
augmentation de la valeur des variables associées avec ses termes d’index. La
variable aléatoire associée à la requête de l’utilisateur modélise l’événement que
la requête d’information spécifiée dans la requête a été vérifiée. La valeur de ce
noeud requête est une fonction des valeurs des nœuds associés aux termes de
la requête. Ainsi, les arcs sont orientés des nœuds des termes de l’index vers le
noeud de la requête.
La figure 1.2, issue de [192], illustre un réseau inférentiel bayésien simple de
pertinence d’un document vis à vis d’une requête composée de trois termes.
L’événement ”la requête est accomplie” (Q=1) est réalisé si le sujet lié à un
Fig. 1.2 – Modèle de réseau inférentiel bayésien simple
terme est vrai (T1=1, T2=1 ou T3=1), ou une combinaison de ces événements.
Les trois sujets sont inférés par l’événement ”le document est pertinent” (D=1).
Par l’enchaı̂nement de règles de probabilités, la probabilité jointe des autres
nœuds du graphe est :
P (D, T 1, T 2, T 3, Q) = P (D) P (T 1|D) P (T 2|D, T 1) P (T 3|D, T 1, T 2)
P (Q|D, T 1, T 2, T 3)
La direction des arcs indiquant les relations de dépendance entre les variables
aléatoires, l’équation devient :
P (D, T 1, T 2, T 3, Q) = P (D)P (T 1|D)P (T 2|D)(T 3|D)P (Q|T 1, T 2, T 3)
La probabilité de réalisation de la requête P (Q = 1|D = 1) peut être utilisée
comme score d’ordonnancement des documents :
Chapitre 1. Recherche d’Information Structurée
17
P (Q = 1, D = 1)
P (D = 1)
P
P (D = 1, T 1 = t1 , T 2 = t2 , T 3 = t3 , Q = 1)
(1.4)
=
P (D = 1)
P (Q = 1|D = 1) =
Le modèle nécessite la connaissance de P (D = [0|1]), P (T i = [0|1]|D = [0|1]),
P (Q = [0|1]| (T 1, T 2, . . . , T n) ∈ {0, 1}n ), cette dernière étant la plus difficile
à trouver car le nombre de probabilités à spécifier augmente exponentiellement
avec le nombre de termes de la requête. Pour résoudre ce problème, Turtle [191]
a identifié quatre formes canoniques de P (Q|T 1, T 2, . . . T n) : and, or , sum et
wsum.
Le modèle inférentiel bayésien a été mis en oeuvre dans le système Inquery
[7]. Le cadre probabiliste dans lequel se situe Inquery peut être utilisé pour
formuler des requêtes simples basées sur des mots clés, des requêtes booléennes,
des requêtes basées sur des expressions ou bien une combinaison des trois types
[42].
D’autres travaux ont été basés sur les réseaux bayésiens. Citons par exemple
les ”belief networks” introduits par Ribeiro-Neto et Muntz [146], les travaux
de Vogues [193] et ceux de Turtle [191].
1.2.2.5
Les modèles de langage
Dans les modèles de recherche classique, on cherche à mesurer la similarité entre un document Dj et une requête Q ou à estimer la probabilité que
le document réponde à la requête (P (Dj /Q)). L’hypothèse de base dans ces
modèles est qu’un document n’est pertinent que s’il ressemble à la requête. Les
modèles de langage sont basés sur une hypothèse différente : un utilisateur en
interaction avec un système de recherche fournit une requête en pensant à un
ou plusieurs documents qu’il souhaite retrouver. La requête est alors inférée par
l’utilisateur à partir de ces documents. Un document n’est pertinent que si la
requête utilisateur ressemble à celle inférée par le document. On cherche alors à
estimer la probabilité que la requête soit inférée par le document P (Q/Dj ) . En
se basant sur ce principe d’indépendance des termes (l’apparition d’un terme
n’influe pas la probabilité d’existence d’un autre terme dans le document ou
dans la requête), P (Q/Dj ) peut être réécrite de manière simple en [143] :
P (Q/Dj ) =
n
Y
P (Ti /Dj )
i=1
Où
n est le nombre de termes dans la requête et Ti est un terme de la
Chapitre 1. Recherche d’Information Structurée
18
requête, (1 ≤ i ≤ n).
Afin de pallier le problème des termes de la requête absents des documents,
(ceci conduirait systématiquement à P (Q/Dj )=0), on combine deux modèles
de langage : celui du document et celui de la collection.
Etant donné une requête composée des termes T1 , T2 , ..., Tn , les documents sont
ordonnés selon la mesure suivante [143] :
n
Y
P (T1 , T2 , ..., Tn /Dj ) =
(1 − λi )P (Ti ) + λi P (Ti /D)
i=1
Cette mesure est une combinaison linéaire du modèle de document et du modèle
de contexte du document (la collection), où :
P (Ti /D) est la probabilité d’un terme important dans le modèle de
document,
P (Ti ) est la probabilité d’un terme dans le modèle de la collection
et
λi est une constante.
1.2.3
Reformulation de requêtes
Il est souvent difficile, pour l’utilisateur, de formuler son besoin exact en information. Par conséquent, les résultats que lui fournit le SRI ne lui conviennent
parfois pas. Retrouver des informations pertinentes en utilisant la seule requête
initiale de l’utilisateur est toujours difficile, et ce à cause de l’imprécision de
la requête. Afin de faire correspondre au mieux la pertinence utilisateur et la
pertinence du système, une étape de reformulation de la requête est souvent
utilisée. La requête initiale est traitée comme un essai (naı̈f) pour retrouver de
l’information. Les documents initialement présentés sont examinés et une formulation améliorée de la requête est construite, dans l’espoir de retrouver plus
de documents pertinents. La reformulation de la requête se fait en deux étapes
principales : trouver des termes d’extension à la requête initiale, et repondérer
les termes dans la nouvelle requête.
La reformulation de la requête peut être interactive ou automatique.
La reformulation interactive de la requête est la stratégie de reformulation de
la requête la plus populaire [154] [21]. On la nomme communément réinjection
de la pertinence ou ”relevance feedback” en anglais. Dans un cycle de réinjection de pertinence, on présente à l’utilisateur une liste de documents jugés pertinents par le système comme réponse à la requête initiale. Après les avoir
Chapitre 1. Recherche d’Information Structurée
19
examinés, l’utilisateur indique ceux qu’il considère pertinents. L’idée principale de la réinjection de pertinence est de sélectionner les termes importants
appartenant aux documents jugés pertinents par l’utilisateur, et de renforcer
l’importance de ces termes dans la nouvelle formulation de la requête. Cette
méthode a pour double avantage une simplicité d’exécution pour l’utilisateur
qui ne s’occupe pas des détails de la reformulation, et un meilleur contrôle du
processus de recherche en augmentant le poids des termes importants et en
diminuant celui des termes non importants.
Dans le cas de la reformulation automatique, l’utilisateur n’intervient pas.
L’extension de la requête peut être effectuée à partir d’un thesaurus, qui définit
les relations entre les différents termes de l’index et permet de sélectionner de
nouveaux termes à ajouter à la requête initiale. Le thesaurus regroupe plusieurs informations de type linguistique (équivalence, association, hiérarchie)
et statistique (pondération des termes). La construction du thesaurus se fait
généralement pendant le processus d’indexation, et peut être automatique ou
interactive. Parmi les thesaurus construits automatiquement, on peut citer un
thesaurus basé sur les similarités [145], un thesaurus statistique [45], ou bien
des mini-thesaurus construits seulement d’après la requête et à partir de techniques de clustering [10].
Enfin, dans le cadre de la reformulation automatique, on peut citer également
la réinjection de pertinence automatique : c’est aussi ce qu’on appelle la réinjection de pertinence aveugle. Dans ce cas, on applique le même principe de
la réinjection de pertinence mais en considérant les n premiers documents renvoyés par le système comme pertinents [41], [134].
On trouvera plus de détails sur la reformulation de requêtes dans le chapitre 2.
1.2.4
Evaluation
L’évaluation constitue une étape importante lors de la mise en oeuvre d’un
modèle de recherche d’information puisqu’elle permet de paramétrer le modèle,
d’estimer l’impact de chacune de ses caractéristiques et enfin de fournir des
éléments de comparaison entre modèles.
1.2.4.1
Mesures d’évaluation
L’évaluation nécessite la définition d’un ensemble de mesures et de méthodes
d’évaluation, ainsi que de collections de test assurant l’objectivité de l’évaluation.
Chapitre 1. Recherche d’Information Structurée
20
Fig. 1.3 – Définition du rappel et de la précision
Nous présentons dans ce qui suit les deux principales mesures d’évaluation : le
rappel et la précision.
Rappel et précision :
Les taux de rappel et de précision sont les mesures les plus utilisées pour
l’évaluation d’une recherche. Soient, comme illustré dans la figure 1.3 :
–
–
–
–
P l’ensemble des documents pertinents pour une requête Q,
S l’ensemble des documents retrouvés par le système,
Sp l’ensemble des documents pertinents sélectionnés par le système et
|X| le cardinal de l’ensemble X.
Les taux de rappel et de précision sont définis comme suit :
– Le taux de rappel est la proportion de documents pertinents qui ont été
retrouvés :
|Sp|
(1.5)
rappel =
|P |
– Le taux de précision est la proportion de documents retrouvés qui sont
effectivement pertinents par rapport à l’ensemble des documents pertinents selon le système :
precision =
|Sp|
|S|
(1.6)
Chapitre 1. Recherche d’Information Structurée
21
1,2
Précision
1
0,8
R1
R2
R1 (simplifiée)
R2 (simplifiée)
0,6
0,4
0,2
0
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1
Rappel
Fig. 1.4 – Courbes de rappel-précision pour deux requêtes R1 et R2
Courbe de Rappel-Précision
On observe les performances des systèmes de recherche à travers des courbes
de variation de la précision en fonction des points de rappel appelées courbes
de Rappel-Précision. La figure 1.4 illustre des calculs de précision et de rappel
sur deux requêtes différentes.
Pour avoir une évaluation de la performance du système sur toutes les
requêtes et non pas sur une seule, on calcule une précision moyenne à chaque
niveau de rappel appelé MAP (Mean Average Precision). Pour ce faire, il
faut unifier les niveaux de rappel pour l’ensemble des requêtes. On retient
généralement 11 points de rappel standards, de 0 à 1 à pas de 0.1. Les valeurs
de précision non obtenues à partir des valeurs de rappel sont calculées comme
suit, par interpolation linéaire.
Pour deux points de rappel, i et j, i < j, si la précision au point i est inférieure
à celle au point j, on dit que la précision interpolée à i égale la précision à j.
Formellement :
p′i = max(pi , pj ), ∀i < j
(1.7)
où p′i est la précision interpolée au point de rappel i, et pi est la vraie précision
au point de rappel i. Cette interpolation est encore discutable, mais présente
un intérêt dans l’évaluation de SRI [163].
Le système parfait trouverait seulement les documents pertinents, avec une
précision et un rappel de 100%. En pratique, les mesures de rappel et précision
Chapitre 1. Recherche d’Information Structurée
22
évoluent inversement, ce qui signifie que le courbe interpolée de précision en
fonction du rappel est décroissante. Plus la courbe est élevée, plus le système
est performant.
D’autres mesures ont été définies dans le cadre de TREC [194] afin d’évaluer
les requêtes aux faibles performances :
– (%n) le pourcentage des requêtes n’ayant pas de documents pertinents
dans les 10 premiers documents retournés par le système.
– area la surface au-dessous de la courbe de MAP.
1.2.5
Collections de référence
Les mesures d’évaluation des SRI permettent certes de les comparer, mais
encore faut-il que les évaluations soient faites sur les mêmes bases documentaires. De nombreux projets basés sur des corpus d’évaluation se multiplient depuis des années. On peut par exemple citer la Collection CACM ou la Collection
ISI. La campagne d’évaluation TREC (Text Retrieval Conference), co-organisée
par le NIST et la DARPA, a commencé en 1992. Elle a pour but d’encourager le recherche documentaire basée sur de grandes collections de test, tout en
fournissant l’infrastructure nécessaire pour l’évaluation des méthodologies de
recherche et de filtrage d’information. De plus amples informations sont disponibles sur le site : http ://trec.nist.gov . Pour chaque session de TREC, un
ensemble de documents et de requêtes est fourni. Les participants exploitent
leurs propres systèmes de recherche sur les données et renvoient à NIST une
liste ordonnée de documents. NIST évalue ensuite les résultats.
1.2.6
Conclusion
Dans cette section, nous avons présenté le processus de la Recherche d’Information dans le cadre de la RI traditionnelle. Cette dernière, comme nous
l’avons vu, a pour but de restituer des documents pertinents dans leur totalité.
L’utilisateur se trouve alors obligé de les parcourir pour trouver l’information
souhaitée.
L’apparition des documents structurés, de type XML par exemple, a apporté
une nouvelle problématique et a conduit à de nouveaux objectifs liés à la
manière d’exploiter les différentes caractéristiques de ce type de document.
Le but des systèmes de recherche traitant des documents structurés ou semistructurés est de retourner les parties de documents qui satisfont les besoins
de l’utilisateur. Grâce aux informations structurelles contenues dans les do-
Chapitre 1. Recherche d’Information Structurée
23
cuments, l’utilisateur peut en outre exprimer ses requêtes en intégrant des
contraintes sur le contenu ainsi que sur la structure de l’information recherchée.
Avant de présenter les travaux effectués dans ce cadre, nous présentons
dans la section suivante une brève description des document semi-structurés et
détaillons les problématiques de la Recherche d’Information Structurée (RIS).
1.3
1.3.1
Documents semi-structurés et enjeux de la
Recherche d’Information Structurée
Documents semi-structurés
La structure des documents est définie par des balises encadrant les fragments d’informations. Une balise (ou tag ou label ) est une suite de caractères
encadrés par ”<” et ”>”, comme par exemple <nombalise>. Un élément est
une unité syntaxique identifiée, délimitée par des balises de début < b > et
de fin < /b >, comme par exemple <mabalise> mon texte </mabalise>. Les
éléments peuvent être imbriqués comme le montre le document exemple de la
figure 1.5, mais ne doivent pas se recouvrir. Les attributs des éléments sont
intégrés à la balise de début en utilisant la syntaxe nomattribut=valeur. Par
exemple, <mabalise monattribut=’mavaleur’>texte </mabalise>.
Les formats SGML (Standard Generalized Markup Language) [70] et XML
(eXtensible Markup Language) [1] permettent de produire des documents structurés ou semi-structurés. Les documents structurés possèdent une structure
régulière, ne contiennent pas d’éléments mixtes (c’est à dire d’éléments contenant du texte ET d’autres éléments) et l’ordre des différents éléments qu’ils
contiennent est généralement non significatif.
Les documents semi-structurés quant à eux sont des documents qui possèdent
une structure flexible et des contenus hétérogènes. La modification, l’ajout ou
la suppression d’une donnée entraı̂ne une modification de la structure de l’ensemble.
Dans notre contexte, nous nous intéressons plus particulièrement à la recherche d’information dans des documents semi-structurés, les documents structurés servant plutôt à conserver des données au sens bases de données. Par abus
de langage, on parlera cependant de RI structurée. Le format XML nous permettra d’illustrer nos propos.
Chapitre 1. Recherche d’Information Structurée
24
XML [1] est un langage standard pour l’échange des données semi-structurées. XML est en quelque sorte un langage HTML (Hyper Text Markup Language) amélioré permettant de définir de nouvelles balises et de structurer des
documents. Le langage XML a la capacité de décrire n’importe quel domaine
de données grâce à son extensibilité. Il permet de structurer, et de poser le vocabulaire et la syntaxe des données qu’il va contenir. Les balises XML décrivent
le contenu plutôt que la présentation (contrairement à HTML).
XML a été mis au point par le XML Working Group sous l’égide du Word Wide
Web Consortium (W3C) dès 1996. C’est un sous ensemble de SGML, défini par
le standard ISO8879 en 1986, utilisé dans le milieu de la Gestion Electronique
Documentaire (GED). XML reprend la majeure partie des fonctionnalités de
SGML, et il s’agit donc d’une simplification de SGML afin de le rendre utilisable sur le web.
La DTD (Document Type Definition) associée au document décrit la structure générique du document : elle contient l’ensemble des balises qu’il est possible d’inclure, ainsi que des relations de composition entre ces balises.
Contrairement à SGML, il n’est pas obligatoire d’associer une DTD à un document XML. Notons que l’on assiste aujourd’hui au développement d’une nouvelle forme de grammaire, qui permet de définir des éléments plus complexes
et possède un typage des données plus riche, les XML-schémas [55].
Une classe de document possède donc une structure générique définie par
la DTD (ou le schéma XML) alors qu’un document instance de cette classe
possède une structure spécifique, exprimée par l’imbrication des éléments via
leurs balises. On trouvera plus de détails sur le format XML ainsi que sur les
technologies DOM et XPath associées en annexe A. Notons simplement que
DOM (Document Object Model ) permet une représentation arborescente des
documents et que XPath permet de naviguer au sein de la structure des documents.
Nous présentons dans les sections suivantes les problématiques et solutions
proposées dans la littérature pour la RI structurée.
1.3.2
Enjeux de la Recherche d’Information Structurée
1.3.2.1
Unité d’information recherchée
Le but des systèmes de recherche d’information est d’apporter une réponse
non nécessairement exacte (au sens base de données) aux besoins en information
Chapitre 1. Recherche d’Information Structurée
Fig. 1.5 – Exemple d’un document XML
25
Chapitre 1. Recherche d’Information Structurée
26
de leurs utilisateurs. Ces derniers s’intéressent rarement à une représentation
ou à une structuration précise des collections consultées. S’ils sont capables de
préciser leur requête parce qu’ils connaissent la ou les collections interrogées,
les réponses fournies par le système ne devront être que plus précises.
En recherche d’information traditionnelle, les SRI, tant dans leur modèle de
représentation des données que dans les résultats qu’ils renvoient, traitent les
granules des collections (documents) dans leur globalité. Les notions de documents logique et de document physique sont alors confondues. Cependant, un
document possède souvent des contenus hétérogènes, et l’utilisateur doit alors
aller chercher l’unité d’information pertinente à sa requête au milieu des autres
thèmes abordés par le document. Une solution à ce problème serait de dissocier l’unité d’information logique renvoyé à l’utilisateur de l’unité d’information
physique de la collection.
Les documents semi-structurés, en permettant le balisage des contenus des documents, réactualisent cette problématique, et permettent ainsi de traiter l’information avec une granularité plus fine. Le but des SRI traitant des documents
semi-structurés est alors d’identifier des parties des documents les plus pertinentes à une requête donnée. Ceci nous amène à affiner le concept de granule
(unité d’information) renvoyée à l’utilisateur. Une unité d’information est un
volume d’information auto-explicatif, c’est à dire que l’information contenue ne
dépend pas d’une autre pour être comprise. Le but des SRI dans notre contexte
est alors de renvoyer des unités d’information auto-explicatives à l’utilisateur,
et non des points d’entrée dans les documents : les résultats renvoyés doivent
se suffire à eux même.
Dans le cadre des documents XML, l’unité d’information correspond à un
noeud également appelé élément dans la suite du document. Chaque élément
est évalué selon les deux notions suivantes : l’exhaustivité et la spécificité [36],
[110].
On dit qu’une unité d’information est exhaustive à une requête si elle contient
toutes les informations requises par la requête et qu’elle est spécifique si tout
son contenu concerne la requête.
Dans [36], on trouve ”le principe recherche dans les documents structurés” :
un système devrait toujours renvoyer la partie la plus spécifique d’un document
répondant à une requête. Cette définition suppose que le système sélectionne
d’abord des documents entiers répondant de manière exhaustive à une requête,
puis extrait de ces documents les unités d’informations les plus spécifiques.
La plupart des SRI traitant des documents semi-structurés permettent une recherche directe des unités d’information sans passer au niveau de granularité
document entier. Le principe de la recherche dans les documents semi-structurés
pourrait donc être étendu ainsi : un système devrait toujours retrouver l’unité
d’information exhaustive et spécifique répondant à une requête. Dans des cor-
Chapitre 1. Recherche d’Information Structurée
27
pus de documents XML, chercher les nœuds les plus exhaustifs et spécifiques
pour une requête revient donc à trouver les sous-arbres de taille minimale pertinents à la requête.
De part leur structure, l’utilisateur interrogeant les corpus de documents
XML peut formuler deux types de requêtes, selon sa connaissance du corpus :
– des requêtes portant sur le contenu seul des unités d’information : ces
requêtes sont composées de simples mots clés, et l’utilisateur laisse le SRI
décider de la granularité de l’information à renvoyer.
– des requêtes portant sur la structure et le contenu des unités d’information, dans lesquelles l’utilisateur spécifie des besoins précis sur certains
éléments de structure. Dans ce type de requête, l’utilisateur peut utiliser des conditions de structure pour indiquer le type des éléments qu’il
désire voir renvoyer, mais aussi plus simplement pour préciser ses besoins.
Afin de permettre ces différentes recherches, les techniques de la recherche
d’information traditionnelle doivent être adaptées ou de nouvelles méthodes
doivent être proposées pour l’indexation, l’interrogation ou encore la recherche
et le tri des unités d’information.
Avant de détailler ces différentes problématiques dans la section suivante,
citons le travaux effectués dans [80] pour définir les caractéristiques des unités
d’information les plus appropriées. Les auteurs se sont basés sur une analyse de
structure (nombre d’élément dans un document, chemin des éléments, nombre
des mots dans chaque élément,...), une analyse du contenu (fréquence des mots
dans des éléments, leurs poids) et des statistiques. Ils ont défini le Ratio du type
des mots comme le rapport entre le nombre de types de mots dans un élément
et le nombre total de mots. Si le Ratio est élevé, l’unité n’est pas informative.
Ils ont également considéré une taille seuil pour définir l’unité informative. Ce
problème a été aussi traité au niveau de la recherche dans [83]. L’inconvénient
principal de ces travaux est qu’ils peuvent difficilement se généraliser à d’autres
collections.
1.3.2.2
Problématiques spécifiques de la RI structurée
La problématique dans le cadre de l’indexation se situe essentiellement au
niveau de l’information structurelle. Dans le cas des documents plein-texte, le
Chapitre 1. Recherche d’Information Structurée
28
contenu textuel est traité afin de trouver les termes les plus représentatifs des
documents. Dans ce cas des documents semi-structurés, la dimension structurelle s’ajoute au contenu, et les questions suivantes se posent alors :
– quelle unité doit-on indexer de la structure des documents ?
– comment relier cette structure au contenu même du document ?
– en fonction de quelle dimension (niveau élément, documents, collection)
doit-on pondérer les termes d’indexation ?
Considérons à présent l’interrogation des documents. Il s’agit ici de permettre
à l’utilisateur d’exprimer des besoins diversifiés (concernant le contenu des documents et/ou la structure), et ce de manière simple.
La dernière problématique concerne les modèles de recherche et de tri
des unités d’information. La problématique traditionnelle liée à l’évaluation de
la pertinence d’une information vis-à-vis d’une requête reste d’actualité, mais
elle se complique et implique d’autres questions dans le cadre des documents
XML, notamment en ce qui concerne la structure.
Les requêtes orientées contenu, qui sont de loin les plus simples pour l’utilisateur, imposent au SRI de décider la granularité appropriée de l’information à
renvoyer, et donc d’évaluer l’exhaustivité et la spécificité des éléments.
Dans le cadre des requêtes orientées contenu et structure, deux cas sont possibles. Tout d’abord, l’utilisateur peut spécifier le type des éléments à renvoyer
par le système. Dans ce cas la dimension de spécificité n’a plus réellement de
sens, puisque l’utilisateur précise la granularité de l’information qu’il désire. Cependant, le contenu des éléments de structure ainsi que les expressions de chemins présentes dans la requête doivent pouvoir être traitées de manière vague.
En d’autres termes, la pertinence des informations structurelles doit pouvoir
être évaluée, et l’arbre de la requête et l’arbre du document doivent pouvoir
être comparés de façon non stricte. Le second cas concerne les requêtes pour
lesquelles l’utilisateur exprime des conditions sur la structure des documents,
mais sans préciser ce qu’il cherche exactement. Si le problème de l’évaluation
de la pertinence des informations structurelles se pose de nouveau, vient s’y
ajouter, comme dans les requêtes orientées contenu, celui de la granularité de
l’information à renvoyer.
1.3.3
Principales stratégies en recherche d’information
structurée
La notion de recherche de granules de documents a été déjà développée dans
la recherche de passage [200], [208], [104],[26] dont le but est de retrouver des
passages pertinents dans le texte des documents. Ces approches proposent de
Chapitre 1. Recherche d’Information Structurée
29
renvoyer une partie de document en se basant sur un découpage physique du
document. L’application de la recherche de passage est limitée aux documents
texte ayant des tailles homogènes.
De nombreuses approches ont été développées pour traiter spécifiquement
la recherche d’information dans des corpus de documents semi-structurés. On
distingue deux différentes stratégies :
1. Les approches basées sur la modélisation des données. Le but est de
développer des modèles de données permettant la représentation et l’interrogation en tenant compte à la fois du contenu et de la structure [5], [125], [189].
Dans ce cas, les documents XML sont considérés comme une base de données,
dont les champs correspondraient aux éléments et attributs définis dans la DTD
(ou le schéma) des documents. Des modèles de recherche ont été développés par
la communauté des Bases de Données (BD).
Au niveau de l’indexation, la communauté BD procède de manière à ce que
toutes les informations textuelles et structurelles des documents soient stockées
au sein de tables de bases de données. Des langages de requêtes associés ont
été proposés par la communauté BD. Ils sont généralement liés à la syntaxe du
langage SQL tout en permettant de spécifier des contraintes sur la structure
des documents. Au niveau de l’appariement, la pertinence est généralement
calculée d’une manière booléénne. De ce fait, seuls les éléments qui répondent
exactement à la requête sont renvoyés.
2. Les approches basées sur l’agrégation de représentation ou de pertinence. La pertinence des parties de documents est calculée par agrégation des
représentations ou de la pertinence de leur propre contenu ou par agrégation
des pertinences des parties auxquelles elles sont reliées [110], [106], [107].
Dans ce cas, les documents XML sont considérés comme un ensemble de documents semi-structurés où les balises servent uniquement à décrire la structure
logique des documents. Cette approche a été prise en charge par la communauté
de la Recherche d’Information. Les mêmes techniques d’extraction des termes
et d’indexation que de la RI classique sont maintenues pour l’indexation de
l’information textuelle. D’autres approches spécifiques sont développées pour
indexer l’information structurelle. Quant aux langages de requêtes, ils restent
beaucoup plus simples que ceux proposés en BD en se rapprochant du langage
naturel avec une extension pour exprimer les contraintes structurelles. En RI,
les résultats renvoyés à l’utilisateur sont triés selon le degré de similarité.
Bien que les stratégies orientées BD et orientées RI s’avèrent différentes au
niveau de l’indexation, de l’interrogation et de l’appariement requête-élément,
Chapitre 1. Recherche d’Information Structurée
30
des modèles hybrides ont été développés [121].
Quelle que soit la manière d’interpréter les documents, les deux communautés, RI et BD doivent résoudre des problématiques liées à l’indexation de
l’information textuelle et structurelle, ainsi que fournir des langages d’interrogation permettant l’expression de contraintes sur le contenu et la structure des
éléments.
1.4
Indexation et langages de requêtes
1.4.1
Indexation de documents semi-structurés
L’indexation permet de représenter les documents de manière à faciliter la
recherche et de la rendre plus efficace. En RI structurée, l’objectif de l’indexation n’est plus seulement de stocker l’information textuelle mais aussi l’information structurelle et de pouvoir présenter les relations entre les deux types
d’information. De ce fait, un schéma d’indexation de document XML devrait
principalement permettre la reconstruction du document XML décomposé dans
des structures de stockage et la recherche par mot clé et par expressions de chemin sur la structure XML.
L’indexation des documents semi-structurés est caractérisée alors par le schéma
de stockage des documents, et les types de transformation possible entre les documents XML et les structures de stockage [73].
Un schéma de stockage peut être conçu soit selon des approches orientées
Système de Gestion de Bases de Données soit selon des modèles de stockages
XML natifs qui permettent le stockage des documents complets ou des parties
de documents dans des fichiers et ne réalisent pas de transformation en tables
(cas des SGBD relationnels).
Les approches de transformation (mapping) entre les documents XML et
les structures de stockage [205] sont généralement basées soit sur un modèle où
l’index est fixe et connu à l’avance [115], [57], [75], [118], soit sur la structure
logique des documents XML (ou leur schéma) : la structure d’index varie alors
selon les collections. Dans ce cas la construction du schéma d’index se fait automatiquement, en prenant en compte la sémantique de l’application [54], [19],
[50].
Un index en RI structurée est alors composé d’une part d’une description
Chapitre 1. Recherche d’Information Structurée
31
des termes et leurs relations avec les unités structurelles et d’autre part d’une
description de l’information structurelle traduite par des relations de hiérarchie.
1.4.1.1
Indexation de l’information textuelle
L’indexation de l’information textuelle, c’est-à-dire l’extraction et la pondération des termes, est similaire à la RI classique. Sa spécificité dans les documents semi-structurés et notamment les documents XML, réside dans la description des relations entre les termes et l’information structurelle : c’est ce
qu’on appelle la ”portée des termes d’indexation”.
Portée des termes d’indexation
Pour relier les termes à l’information structurelle, deux solutions ont été
proposées dans la littérature : une qui procède de manière à agréger le contenu
des nœuds (on parle de sous-arbres imbriqués) et une deuxième qui indexe tous
les contenus des nœuds séparément (unités disjointes) :
– sous-arbres imbriqués : On considère que le contenu de chaque noeud de
l’index est une unité atomique [6], [174], [102]. Les termes des nœuds
feuilles sont donc propagés dans l’arbre des documents. Comme les documents XML possèdent une structure hiérarchique, les nœuds de l’index
sont imbriqués les uns dans les autres et par conséquent, l’index contient
des informations redondantes. Dans [129], Mass et al. ont considéré que
seuls quelques types de nœud sont informatifs (dans la collection d’INEX
2005, ils ont par exemple sélectionné : article, paragraphe (p), section
(sec), sous-section (ssec)). Un sous-index est ensuite construit pour chaque
type de noeud. L’index est l’ensemble des sous index associés.
– unité disjointes : Dans ces approches, le document XML est décomposé en
unités disjointes, de telle façon que le texte de chaque noeud de l’index est
l’union d’une ou plusieurs parties disjointes [135], [61], [66], [107], [155],
[9]. Les termes des nœuds feuilles sont uniquement reliés à un et un seul
noeud.
Une fois les unités d’indexation spécifiées, il reste à pondérer les termes.
Cette tâche est une adaptation des fonctions de pondération déjà proposées en
RI classique.
Pondération des termes d’indexation
En réalité, le problème de pondération n’est traité que dans les approches
orientées recherche d’information. Les approches orientées BD se contentent de
Chapitre 1. Recherche d’Information Structurée
32
stocker le texte des documents sous forme de chaı̂nes de caractères.
Des processus similaires à ceux de la RI traditionnelle ont été adaptés dans les
approches orientées RI. Par analogie à la mesure idf [207], [71], des auteurs
[201], [75] ont proposé d’utiliser la mesure ief (Inverse Element Frequency).
Dans [206], Zargayouna et al. ont adapté la mesure tf-idf (Term Frequency- Inverse Document Frequency) pour l’appliquer au niveau des unités d’indexation
de manière à ce que le calcul des poids des termes tienne compte du contexte
(élément) dans lequel ils apparaissent. Les auteurs ont défini ainsi tf-itdf (Term
Frequency- Inverse Tag and Document Frequency), qui permet de calculer la
force discriminatoire d’un terme dans un élément (caractérisé par une balise)
relatif à un document.
Le calcul du poids d’un terme peut tenir compte non seulement de son importance dans l’élément dans lequel il apparait mais en outre de son importance
dans le contenu du noeud même, dans le contenu de ses descendants, dans le
contenu de ses voisins directs et dans le contenu des nœuds auquel il est relié
[107]. Dans ce dernier article, le calcul est effectué par l’opérateur d’agrégation
OWA [204].
Que ce soit pour reconstruire les chemins des éléments ou pour répondre aux
contraintes structurelles spécifiées dans une requête, il est nécessaire d’indexer
l’information structurelle de manière à avoir une description complète de chaque
élément.
1.4.1.2
Indexation de l’information structurelle
Différentes approches ont été proposées dans la littérature pour indexer l’information structurelle selon des granularités variées [122]. On distingue trois
types d’approches pour l’indexation de l’information structurelle :
– Indexation basée sur des champs [76]
Il s’agit de la méthode d’indexation semi-structurée prenant en compte la structure la plus simple. Un document est représenté comme un ensemble de champs
(par exemple : titre, auteur, abstract) et de contenu associé à ces champs. Pour
permettre une recherche restreinte à certains champs, les termes de l’index sont
construits en combinant le nom du champ avec les termes du contenu.
– Indexation basée sur des chemins
Les techniques basées sur les chemins [103], [94] ont pour but de retrouver
rapidement des documents ayant des valeurs connues pour certains éléments
ou attributs. Il s’agit aussi de faciliter la navigation de façon à résoudre efficacement des expressions XPATH et d’utiliser des index pleins textes sur les
contenus. En conséquence les solutions proposées utilisent des index de che-
Chapitre 1. Recherche d’Information Structurée
33
mins donnant pour chaque valeur répertoriée d’un chemin de balises la liste
des documents contenant un élément atteignable par ce chemin et ayant cette
valeur. Dans ces approches, il est difficile de retrouver les relations ancêtresdescendants entre les différents nœuds des documents.
– Indexation basée sur des arbres
Les nœuds d’un arbre sont numérotés dans l’index de façon à pouvoir reconstruire la structure arborescente des documents. Cette approche a été adaptée
dans plusieurs systèmes de recherche, parmi lesquels citons [115], [57], [98],
[173], [167]. Dans l’index ANOR (inverted index for All NOdes without Replication)[115], les documents structurés sont agrégés en un seul arbre interprété
ensuite comme un k-arbre virtuel : pour chaque noeud, il existe un identifiant
unique (UID). Dans le cas du système XFIRM [167], pour chaque document, un
noeud est identifié par les 2 valeurs de pré-ordre1 et post-ordre 2 qui permettent
de retrouver les relations de hiérarchie entre les différents nœuds.
1.4.2
Langages de requêtes
Comme nous l’avons vu précédemment, lorsqu’ils s’interrogent des collections de documents semi-structurés, les utilisateurs devraient pouvoir exprimer
leurs besoins selon deux catégories de requêtes :
1. des requêtes composées de simples mots clés comme en RI. C’est le cas
lorsque les utilisateurs n’ont pas d’idée précise de ce qu’ils recherchent ou
n’ont pas de connaissance concernant la structure des documents.
2. des requêtes composées de contraintes sur le contenu (donc de mots clés)
et de contraintes structurelles. C’est le cas lorsque les utilisateurs ont au
moins une connaissance partielle de la structure de la collection qu’ils
interrogent.
La majorité des langages de requêtes proposés dans la littérature sont issus de
la communauté des bases de données. D’une manière générale, les langages de
requêtes doivent supporter à la fois des contraintes portant sur le contenu et
sur la structure. De plus l’intégration de fonctions des systèmes documentaires
nécessite la prise en compte de requêtes par liste de mots clés du type :
CONTAINS(<élément>, collection de mots clés)
1 Un
parcours préfixé permet d’assigner à chaque noeud visité une valeur croissante
de préordre avant que ses nœuds descendants ne soient aussi récursivement visités
de gauche à droite.
2 D’une manière inverse, la valeur de post-ordre d’un noeud lui est assignée lors
d’un parcours postfixé, c’est à dire une fois que tous ses nœuds descendants ont été
visités de gauche à droite.
Chapitre 1. Recherche d’Information Structurée
34
Dans ce qui suit nous présentons brièvement quelques langages de requêtes
adaptés à XML.
1.4.2.1
XQuery
XQuery [56] est un langage de requête pour XML proposé par le W3C. Il
se base sur XPath pour extraire et travailler sur des fragments de documents
XML. Les requêtes basiques de XQuery sont identiques à celles définies par
XPath. Si l’on désire faire des requêtes simples, XPath peut donc parfaitement
suffire.
XQuery est intéressant dès le moment où l’on désire faire des requêtes complexes ou encore faire appel à la récursivité. XQuery peut être perçu comme un
sur-ensemble de SQL. Les fonctionnalités de SQL sur les tables (collection de
tuples) sont étendues pour supporter des opérations similaires sur les forêts (collection d’arbres). Ces extensions ont conduit à intégrer les fonctions suivantes :
projection d’arbres sur des sous-arbres, sélections d’arbres et de sous-arbres en
utilisant des prédicats sur les valeurs des feuilles, utilisation des variables dans
les requêtes pour mémoriser un arbre ou itérer sur des collections d’arbres extraits de collection en utilisant des jointures d’arbres, ré-ordonnancement des
arbres, imbrication de requêtes, calcul d’agrégats, utilisation possible de fonctions utilisateur.
De plus, XML étant fait pour gérer des documents, XQuery supporte les fonctions des systèmes documentaires : en particulier, un prédicat CONTAINS est
intégré pour la recherche par mots-clés.
On trouvera ci-dessous un exemple simple d’une requête XQuery qui retourne
les numéros de téléphone de toutes les personnes habitant à Toulouse :
For $P in (”annuaire.xml”)//Personne
Where $P/Adresse/Ville=”Toulouse”
return $P/Téléphone
1.4.2.2
XQL
Une motivation importante pour la conception de XQL [2] est la réalisation
que XML a son propre modèle implicite de données, qui n’est ni celui des
bases de données relationnelles traditionnelles ni de celui des bases de données
orientées objet.
Le langage XQL est étroitement lié à XPath, et sa formulation originale a
été basée complètement sur la structure arborescente des documents XML :
hiérarchie, ordre et position. Dans les instruction de XQL, une simple chaı̂ne
de caractère est interprétée comme nom d’un élément.
Chapitre 1. Recherche d’Information Structurée
35
Les chemins sont toujours décrits à partir de la racine vers le bas et l’élément
retourné est celui à l’extrême droite du chemin. Le contenu d’un élément ou
d’un attribut peut être décrit en utilisant l’opérateur(=). L’opérateur de descendance (//) indique tous les niveaux intervenants. L’opérateur de filtrage ([ ])
filtre l’ensemble de nœuds vers sa gauche basée sur les conditions à l’intérieur
des parenthèses. Plusieurs conditions peuvent être combinées en utilisant les
opérateurs booléens.
On trouvera ci-dessous un exemple d’une requête XQL qui renvoie tous les
restaurants 3 étoiles dont un élément descendant Ville contient pour valeur
Paris :
//Restaurant ? (@catégorie[text()=”***”])/Ville [text()= ”Paris ”]
1.4.2.3
NEXI
NEXI [190] est un langage d’interrogation développé dans le cadre de la
campagne d’évaluation pour la recherche dans les documents XML INEX (INiative for the Evaluation of XML REtrieval ). Il a été conçu pour permettre une
représentation simple mais efficace des besoins de l’utilisateur.
La syntaxe de NEXI est semblable à XPATH. On utilise la syntaxe pour designer le descendant et rajoute une clause ”about” pour fournir l’information en
question. NEXI peut également supporter des spécifications plus complexes en
utilisant les parenthèses ainsi que les opérateurs booléens.
L’exemple de requête ci-dessous renvoie une section (sec) qui est descendant
d’un élément article et qui contient un descendant paragraphe (p) qui parle de
”computer” :
//article //sec[about(.//p,Computer)]
1.4.2.4
XOR
XOR [69] est un langage de requêtes totalement compatible avec les spécifications du langage NEXI. L’avantage majeur qu’il représente est principalement
la possibilité de combiner plusieurs requêtes en une seule. Il permet également
une meilleure élaboration des spécifications de chemins et des termes ainsi qu’un
ensemble plus large de correspondance des informations recherchées.
L’exemple ci-dessous renvoie un article dont l’auteur est ”Einstein” de l’année
”1905” qui parle d’”éléctrodynamics”.
//article[about(.//year,1905)
Chapitre 1. Recherche d’Information Structurée
36
AND about(.//author, Einstein)
AND about(.//*, electrodynamics)]
1.4.2.5
Autres langages d’interrogation
Il existe de nombreux autres langages d’interrogation. Parmi eux citons
XML-QL [117], Quilt [33], XML-GL [32], XIRQL [61], Tequyla-TX [39] ou
Tex-Query[8].
Notons simplement que nombreuses sont les spécifications de langages mais
rares sont les implémentations.
1.5
Appariement élément-requête
Nous nous intéressons dans cette section aux approches orientées RI où une
valeur de similarité par rapport à une requête donnée est calculée pour chaque
élément.
Les modèles classiques de RI ont été adaptés tout en tenant compte de la dimension structurelle. Ces modèles permettent une recherche des composants
des documents en partant soit des requêtes structurées soit des requêtes composées de simples mots clés.
D’une manière générale, indépendamment des modèles de recherche, nous
distinguons deux types d’appariement élément-requête :
1. Un appariement qui s’effectue au niveau des éléments restitués grâce à
une propagation de termes qu’ils soient pondérés ou non.
2. Un appariement qui s’effectue au niveau de la plus petite unité d’indexation. Dans ce cas les éléments sont restitués grâce à une propagation de
pertinence.
Dans ce qui suit nous présentons différents modèles en fonction de modèle de
base de la RI qu’ils étendent. Notons simplement à titre d’illustration que :
– Dans le cadre du modèle vectoriel étendu, les approches présentées dans
[129], [126] et [44] utilisent une propagation de termes et que dans [68],
[9] et [93], il s’agit de propagation de pertinence.
– Dans le cadre du modèle booléen pondéré, les approches de [188] et [111]
utilisent une propagation des termes.
– Les adaptations du modèle probabiliste ([110], [67]), du modèle inférentiel
([142] et [109]) et les modèle de langage ([136], [81], [102] et [174]) fonctionnent également grâce à une propagation des termes.
Chapitre 1. Recherche d’Information Structurée
37
Enfin, le modèle XFIRM [166] développé dans notre équipe et nous avons
étendu pour la réinjection de pertinence utilise la propagation de pertinence.
On trouvera une description détaillée du modèle dans le chapitre 4 section 4.2.1.
1.5.1
Modèle vectoriel étendu
Le modèle vectoriel étendu est une extension du modèle vectoriel proposé en
RI traditionnelle, dans lequel l’information structurelle est séparée du contenu
[129, 126, 127].
Mass et al. [129] ont proposé un système de recherche où le score d’un
terme ti dans un document D, wD (ti ), est exprimé par le produit tf ∗ idf et la
pertinence d’un document pour une requête donnée est calculée selon l’équation
suivante :
ρ(Q, D) =
P
ti ∈Q
S
D
wQ (ti ) ∗ wD (ti )
(1.8)
||Q|| ∗ kDk
Avec ||Q|| et ||D|| sont respectivement les normes des vecteurs de la requête
Q et du document D. Pour chaque terme de la requête (ti , ci ), (ti est le terme,
ci est le contexte du terme (i.e. le chemin de l’élément où apparaı̂t le terme
ti ) on calcule son poids dans la requête wQ (ti , ci ), son poids dans un contexte
similaire dans le document wD (ti , ck ), ainsi que la similarité entre les contextes
cr(ci , ck ) où
1 + |ci |
(1.9)
cr(ci , ck ) =
1 + |ck |
avec |ci | est le nombre de balises dans un contexte donné de la requête et |ck |
est le nombre des tags dans un contexte donné d’un document.
La formule précédente est par la suite étendue pour mesurer les similarités
entre les fragments XML et le document. La formule mesurant la pertinence
d’un document est la suivante :
P
P
(ti ,ci )∈Q
(ti ,ck )∈D wQ (ti , ci ) ∗ wD (ti , ck ) ∗ cr(ci , ck )
ρ(Q, D) =
(1.10)
||Q|| ∗ kDk
Les auteurs ont considéré par la suite une autre méthode de mesure de similarité
entre document et requête en considérant que les différents contextes ck sont
d’égale similarité avec le contexte de la requête. La formule appliquée est alors
la suivante :
P
(ti ,ci )∈Q wQ (ti ) ∗ wD (ti ) ∗ w(ci )
ρ(Q, D) =
(1.11)
||Q|| ∗ kDk
où w(ci ) = 1 + |ci | est le poids du contexte ci .
Chapitre 1. Recherche d’Information Structurée
38
En 2003, Mass et al. [126] proposent de distinguer les composants d’un document, ce qui conduit à considérer six différents index (article, sec, ss1, ss2, p,
ip1 et abs) et à appliquer sur chacun le processus de recherche tout en adaptant
le tf, idf au niveau des composants. Pour éviter la redondance des résultats,
les auteurs ont proposé un algorithme de classification basé sur la comparaison
des scores des nœuds avec ceux de leurs descendants et selon un seuil déjà fixe,
on décide d’éliminer l’un des groupes.
De plus, pour surmonter le problème des index de différentes caractéristiques,
les auteurs ont proposé la notion de pivot pour avoir un nouveau score au niveau
de chaque composant C calculé comme suit :
score(Q, C) = DocP ivot ∗ Sa + (1 − DocP ivot) ∗ Sc
(1.12)
avec DocPivot une constante entre 0 et 1, Sa le score du document auquel
appartient le composant et Sc le score propre du Composant. L’algorithme de
recherche est alors le suivant :
1. Le système effectue des recherches indépendantes au niveau de chaque
sous index i. Le résultat de chaque recherche est l’ensemble Ri .
2. Tous les les résultats issus des différentes recherches sont normalisés dans
[0,1].
3. Le score final de différents résultats est calculé en fonction du score de l’article. La liste des résultats finale est la combinaison de tous les résultats Ri
Une autre extension du modèle vectoriel est développée par Crouch et al.
dans [44] en considérant un ensemble de sous vecteurs repésentant de différents
niveaux de granularité. Dans le cas des requêtes comportant plusieurs contraintes
structurelles, le résultat final est l’intersection des résultats issus des recherches
effectuées au niveau des sous-index correspondant aux contraintes structurelles.
Les requêtes non structurées sont traitées selon Smart [176] en considérant un
seul index (article ou paragraphe).
Dans [68], Geva a proposé un modèle simple donnant très bons résultats
pendant les campagnes d’évaluation INEX 2003 et INEX 2004. Ce modèle est
basé sur un fichier inverse pour l’indexation d’un document XML. La recherche
est réalisée par propagation des scores des éléments feuilles. Ces derniers sont
calculés comme suit :
n
X
ti
n−1
L=N
(1.13)
f
i=1 i
avec
N un entier faible=5 ;
n : nombre de termes de la requête qui existent dans le noeud n.
Chapitre 1. Recherche d’Information Structurée
39
ti : fréquence du ieme terme de la requête dans le noeud n.
fi : fréquence du ieme terme de la requête dans la collection.
N n−1 : augmente le score des éléments ayant plusieurs termes de la
requête.
La pertinence R des nœuds internes est calculée par la somme des différents
descendants :
n
X
R = D(n)
Li
i=1
avec Li est le score du i
eme
élément retourné et D(n)=0.49 si n=1 et 0.99 sinon.
Enfin, on trouvera d’autres approches utilisant le modèle vectoriel étendu
dans [9], [31], [44], [101], [125], [127], [129], [126], [170], [185], [198], [93], [72].
1.5.2
Modèle booléen pondéré
Le modèle booléen a été étendu avec un nouvel opérateur binaire non commutatif, appelé ”contains” [188]. La première opérande est de type XPath et la
seconde est une expression booléenne. Ce modèle permet aux requêtes d’être
complètement spécifiées en termes de contenu et d’information structurée, basée
sur XPath. La recherche consiste à extraire le titre et le convertir en requête
booléenne, les éléments considérés comme pertinents sont par la suite classés
selon la somme OkapiBM25 [149].
Dans [111], Larson et al. utilisent dans une combinaison de méthodes probabilistes utilisant une régression logistique avec une approche basée sur le modèle
booléen, pour évaluer la pertinence des documents et des éléments. La valeur
de probabilité de pertinence R d’un composant C (élément) est calculée comme
étant le produit des probabilités de la pertinence de C vis-à-vis la requête Qbool
présentée par un modèle booléen et de la pertinence de C vis-à-vis la requête
Qprob présentée par un modèle probabiliste. La formule est présentée ci-dessous :
p(R|Q, C) = P (R|Qbool , C)P (R|Qprob , C)
Cette combinaison permet de restreindre l’ensemble des documents pertinents
aux documents ayant une valeur booléenne égale à 1 tout en leur attribuant un
rang basé sur un calcul probabiliste. Ces deux types d’extension permettent de
surmonter les limites des modèles booléens au niveau du tri des résultats.
1.5.3
Modèle probabiliste
Pour étendre le modèle probabiliste inférentiel aux documents XML, les
probabilités doivent tenir compte de l’information structurelle. Une approche
Chapitre 1. Recherche d’Information Structurée
40
est d’utiliser des probabilités conditionnelles sur les chemins des documents,
avec par exemple P (d|t) devenant P (d|p contains t), où d représente un document ou une partie de document, t est un terme et p est un chemin dans l’arbre
structurel de d.
Une méthode d’augmentation basée sur le modèle probabiliste est proposée
par Fuhr et al. dans [61, 67]. Cette méthode est basée sur le langage de requêtes
XIRQL, et a été implémentée au sein du moteur de recherche HyRex.
Dans cette approche, les noeuds sont considérés comme des unités disjointes
(section 1.4.1.1). Tous les noeuds feuilles ne sont cependant pas indexés (car
d’une granularité trop fine). Dans ce cas-là les termes sont propagés jusqu’au
noeud indexable le plus proche. Afin de préserver des unités disjointes, on ne
peut associer à un noeud que des termes non reliés à ses noeuds descendants.
Le poids de pertinence des noeuds dans le cas de requêtes orientées contenu
est calculé grâce à la propagation des poids des termes les plus spécifiques dans
l’arbre du document. Les poids sont cependant diminués par multiplication par
un facteur, nommé facteur ”d’augmentation”.
Par exemple, considérons la structure de document de la figure 1.6, contenant
un certain nombre de termes pondérés (par leur probabilité d’apparition dans
l’élément), et la requête ”XML”.
Fig. 1.6 – Modèle d’augmentation [61]
Le poids de pertinence de l’élément section est calculé comme suit, en utilisant un facteur d’augmentation égal à 0.7 :
P([section, XML])+ P([paragraphe[2]]). P([paragraphe[2], XML)
- P([section, XML]).P([paragraphe[2]]).P([paragraphe[2], XML)
= 0.5 + 0.7*0.8 - 0.5*0.7*0.8=0.68 .
Le noeud paragraphe (ayant une pertinence de 0.8 à la requête) sera donc mieux
classé que le noeud section.
Pour les requêtes orientées contenu et structure, des probabilités d’apparition
de chaque terme de la condition de contenu dans les éléments répondant aux
conditions de structure sont calculées, et des sommes pondérées de ces probabilités sont ensuite effectués.
Chapitre 1. Recherche d’Information Structurée
41
On trouvera une autre application du modèle probabiliste dans [110], avec
une application de la théorie de Dempster-Shafer [172]. La théorie de l’évidence
de Dempster-Shafer est utilisée principalement parce qu’elle possède une règle
de combinaison permettant d’effectuer une agrégation du score de pertinence
des éléments en respectant la théorie de l’incertain.
1.5.4
Modèle inférentiel
Dans la recherche d’information dans des documents XML, les diagrammes
d’inférence ont été adaptés pour exprimer les relations de causalité entre termes
et structures.
Parmi les travaux les plus récents, citons celui Piworwarski et al. [142]. Les
auteurs ont proposé un modèle probabiliste basé sur les réseaux bayésiens où
les dépendances de hiérarchisation sont exprimées par des probabilités conditionnelles. La probabilité de pertinence d’un élément e sachant son parent p
pour une requête q est P (e|p, q) est la suivante :
P (e = a|p = b, q) ≃
1
1 + eFe,a,b(q)
(1.14)
où,
Fe,a,b(q) est la pertinence de l’élément e selon le modèle Okapi.
Une requête q structurée est décomposée en un ensemble de n sous-requêtes
élémentaires qi . Chacune de ces sous-requêtes reflète une entité structurelle et
un besoin d’information. Le score final est donné par la formule suivante :
RSV (ei , q) = RSVq1 (ei , q) ∗ ...RSVqn (ei , q)
De Compos, Fernandez et Huete [109] ont également proposé un modèle de
recherche basé sur les réseaux bayésiens où le diagramme d’inférence est basé
sur la probabilité conditionnelle. Deux types de diagrammes sont proposés :
SID (Simple Inference Diagram) et CID (Context based Inference Diagram).
Un diagramme se compose de deux parties : une partie qualitative et une partie
quantitative.
– Le composant qualitatif est la représentation des variables et des influences. Ceci est réalisé par les différents types de nœud : noeud de
chance, noeud de décision et noeud d’utilité. Dans ce modèle les arcs
pointent vers les nœuds de chance et d’utilité seulement.
Dans SID, les nœuds de chance et de décision sont liés aux nœuds de
l’utilité qui seront additionnés à la fin. Dans CID, on rajoute par rapport
à SID des arcs provenant des nœuds de chance vers les nœuds d’utilité
qui leurs sont au dessus par rapport à l’arborescence.
Chapitre 1. Recherche d’Information Structurée
42
– Le composant quantitatif est la probabilité des nœuds de chance et des
nœuds d’utilité variant entre 0 et 1.
1.5.5
Modèles de langage
Un modèle de langage en recherche d’information dans des documents XML
est proposé dans [135]. L’idée est de combiner différents modèles de langage en
appliquant l’interpolation linéaire.
Sigurbjornsson et al. ont proposé dans [174] un modèle combinant des
modèles de langage de l’élément, du document et de la collection. Pour estimer les modèles de langage, les auteurs ont utilisé deux types d’index : un
index pour les éléments du document XML qui assure la même fonction qu’un
fichier inverse en RI classique et un autre (index article) pour tout le document
utilisé pour des calculs statistiques. L’arbre XML est indexé en se basant sur
le post et le pre-ordre des nœuds.
Pour chaque élément e, on estime le modèle de langage (score) pour une requête
donnée q selon la formule suivante :
P (e|q) ∝ P (e).P (q|e)
(1.15)
Les auteurs considèrent l’indépendance entre les termes de la requête et la
formule précédente devient alors :
P (e|q) ∝ P (e).
k
Y
P (ti |e)
(1.16)
i=1
avec ti terme de la requête.
La probabilité de P (ti |e) est une interpolation linéaire des trois modèles de
langage (élément, article et collection) :
P (ti |e) = λe .Pmle (ti |e) + λd .Pmle (ti |d) + (1 − λe − λd ).Pmle (ti )
(1.17)
avec Pmle (ti |e) est la probabilité de ti dans le modèle de langage de l’élément
estimée par les statistiques à partir de l’index des éléments, Pmle (ti |d) est la
probabilité de ti dans le modèle de langage du document estimée par les statistiques à partir de l’index article et Pmle (ti ) est la probabilité de ti dans le
modèle de langage de la collection. λe et λd sont des constantes.
On trouvera d’autres applications des modèles de langages à la RI structurée
dans [143], [22], [81], [102].
Chapitre 1. Recherche d’Information Structurée
1.5.6
43
Autres modèles de recherche
D’autres modèles ont été proposés pour la recherche dans des documents
XML. Ils ont été conçu de manière à calculer la pertinence d’un élément en
tenant compte à la fois de la pertinence du contenu et celle de la structure des
éléments à renvoyer.
Dans [186], Trotman a proposé d’attribuer des degrés d’importance pour
chaque structure du document et de remplacer le tf par la fréquence du terme
en tenant compte du poids de la structure.
Dans le modèle vectoriel une telle approche se traduit dans le calcul de fréquence
d’un terme en remplaçant la formule
tfid =
n
X
tfipd
p=1
par la formule
tfid′
=
n
X
(Cp ∗ tfipd )
p=1
où tfipd est le nombre d’occurrences du terme t à la position p du document d.
Cp est le poids de chaque structure du document qui doit être fixé. Cette
méthode d’indexation et de recherche des données structurées permet de donner un poids aux structures. Un algorithme génétique est employé pour l’apprentissage des poids.
Une approche d’agrégation est appliquée dans [106] pour déterminer le poids
d’un composant tout en respectant à la fois la représentation d’un document et
ses composants. Elle suit la structure hiérarchique et la structure linéaire des
documents.
L’agrégation est aussi appliquée au niveau de l’indexation et du calcul d’incertitude de la représentation des nœuds. Le résultat est une liste de composants
de documents représentant des meilleurs points d’entrée dans les documents.
1.5.7
Modèles spécifiques aux collections de documents
hétérogènes
L’hétérogénéité représente un des principaux challenges de la RI structurée.
Plusieurs modèles ont été proposés en particulier dans le cadre de la tâche
hétérogène d’INEX. La majorité des solutions proposées s’orientent vers la
Chapitre 1. Recherche d’Information Structurée
44
classification de documents [116], [112], [130]. La recherche se fait alors au niveau des classes de documents.
– Denoyer et al. [48] ont conçu un format intermédiaire qui permet de classifier les documents en suivant un calcul basé sur la probabilité conditionnelle.
– Denoyer et Gallinari [46] ont également modélisé le problème sous forme
de réseaux bayésiens. Chaque noeud du réseau comporte un libellé et des
informations contextuelles. Deux sortes de variables sont envisagées :
1. une variable structurelle sid (d : document) qui dépend de ses ascendants.
2. une variable contextuelle tid qui ne dépend que de ses variables structurelles.
La probabilité de jointure d’un document d à un modèle C est calculée
comme suit :
P (d, C) = P (c)
|d|
Y
P (sid /pa(sid , C)P (tid /sid , C)
i=1
avec tid est une séquence de mots et pa(s) présente le parent d’un noeud.
Ce modèle génératif permet de considérer des documents hétérogènes
(texte + image), où l’image est considérée comme un ensemble de pixels.
Il est par la suite transformé en classifieur discriminant en utilisant la
méthode Fisher Kernel.
– Le problème de classification a été également traité par Lee et al. [100].
Les auteurs ont proposé un algorithme permettant un matching entre
deux documents grâce une séquence d’opérations de transformations.
– Lian et Cheung [120] ont aussi proposé un algorithme de classification.
L’algorithme (S GRACE) a été proposé pour classifier les documents en
se basant sur le paramètre distance et la notion de sous-graphe qui sont
codés par des chaı̂nes de bits. La distance entre deux documents C1 et
C2 est calculée comme suit :
dist(C1 , C2 ) = 1 −
|sg(C1 ) ∩ sg(C2 )|
max {|sg(C1 | , |sg(C2 |}
avec sg(Ci ) est l’ensemble de graphes et de sous-graphes structurels de Ci
(i=1,2), |sg(Ci )| est le nombre de d’arcs dans sg(Ci ) et |sg(C1 ) ∩ sg(C2 )|
est le nombre d’arcs communs de sg(C1 ) et sg(C2 ).
Chapitre 1. Recherche d’Information Structurée
1.6
45
Évaluation de la RIS : La campagne INEX
INEX (INitiative for the Evaluation of XML Retrieval ) est la seule campagne d’évaluation des différents SRI pour la recherche d’information sur les
documents XML. Elle est mise en place chaque année depuis 2002. Elle offre
un forum international non seulement pour permettre aux différentes organisations participantes d’évaluer et de comparer leurs résultats, mais aussi pour
discuter les différentes problématiques qui se présentent.
La collection de test consiste en un ensemble de documents XML, requêtes,
tâches de recherche et jugements de pertinence.
1.6.1
Collection
Les collections de test préparées dans le cadre d’INEX ne cessent d’évoluer
dans le but d’améliorer la qualité de l’évaluation. De 2002 à 2004, la collection de documents était composée d’articles scientifiques provenant de la IEEE
Computer Society, balisés au format XML. La collection, d’environ 500 Mo,
contenait plus de 12000 articles, publiés de 1995 à 2002, et provenant de 18
magazines ou revues différents. En 2005, cette collection a été étendue pour
comporter environ 17000 articles publiés entre 1995 et 2004 provenant de 21
magazines ou revues différents pour une taille d’environ 750 Mo. En 2006, la
collection est composée de 659388 documents en anglais extraits de l’encyclopédie en ligne Wikipedia [47] avec une taille totale d’environ 5 GigaOctets.
Dans la collection IEEE, un article est composé d’environ 1500 éléments et
la collection contient au total 8 millions de nœuds et 180 balises différentes.
Dans la collection Wikipédia, un article est composé d’environ 70 éléments,
la collection contient au total plus que 460 millions de nœuds et 5000 balises
différentes.
Les figures 1.7 et 1.8 présentent deux exemples de documents des collections
2005 et 2006.
1.6.2
Requêtes
Les requêtes (ou Topics) sont créées par les différents participants et doivent
être représentatives des demandes de l’utilisateur moyen. Les topics se divisent
en deux catégories principales :
– Les CO (Content Only) : ce sont les requêtes composées de simples mots
clés. Les mots clés de la requête peuvent être éventuellement groupés sous
forme d’expressions et précédés par les opérateurs ’+’ (signifiant que le
terme est obligatoire) ou ’-’ (signifiant que le terme ne doit pas apparaı̂tre
Chapitre 1. Recherche d’Information Structurée
46
Fig. 1.7 – Exemple d’un article de la collection IEEE au format XML
Fig. 1.8 – Exemple d’un article de la collection Wikipédia au format XML
Chapitre 1. Recherche d’Information Structurée
Fig. 1.9 – Exemple de requête CO de la collection 2005
Fig. 1.10 – Exemple de requête de la collection 2006
47
Chapitre 1. Recherche d’Information Structurée
48
dans les éléments renvoyés à l’utilisateur).
– Les CAS (Content And Structure) : ces requêtes contiennent des contraintes
sur la structure des documents.
Pour chaque Topic, différents champs permettent d’expliciter le besoin de l’utilisateur : le champ Title donne la définition simplifiée de la requête, le champ
Keywords contient un ensemble de mots clés qui ont permis l’exploration du
corpus avant la reformulation définitive de la requête, et les champs Description
et Narrative, explicités en langage naturel, indiquent les intentions de l’auteur
[63]. La formulation des requêtes est étroitement liée à la tâche de recherche
associée.
En 2006, ces types de requêtes ont été regroupés dans le seul type CO+S
en rajoutant un nouveau champ castitle, donnant la forme structurée de la
requête.
Les deux figures 1.9 et 1.10 présentent respectivement un exemple de requête
de type CO et un exemple de requête de type CAS.
1.6.3
La tâche ad-hoc
INEX propose plusieurs tâches d’évaluation dont la principale est la tâche
de recherche ad-hoc. Elle est considérée comme une simulation de l’utilisation
d’une bibliothèque, où un ensemble statique de documents est interrogé avec
des besoins utilisateurs. La tâche ad-hoc est à son tour composée de sous-tâches
divisées selon soit :
– le type de requêtes : les requêtes peuvent à la fois contenir des conditions structurelles et d’autres portant sur le contenu. En réponse à la
requête, des éléments peuvent être retrouvés à partir de la collection. La
tâche ad-hoc a été divisée en 3 sous tâches en 2004 (CO, SCAS et VCAS),
en 2005 elle est divisée en 5 sous-tâches (CO, SSCAS, VSCAS, SVCAS
et VVCAS) et en 2006, les tâches se sont limitées à CO et CO+S.
– la stratégie de recherche , c’est à dire le critère sur lequel est jugée
la performance d’un système. On distingue trois sous-tâches : ”Fetch and
Browse”, ”Thorough” et ”Focused ”. En 2006, une nouvelle tâche appelée
”Best in Context” a été définie.
1.6.3.1
Tâche CO
La tâche CO (Content Only Task ) a pour but de répondre avec des éléments/
documents XML à des requêtes utilisateurs CO. Aucune indication de structure
Chapitre 1. Recherche d’Information Structurée
49
dans la requête ne peut aider les SRI à déterminer la granularité de l’information à renvoyer.
1.6.3.2
Tâche CAS
On distingue plusieurs sous-tâches :
– La tâche SCAS (Strict Content And Structure task ) consiste à répondre
avec des éléments/documents XML aux topics CAS de manière stricte,
c’est à dire respectant toutes les conditions sur la structure et le contenu
énoncés dans la requête. Le champ Title de la requête SCAS est basé sur
une syntaxe XPath.
– La tâche VCAS (Vague Content And Structure Task ) utilise elle aussi
des requêtes CAS, mais pour lesquelles les participants peuvent répondre
de manière vague, c’est à dire avec des éléments/documents qui satisfont
globalement les requêtes. Le champ Title des requêtes VCAS est basé sur
le langage NEXI [190].
– Dans la tâche VVCAS, les éléments supports3 et les éléments recherchés
spécifiés dans la requête sont interprétés de manière vague. Les jugements
de pertinence sont fait selon le champ Narrative de la requête.
– Dans la tâche SVCAS, le type d’élément recherché spécifié dans la requête
doit être respecté dans l’ensemble des éléments pertinents.
– Dans la tâche VSCAS, les éléments pertinents doivent respecter les éléments supports spécifiés dans la requête.
– Dans la tâche SSCAS, les éléments pertinents doivent satisfaire strictement les éléments supports ainsi que l’élément recherché spécifié dans la
requête.
1.6.3.3
–
–
–
–
3
Stratégies de recherche
Parmi les stratégies de recherche, on distingue :
La tâche Thorough dans laquelle on suppose qu’un utilisateur préfère
retrouver tous les élément fortement pertinents.
La tâche Focused dans laquelle on suppose qu’un utilisateur préfère ne
pas avoir d’éléments imbriqués dans ses réponses.
La tâche Fetch and Browse appelée aussi All in Context, qui consiste
à classer les résultats par article ou document. L’évaluation concerne alors
d’une part les documents et d’autre part le classement des éléments dans
un document donné.
La tâche Best in Context qui permet d’évaluer les meilleurs points
d’entrée dans un article donné.
Les éléments supports sont les éléments qui décrivent la structure de l’élément
que l’utilisateur désire retrouver
Chapitre 1. Recherche d’Information Structurée
1.6.4
50
Autres tâches
La campagne d’évaluation INEX ne cesse d’intégrer des tâches autres que la
tâche Ad-hoc. Dans ce qui suit, nous présentons les différentes tâches proposées
au fil des années.
1.6.4.1
Traitement automatique du langage naturel
Dans cette tâche, les utilisateurs formulent leurs requêtes en langage naturel,
sans avoir besoin d’apprendre un langage complexe. Les systèmes ne doivent
exploiter que le champs description spécifié dans la requête [65].
1.6.4.2
Tâche Reformulation par réinjection de pertinence (Relevance Feedback)
La tâche Relevance Feedback a pour but de reformuler la requête initiale
de l’utilisateur en se basant sur des jugements de pertinence afin d’améliorer
des performances des systèmes de recherche [3]. Nous détaillons cette tâche à
laquelle nous participons dans le chapitre suivant.
1.6.4.3
Tâche Hétérogène
La collection d’évaluation utilisée dans les différentes tâches d’INEX est
composée de documents homogènes ayant la même DTD. Dans la réalité, les
documents proviennent souvent de différentes collections ne possédant pas la
même DTD. Notamment avec l’apparition et l’utilisation des systèmes distribués, la tâche hétérogène s’avère un véritable challenge qui pose un certain
nombre de défis :
– dans le cas d’une recherche orientée contenu, les approches utilisées utilise
une DTD pour retourner des éléments formant des réponses raisonnables.
Dans des collections hétérogènes, des nouvelles approches doivent être
développées indépendamment des DTDs.
– dans le cas des requêtes de type CAS, s’ajoute le problème de faire correspondre des conditions structurelles appartenant à de différentes DTDs.
Chapitre 1. Recherche d’Information Structurée
1.6.4.4
51
Fouille de données (Data mining)
Le but de la recherche d’information dans des documents XML est de renvoyer les éléments (partie de document) répondant aux besoins de l’utilisateur.
Cependant avec la masse croissante d’informations disponibles, un nouveau
challenge est défini qui permet de classifier et de regrouper les informations
afin de permettre un accès direct aux besoins de chaque utilisateur.
1.6.4.5
Tâche interactive
Cette tâche définie en 2005 a pour but d’étudier le comportement utilisateur
lors d’une recherche dans les documents XML et de développer des systèmes
qui tiennent compte de l’environnement de l’utilisateur [65].
1.6.4.6
Tâche multimedia
Dans cette tâche, on s’intéresse à développer des systèmes de recherche non
seulement dans les documents textes mais aussi contenant des images et des
vidéos.
1.6.5
Jugements de pertinence
L’évaluation de pertinence des SRI passe par une première phase de validation des documents renvoyés par les SRI. Chaque élément/document est jugé
à la main par les participants pour chaque requête en utilisant le système de
jugement en ligne [140]. En 2002, une première échelle de pertinence à deux
dimensions a été proposée, basée sur le degré de pertinence et la couverture des
éléments. Depuis 2003, ces deux dimensions ont été remplacées par la spécificité
et l’exhaustivité. Pour chacune une échelle de 4 niveaux a été définie : pas exhaustif (resp. pas spécifique), marginalement exhaustif (resp. marginalement
spécifique), assez exhaustif (resp. assez spécifique) et très exhaustif (resp. très
spécifique).
En 2005 et 2006, l’exhaustivité est mesurée selon une échelle à 4 niveaux :
exhaustivité { e=2 exhaustivité élevée
e=1 exhaustivité moyenne
e=0 pas d’exhaustivité
e= ? élement trop petit
Chapitre 1. Recherche d’Information Structurée
52
La spécificité quant à elle est mesurée dans un intervalle continu [0,1] où
s=1 représente un élément totalement spécifique.
Les mesures d’évaluation utilisées durant la campagne 2005 sont basées sur
les mesures XCG et ep/gr [105]. Ces mesures sont calculées en tenant compte
des 2 dimensions de pertinence (exhaustivité et spécificité) agrégées en une
seule valeur. Deux types de fonction d’agrégation sont utilisées :
– une agrégation ”stricte” pour évaluer si un SRI est capable de retrouver
des éléments très spécifiques et très exhaustifs
½
1 si e = 2 et s = 1
(1.18)
fstrict (e, s) =
0 sinon
– une agrégation ”généralisée” pour évaluer les éléments selon leur degré
de pertinence
fgeneralisee (e, s) = e ∗ s
(1.19)
L’utilisation d’une échelle à deux dimensions est motivée par le besoin de
refléter la pertinence relative d’un élément par rapport à ses descendants. Par
exemple, un élément peut être plus exhaustif que chacun de ses descendants
pris séparément puisqu’il couvre l’union des aspects discutés dans chacun. De
la même manière, des éléments peuvent être plus spécifiques que leurs parents,
car ces derniers couvrent plus de sujets, y compris des sujets non pertinents.
1.6.6
Mesures d’évaluation
Jusqu’à 2004, l’évaluation de pertinence des différents systèmes proposés
par les participants utilise des méthodes basées sur les mesures de rappel et
précision en tenant compte de la structure des documents XML et de la possible
imbrication des résultats. Depuis INEX 2005, d’autres mesures ont été définies
pour permettre une évaluation plus appropriée des performances des systèmes
de recherche en RI structurée [105] : le gain cumulé (xCG) et l’effort précision
(ep).
La mesure xCG cumule les scores de pertinences des éléments de la liste
des résultats. Etant donnée une liste triée d’éléments xCG dans laquelle les
identifiants des éléments sont remplacés par leur score de pertinence, le gain
cumulé au rang i, noté xCG[i], est calculé comme la somme des pertinences
jusqu’à ce rang :
i
X
xCG[i] =
xG[j]
(1.20)
j=1
Chapitre 1. Recherche d’Information Structurée
53
Par exemple, soit xGi =< 2, 1, 0, 1, 0, 0 > un vecteur de gain jusqu’au rang i.
Le vecteur de gain cumulé sera < 2, 3, 3, 4, 4, 4 >.
Pour chaque requête, on calcule un vecteur de gain idéal xCI à partir de la base
de rappel, en cumulant les scores de pertinences des éléments triés par ordre
décroissant. Le xCG peut alors être comparé au gain idéal. Le xCG normalisé
(nxCG) est obtenu par :
xCG[i]
nxCG[i] =
(1.21)
xCI[i]
Pour un rang donné i, le gain cumulé nxCG[i] reflète le gain relatif de l’utilisateur accumulé jusqu’à ce rang, comparé à ce qu’il aurait du atteindre si le
système avait produit une liste triée optimale.
Par analogie au gain cumulé, on définit l’effort-précision (ep(r))
ep(r) =
eideal
erun
(1.22)
où eideal est le rang pour lequel le gain cumulé est atteint par la courbe idéale.
erun est le rang pour lequel le gain cumulé est atteint par le système.
La valeur 1 correspond à une performance idéale, pour laquelle l’utilisateur
effectue un minimum d’effort pour atteindre un niveau de gain donné.
L’effort-précision est calculé à des points de gain-rappel arbitraires, où le gainrappel gr est la valeur du gain cumulé divisé par la valeur totale atteignable
du gain cumulé :
xCG[i]
gr[i] =
(1.23)
xCI[n]
avec n le nombre total de document pertinents.
L’effort-précision à une valeur donnée de gain-rappel mesure l’effort d’un utilisateur pour atteindre un gain relatif au gain total qu’il peut obtenir.
La moyenne non interpolée MAep (Mean Average Effort Precision) d’effortprecision est utilisée pour moyenner les valeurs d’effort-précision pour chaque
rang auquel un élément pertinent est renvoyé.
D’autre mesures ont été proposées mais ne sont pas utilisés pour l’évaluation
officielle d’INEX. Citons par exemple :
– EPRUM (The Expected Precision Recall with User Model ) : c’est une
extension de la mesure Rappel-Précision. Cette mesure définie par Piwowarski [141] est utilisée en général pour mesurer les tâches Focused et
Fetch and Browse. En effet elle permet de mettre en évidence le comportement de l’utilisateur en définissant un modèle probabiliste d’utilisateur.
La précision est définie comme le ratio du nombre minimal des rangs
consultés par l’utilisateur dans une liste retournée par un système idéal
et de celui d’un système évalué.
– BEDP utilisée pour l’évaluation de la tâche Best In Context. C’est la
somme des scores de tous éléments excédant le point X divisée par le
nombre de meilleurs points d’entrée.
Chapitre 1. Recherche d’Information Structurée
54
– Les Fscore (combinaison des taux de rappel et de précision) utilisés pour
évaluer la tâche All In Context au niveau d’un document.
– La précision généralisée (resp. rappel généralisé) : ces mesures sont
elles aussi utilisées dans la tâche All In Context. C’est la somme de Fscores (resp. nombre d’articles ayant une pertinence) qui précèdent un
article divisé par le rang de cet article (resp. le nombre des articles ayant
une pertinence)
1.7
Conclusion
Les documents semi-structurés, en permettant le balisage des contenus des
documents, réactualisent la problématique de recherche d’information classique,
et permettent ainsi de traiter l’information avec une granularité plus fine. Le
but des SRI traitant des documents semi-structurés est alors d’identifier des
parties des documents les plus pertinentes à une requête donnée.
Nous avons ainsi présenté les principales approches d’indexation et d’appariement développées en RIS. Nous avons également détaillé les nouveaux concepts
d’évaluation des systèmes de recherche en RIS.
Nous avons de plus indiqué que la reformulation de requêtes est une phase
importante en RI classique permettant l’amélioration des performances des SRI.
Parmi les techniques les plus efficaces citons la reformulation de requêtes par
réinjection de pertinence. Avant de détailler notre contribution en réinjection
de pertinence en RI structurée, nous allons présenter dans le chapitre suivant
les principales approches développées en reformulation de requêtes, et plus particulièrement en réinjection de pertinence.
Chapitre 2
Reformulation de Requêtes
2.1
Introduction
Les performances d’un SRI, mesurées en général par la double mesure
rappel-précision, dépendent d’une part de l’efficacité du modèle de recherche
mis en œuvre pour l’appariement des requêtes documents, et d’autre part des
requêtes formulées par l’utilisateur. En effet, l’utilisateur formule son besoin
en information par une requête composée de ses propres mots clés et le choix
de chaque terme a une influence directe sur l’ensemble des documents restitués
par le système. Le plus souvent, l’utilisateur formule ses requêtes avec des
termes qui lui sont propres, mais qui ne correspondent pas forcément à ceux
utilisés pour indexer les documents pertinents des collections interrogées. Pour
sélectionner le maximum de documents pertinents tout en limitant le bruit1 , il
faudrait alors que l’utilisateur puisse choisir les termes utilisés comme index.
Cette tâche s’avère difficile dans la mesure où il est impossible de connaı̂tre le
langage d’indexation utilisé et où le nombre de termes indexés est généralement
très grand. De plus, l’indexation et en particulier son exhaustivité, a également
une incidence directe sur la qualité des réponses du système de recherche.
De ce fait, retrouver les informations pertinentes en utilisant seulement la
requête initiale de l’utilisateur est une opération quasi-impossible.
De nombreux travaux visent à concevoir des SRI capables de s’adapter aux
besoins de l’utilisateur. La reformulation de la requête est sans doute la piste
la plus investie dans ce contexte.
La reformulation de requêtes, comme nous l’avons signalé dans le chapitre
précédent, est un processus ayant pour objectif de générer une nouvelle requête
1 Le
bruit est défini par les documents non pertinents retrouvés par le système de
recherche.
Chapitre 2. Reformulation de Requêtes
56
plus adéquate que celle initialement formulée par l’utilisateur. Elle représente
une forme de personnalisation à court terme. Cette reformulation permet de
coordonner le langage de recherche, utilisé par l’utilisateur dans sa requête et
le langage d’indexation. Par conséquent, elle limite le bruit et le silence2 dus à
un mauvais choix des termes d’indexation dans l’expression de la requête d’une
part, et les lacunes du processus d’indexation d’autre part.
L’apparition des documents semi-structurés a, comme nous l’avons signalé
dans le chapitre précèdent, apporté la dimension structurelle qui remet à plat la
reformulation classique. En effet les techniques de reformulation en RIS doivent
tenir compte de la co-habitation des deux sources d’évidences, le contenu et la
structure qui apparaissent aussi bien dans les collections de documents que
dans les requêtes de l’utilisateur.
Dans ce chapitre, nous présentons quelques techniques utilisées pour l’amélioration des performances des SRI dans la section 2.2. Dans la section 2.3, nous
présentons le processus général de la réinjection de pertinence ainsi que ses
différentes applications. Nous présentons ensuite les nouveaux enjeux de la
réinjection de pertinence en Recherche d’Information structurée ainsi que les
modèles proposés dans la littérature dans la section 2.4. Nous finissons par
présenter le mécanisme d’évaluation de la réinjection de pertinence dans la
section 2.5.
2.2
Techniques pour l’amélioration des performances des systèmes de recherche
Comme nous l’avons mentionné dans l’introduction, la requête initiale seule
est souvent insuffisante pour permettre la sélection de document répondant au
besoin de l’utilisateur. De ce fait, plusieurs techniques ont été proposées pour
améliorer les performances des SRI. Ces méthodes apportent des solutions aux
deux principales questions :
1. Comment peut-on retrouver plus de documents pertinents vis à vis d’une
requête donnée ?
2. Comment peut-on mieux exprimer la requête de l’utilisateur de manière
à mieux répondre à son besoin ?
Les principales techniques d’amélioration des systèmes de recherche se divisent en deux principales voies (voir figure 2.1) :
2
Le silence est défini par les documents pertinents non retrouvés.
Chapitre 2. Reformulation de Requêtes
57
Fig. 2.1 – Le Processus général de l’amélioration de la recherche
– La première voie propose de réordonner les documents sans modifier la
requête, soit en utilisant les jugements de pertinence des résultats déjà restitués [137] et en calculant de nouveaux scores pour les documents, soit en
fusionnant les résultats de différents systèmes de recherche. Dans le premier cas, on parle de réinjection de pertinence pour le réordonnencement
et dans le second, on parle d’algorithmes multiples de recherche souvent
utilisés dans les moteurs de recherche sur le web [175].
– La seconde voie propose de reformuler la requête initiale en y ajoutant
de nouveaux termes. La reformulation peut se faire par expansion automatique de la requête, par combinaison de différentes présentations de la
requête ou par réinjection de pertinence.
Nous présentons dans ce qui suit les principales techniques de reformulation
de requêtes : la réinjection de pertinence sera détaillée dans la section 2.3.
2.2.1
Expansion et combinaison de requêtes
L’expansion directe de la requête consiste à rajouter à la requête initiale
des termes issus de ressources linguistiques existantes ou bien de ressources
construites à partir des collections. Plus précisément,
Chapitre 2. Reformulation de Requêtes
58
– au niveau des ressources linguistiques, le but est d’utiliser un vocabulaire
contrôlé issu de ressources externes. On peut alors utiliser des ontologies
linguistiques (citons par exemple Wordnet [133]).
On peut également ajouter à la requête des variantes morphologiques des
termes employés par l’utilisateur. Le but de ce mécanisme est d’assurer
la restitution des documents indexés par des variantes des termes composant la requête.
Les associations établies manuellement traduisent généralement des relations de synonymie et de hiérarchie. Les thésaurus construits manuellement sont un moyen efficace pour l’expansion de requête. Cependant,
leur construction et la maintenance des informations sémantiques qu’ils
contiennent sont coûteuses en temps et nécessitent le recours à des experts des domaines considérés. Pour cette raison, ils restent peu utilisés
par les SRI.
– En ce qui concerne la seconde catégorie de ressources, elles sont construites
en s’appuyant sur une analyse statistique des collections. Il s’agit de
chercher des associations de termes afin d’ajouter des termes voisins à
la requête. Il existe aussi d’autres méthodes entièrement automatiques
telles que le calcul des liens contextuels entre termes [38] et la classification automatique de documents [35].
Les associations créées automatiquement sont généralement basées sur la
cooccurrence des termes dans les documents. Les liens inter-termes renforcent la notion de pertinence des documents par rapport aux requêtes.
2.2.2
Combinaison de requêtes
Plusieurs approches de RI [175] utilisent une seule représentation de requête
comparée à plusieurs représentations de document (algorithmes multiples de recherche). Il a été montré dans [114] qu’une recherche plus efficace peut être
atteinte en exploitant des représentations multiples de requêtes ou d’algorithmes de recherche différents ou encore en utilisant différentes techniques
de réinjection.
Une combinaison des représentations de requêtes peut augmenter le rappel
d’une requête, tandis que la combinaison des algorithmes de recherche peut
augmenter la précision. La base théorique de la combinaison des évidences
a été présentée par Ingwersen [96, 97]. Il a en particulier montré que des
représentations multiples du même objet, par exemple une requête, permettent
une meilleure perception de l’objet qu’une seule bonne représentation. Cependant, il est important que chacune des sources d’évidences utilisées fournisse
non seulement un point de vue différent sur l’objet, mais que ces points de vue
aient différentes bases cognitives. Les représentations multiples d’une requête
peuvent fournir différentes interprétations du besoin en information.
Chapitre 2. Reformulation de Requêtes
59
Une des approches de combinaison de multiples représentations de requêtes est
par exemple proposée dans [15]. Elle consiste à calculer les scores des documents
directement depuis la fonction d’appariement document-requête en utilisant le
même système de recherche mais différentes versions de la requête. Ensuite, les
résultats obtenus par chacune des versions sont combinés pour avoir une seule
liste finale. Ces versions sont issues soit des expressions d’une même requête
par des chercheurs différents, soit des présentations d’une même requête dans
des langages différents.
Tamine et al. proposent dans [184] une technique de recherche d’information
basée sur les algorithmes génétiques, plus précisément, elle propose d’utiliser
une population de requêtes qui évolue à chaque étape de la recherche et tente
de récupérer le maximum de documents pertinents.
2.3
2.3.1
Réinjection de pertinence
Motivation
Plusieurs travaux en RI ont été développés en considérant que les besoins de
l’utilisateur sont fixes au cours d’une recherche d’information. Si cela peut être
vrai dans certains cas, des études [108, 53, 181] prouvent que les besoins d’information devraient être considérés comme des entités passagères et évolutives
plutôt que comme des demandes fixes. L’intervention de l’utilisateur au niveau
de jugement de pertinence joue alors un rôle intéressant pour la reformulation
de requêtes afin d’affiner la recherche.
2.3.2
Processus général de RF
Le processus de réinjection de pertinence, comme schématisé sur la figure
2.2, comporte principalement trois étapes : l’échantillonnage, l’extraction des
évidences et la réécriture de la requête.
– L’échantillonnage : cette étape permet de construire un échantillon de
documents à partir des éléments jugés par l’utilisateur. Cet échantillon
est caractérisé par le nombre d’éléments jugés et le nombre d’éléments
jugés pertinents.
– L’extraction des évidences est l’étape la plus importante, elle consiste en
général à extraire les termes pertinents qui serviront à l’enrichissement
de la requête initiale. Plusieurs approches ont été développées, la plus
reconnue est celle de Rocchio [154] adaptée au modèle vectoriel.
Chapitre 2. Reformulation de Requêtes
Fig. 2.2 – Le Processus général de la réinjection de pertinence
60
Chapitre 2. Reformulation de Requêtes
61
– La réécriture de la requête consiste à construire une nouvelle requête en
combinant la requête initiale avec les informations extraites dans l’étape
précédente.
Le processus général de la réinjection de pertinence peut être renouvelé plusieurs fois pour une même séance de recherche : on parle alors de la réinjection
de pertinence à itérations multiples, dont les approches représentatives sont
détaillées dans la section 2.3.6.2.
Considérons maintenant en détail les différentes phases du processus de
réinjection de pertinence.
La phase d’échantillonnage ne présente pas de problématique spécifique. Le seul
point abordé à ce niveau concerne le nombre d’éléments à évaluer pour pouvoir
effectivement constituer un échantillon représentatif.
La problématique principale de la réinjection de pertinence réside dans les deux
autres phases : l’extraction des termes (ils sont alors pondérés pour sélectionner
les plus pertinents) et la réécriture de la requête avec repondération des termes.
Dans la plupart des approches de la littérature, les deux phases sont effectuées
avec des méthodes de pondération des termes similaires. Cependant certaines
méthodes et particulièrement celles basées sur le modèle probabiliste, utilisent
des méthodes de pondération différentes.
Dans la prochaine section nous proposons donc de détailler les méthodes
d’extraction des termes. La reformulation de requêtes appliquée aux différents
modèles de RI est ensuite décrite dans la section 2.3.4.
2.3.3
Méthodes d’extraction des termes
La reformulation de requête telle qu’elle a été initialement utilisée par Wu
et Salton [202] consistait à ajouter tous les termes des documents pertinents
retrouvés en réponse à la requête lors du processus de recherche. Cette méthode
de sélection des termes peut être à l’origine de beaucoup de bruit (restitution
de document non pertinents). En effet, les termes dans les premiers documents
pertinents restitués ne sont pas tous significatifs. L’idée d’utiliser seulement
une sélection de termes a été proposée par Harman [78]. La question est de
savoir quels termes utiliser pour étendre la requête initiale de façon à améliorer
le rappel et la précision du système.
L’approche présentée par Harman [78] consiste à sélectionner les dix pre-
Chapitre 2. Reformulation de Requêtes
62
miers documents et à identifier parmi ceux-ci les documents pertinents. Harman a utilisé différentes techniques pour ordonner les termes afin de choisir les
vingt meilleurs termes de la liste. Il a été démontré que la technique utilisée
pour le tri des termes pertinents a un large impact sur la performance. Dans
plusieurs techniques de tri que l’auteur a définies, il utilise une mesure de bruit
nk calculée comme suit :
nk =
N
X
tfik
i=1
fk
log2
fk
tfik
(2.1)
Avec :
tfik le nombre d’apparition du terme k dans le document i,
fk le nombre d’apparition du terme k dans la collection et
N le nombre de termes dans la collection.
La technique a été étendue pour tenir compte du nombre de documents dans
l’ensemble des documents pertinents contenant le terme k (pk ) et du nombre
d’apparition du terme k dans l’ensemble des documents pertinents (rtfk ).
Harman a défini ainsi une autre mesure de bruit par rapport à l’ensemble des
documents pertinents. Cette mesure est calculée comme suit :
rnk =
N
X
pk
i=1
fk
tfik
log2
rtfk
tfik
(2.2)
Dans [79], Harman a défini d’autres techniques de tri des termes. La technique qui conduit à de meilleurs résultats est basée sur une formule de pondération
définie par Sparck-Jones et Robertson [152] :
Wij = log2
pij (1 − qij )
qij (1 − pij )
(2.3)
Avec :
Wij poids du terme i dans la requête j,
pij la probabilité que le terme i apparaisse dans les documents pertinents pour la requête j,
qij la probabilité que le terme i apparaisse dans les documents non
pertinents pour la requête j.
La sélection des termes ayant une valeur de poids importante revient à sélectionner les termes caractéristiques des documents pertinents avec une faible probabilité d’apparition dans les documents non pertinents.
Harman [79] a également démontré que la meilleure méthode de sélection des
termes issus des documents pertinents devient inefficace au-delà de 20 à 40
termes ajoutés.
Chapitre 2. Reformulation de Requêtes
63
Croft et al. [77] et Robertson et al. [153] ont adopté une méthode de sélection
de nouveaux termes sur la base d’une fonction qui consiste à attribuer à chaque
terme un nombre traduisant sa valeur. Robertson propose la formule suivante
pour calculer la valeur de sélection d’un terme :
selV alue(i) = Wij × (Pi − Ui )
(2.4)
Avec :
Wij défini dans l’équation 2.3,
Pi la probabilité (di = 1/D est pertinent) ; et Ui la probabilité
(di =0/D est non pertinent).
Les termes sont alors triés en fonction de leurs valeurs de pertinence puis
sélectionnés en utilisant un seuil prédéfini.
Lundquist et al. ont étudié dans [123] une autre technique de tri des termes.
Pour un terme k, les auteurs associent une valeur pk × nidf où pk est le nombre
de documents dans l’ensemble des documents pertinents contenant le terme
k, et nidf est une fréquence absolue inverse normalisée utilisant la normalisation telle que définie par Singhal [177]. En utilisant la collection TIPSTER,
Lundquist et al. [123] ont démontré que cette formule conduit à de bonnes
performances. Par ailleurs, ils ont aussi démontré que l’utilisation des dix premiers termes (termes simples ou expressions) conduit à une amélioration de la
précision moyenne de 31% par rapport à l’utilisation des cinquante premiers
termes et vingt premières expressions.
Boughanem et al. [21] [20] ont quant à eux étudié la reformulation de requête
sur un SRI basé sur l’approche connexionniste fondée sur les réseaux de neurones. Les termes ajoutés à la requête sont sélectionnés sur la base d’un seuil de
cooccurrence avec les termes de la requête initiale. Ils ont conclu que la valeur
idéale du seuil (c’est à dire la valeur permettant d’améliorer les résultats) varie
de façon inversement proportionnelle à la taille de la base et à la taille moyenne
des documents.
Buckley et al. ont démontré dans [24], que le taux de performance (RappelPrécision) est davantage corrélé avec le nombre de termes ajoutés à la requête
qu’avec le nombre de documents initialement retrouvés. Cette idée est traduite
par l’équation suivante
RP (N ) = A.log(N ) + B.log(X) + C
Avec : RP (N ) la performance du système pour N documents restitués,
N le nombre de documents restitués, et
(2.5)
Chapitre 2. Reformulation de Requêtes
64
X le nombre de termes ajoutés à la requête.
A, B, et C sont des constantes telles que B >> A > C.
2.3.4
Principales approches de réinjection de pertinence
en RI
2.3.4.1
Approche de Rocchio
La reformulation de requête a été introduite par Rocchio [154] dans le
modèle vectoriel. Rocchio considère que la restitution des documents pertinents
est liée à la notion de ”requête optimale”. Cette dernière est censée maximiser
la différence entre le vecteur des documents pertinents et celui des documents
non-pertinents.
Comme l’utilisateur n’est pas en mesure de soumettre une requête optimale, la
réinjection de pertinence doit permettre de rapprocher le vecteur de la requête
initiale du vecteur moyen des documents pertinents et de l’éloigner du vecteur
moyen des documents non pertinents. Ceci est mis en œuvre par repondération
des termes initiaux et ajout de nouveaux termes pondérés à la requête initiale.
Les poids servent à la discrimination des documents pertinents des documents
non pertinents. La formule originale de Rocchio est définie comme suit :
Q1 = Q0 + 1/nr
nr
X
i=1
Ri − 1/ns
ns
X
Si
(2.6)
i=1
où
Q0 est le vecteur de la requête initiale, Q1 est le vecteur de la
nouvelle requête, nr est le nombre de documents pertinents, ns le
nombre de documents non pertinents, Ri est le vecteur du ieme document pertinent et Si le vecteur du ieme document non pertinent.
Le nouveau vecteur de requête est le vecteur de la requête initiale plus les
termes qui différencient au mieux les documents pertinents des documents nonpertinents. Une requête reformulée contient de nouveaux termes (extraits des
documents jugés pertinents) associés à de nouveaux poids. Si le poids d’un
terme de la requête décroı̂t vers zéro ou au dessous de zéro, il est éliminé de
l’ensemble des termes de la requête.
Une variante de cette formule a été examinée expérimentalement avec des
résultats positifs sur le système de recherche SMART [154]. La petite taille de
la collection de documents utilisée dans les expériences de Rocchio a engendré
Chapitre 2. Reformulation de Requêtes
65
certaines modifications dans la formule. Par exemple, un terme est seulement
considéré s’il appartient à la requête initiale ou s’il apparaı̂t plus dans les documents pertinents que dans les documents non-pertinents et dans plus que
la moitié des documents pertinents. Ces modifications accentuent la difficulté
d’aligner la théorie avec la pratique expérimentale.
Une autre modification apportée à cette formule qui permet de pondérer
la contribution relative de la requête initiale, des documents pertinents et des
documents non-pertinents dans le processus de RF. C’est la variante la plus
répandue aujourd’hui (standard), elle est décrite dans l’équation suivante :
Q1 = αQ0 + β/nr
nr
X
Ri − γ/ns
i=1
ns
X
Si
(2.7)
i=1
où α, β et γ indiquent le degré d’effet de chaque composant sur le processus de
réinjection de pertinence.
Ide [95] a étendu les expériences de réinjection de pertinence de SMART, en
examinant différents aspects de RF. Il a par exemple étudié la restriction sur les
documents jugés pertinents pour la réinjection de pertinence, en changeant le
nombre de documents utilisés pour le processus de RF, et utilisé les documents
non-pertinents. Il a également proposé une variante de la formule originale de
Rocchio, en utilisant seulement le premier document non pertinent trouvé S1 .
La formule utilisée est la suivante :
nr
X
Ri − S1
(2.8)
Q1 = Q0 +
i=1
Cette formule a été comparée à la formule originale de Rocchio. Bien que cette
technique n’ait pas amélioré considérablement les résultats, elle était plus robuste, en permettant l’amélioration pour plus de requêtes.
2.3.4.2
Réinjection de pertinence dans le modèle probabiliste
Dans le modèle probabiliste développé par Robertson, Sparck Jones [152] et
Van Rijsbergen [147], les documents et les requêtes questions sont également vu
comme des vecteurs mais la mesure vectorielle de similarité est remplacée par
une fonction probabiliste. On rappelle que le modèle probabiliste est basé sur
la probabilité qu’un document soit pertinent à un utilisateur pour une requête
donnée. Ce modèle est par essence même lié à la réinjection de pertinence,
puisque ses paramètres sont estimés sur la base de la présence/absence des
termes dans les documents pertinents et non pertinents.
Chapitre 2. Reformulation de Requêtes
66
Robertson et Sparck-Jones [152] utilisent la formule de pondération des
termes suivante :
Wi = log
pi (1 − qi )
qi (1 − pi )
(2.9)
Wi le poids du terme i, avec
pi = P (ti = 1/D est pertinent)= rRi , qi = P (ti = 1/D est non pertini −ri
nent) = N
−ni
où ti = 1 si le terme i indexe le document, ti = 0 sinon.
ri le nombre de documents pertinents contenant le terme ti ,
R le nombre de de documents pertinents pour la requête,
ni le nombre de documents contenant le terme ti et
N le nombre de documents dans le collection.
Les poids des termes ajoutés à la requête sont alors calculés selon la formule
suivante :
Wi = log
ri /R − ri
ni − ri /(N − ni ) − (R − ri )
(2.10)
Harman [79] a montré que l’utilisation de la formule de Sparck-Jones pour
la repondération des termes, permet une augmentation de la précision de 25%
sur la base Cranfield.
Croft [40] a défini une méthodologie de re-pondération en utilisant une version
révisée de la formule de pondération de Sparck-Jones. Plus précisément, la
recherche initiale suit la fonction de pondération des termes suivante :
Wijk = (C + idfi ).fik
(2.11)
Avec
C une constante, fik la fréquence du terme ti dans le document
k, idfi la fréquence absolue du terme ti dans la collection et j la
requête.
Pour re-pondérer des termes par réinjection de pertinence, Croft se base sur la
formule de Robertson. La formule de re-pondération est la suivante :
·
¸
pij (1 − qij )
Wijk = C + log
.fik
(2.12)
qij (1 − pij
Avec
Chapitre 2. Reformulation de Requêtes
67
Wijk le poids du terme ti dans la requête j et le document k,
pij =
ri +0.5
R+1.0
qij =
ni −ri +0.5
N −R+1.0
si ri > 0, pij = 0.01 si ri = 0,
si ri > 0, pij = 0.01 si ri = 0,
f reqik
fik = K + (1 − K). max(f
reqk )
où f reqik est la fréquence du terme ti dans le document k, max(f reqk )
est le maximum des fréquences des termes dans le document k et
C, K sont des constantes.
2.3.4.3
Réinjection de pertinence dans le modèle inférentiel
De Compos et al. ont utilisé dans [30] les réseaux bayésiens pour la recherche d’information. Les relations d’inférence traduisent soit les relations
terme-document soit les relations terme-terme.
La réinjection de pertinence est basée sur la propagation des messages de type
λ(T ) = {0, 1} (resp.λ(T ) = {1, 0}) des nœuds des documents vers les termes
pour exprimer la relation de pertinence (resp. de non pertinence) du terme.
La pertinence d’un terme est ensuite calculée par la combinaison des messages
provenant de différents documents. Les auteurs ont proposé 4 types de message :
1. un message de type λ(T ) = {0, 1} vers tous les termes ti qui indexent
les documents pertinents. Cette approche n’a pas donné d’amélioration
puisque tous les termes des documents Dj pertinents sont considérés
comme les termes de la requête initiale.
2. un message de type λDj (Ti ) = {p(Dj |t¯i ), p(Dj |ti )} est propagé vers les
termes, avec la probabilité de ti |tj égale à 1 si ti = tj sinon égale à 0.
X
p(Dj |ti ) = αj
tfjk .idfk2 .p(Tk |ti )
Tk ∈Dj
αj est une constante de normalisation calculée comme suit :
sX
tfji .idfi2
αj = 1/
Ti ∈Dj
3. un troisième type de message qui tient compte de la requête initiale Q
est de type λDj (Ti ) = {p(Dj /t¯i , Q), p(Dj /ti , Q)}
4. Dans un quatrième type de message, la requête initiale joue le rôle d’un
document pertinent : λDj (Ti ) = {p(Dj , Q|t¯i ), p(Dj , Q|ti )}
Les auteurs ont proposé deux méthodes pour la combinaison des messages reçus
par un terme Ti provenant de S documents pertinents :
Chapitre 2. Reformulation de Requêtes
68
1. Une première qui est le produit direct des valeurs de λ(Ti ) :
λ(Ti ) =
S
Y
λDj (Ti )
(2.13)
j=1
2. Pour mieux tenir compte de la nature de requête la 2eme formule est la
suivante :
λ′ (Ti ) = α + (1 − α)λ(Ti )
(2.14)
Où α est le rapport du nombre des documents pertinents retrouvés sur
le nombre de tous les documents pertinents.
On trouvera une autre application du modèle inférentiel à la réinjection de pertinence dans [77]. Les auteurs ont estimé la probabilité de pertinence d’un terme
en fonction de son occurrence dans les documents pertinents. Les performances
obtenues sont comparables à celles observées dans le modèle vectoriel.
2.3.4.4
Autres propositions
Chacun des modèles vectoriel et probabiliste suppose l’indépendance entre
les termes. En d’autres termes, la présence d’un terme dans un document n’influe pas sur la probabilité de l’existence d’un autre terme dans le même document. Bien que cette hypothèse simplifiée facilite la construction de systèmes
de recherche assez performants, l’indépendance des termes n’est pas fondée.
En effet, les mots sont reliés par leur utilisation et des expressions, et leurs
occurrences dans les documents peuvent refléter des relations sémantiques fondamentales entre les termes.
Des auteurs tels que Spiegel et Bennet [180] ont suggéré dès 1964 que
cette dépendance de l’information peut être employée pour extraire d’autre
termes pour l’extension de la requête. On distingue trois investigations sur la
dépendance de l’information :
– Van Rijsbergen, et al. [148] ont proposé un arbre (MST) composé de
nœuds représentant les termes et reliés par des arcs qui représentent les
similarités entre deux termes. Cette similarité est estimée selon la mesure
d’association basée sur la distribution des probabilités des deux termes.
L’extension de la requête consiste à rajouter tous les termes directement
liés aux termes de la requête initiale. L’ensemble des termes sera par
la suite pondéré selon la formule de Robertson [152]. Les résultats ont
montré une efficacité relative de cette approche.
– Smeaton et Van Rijsbergen [178] se sont concentrés sur trois méthodes
pour l’extension de la requête : l’approche de MST de Van Rijsbergen
Chapitre 2. Reformulation de Requêtes
69
et al., l’approche basée sur les voisins les plus proches (NN) (termes qui
sont statistiquement les plus similaires aux termes de la requête) et l’extension d’une liste de termes extraits des documents jugés pertinents. Les
résultats de ces expériences sont largement négatifs. Une des causes de la
dégradation est le nombre de termes rajoutés à la requête initiale. Smeaton et Van Rijsbergen signalent que la difficulté d’estimer des probabilités
est la raison principale de cet échec.
– Dans [18], Bhatia a également présenté un modèle d’arbres de dépendance
pour l’extension de la requête en intégrant des informations spécifiques de
l’utilisateur. Bhatia suggère que l’approche d’arbre de dépendance peut
être améliorée non seulement par une sélection plus stricte mais aussi
en pondérant les termes de la requête selon les préférences de l’utilisateur. Bien que la construction des arbres soit inspirée de la similitude
statistique, elle ne considère pas la similitude conceptuelle.
La solution présentée demande d’obtenir de l’utilisateur les relations entre
les concepts présents dans les documents. Ceci peut être utilisé pour
développer un nouvel arbre qui reflète plus exactement des relations
conceptuelles personnalisées selon l’utilisateur. Un arbre de dépendance
devrait être construit pour chaque utilisateur.
Une approche alternative exploitant la dépendance des termes consiste à
grouper des termes reliés avec des termes d’extension de la requête. Ceci peut
être réalisé sans information de pertinence (en utilisant seulement l’information
statistique sur la similarité des termes) ou avec de l’information de pertinence
(en utilisant une combinaison de la dépendance d’information dans une collection et l’information pertinente pour choisir les termes d’extension). Ces
deux méthodes se fondent typiquement sur des méthodes de co-occurrence des
termes utilisées dans la littérature et n’ont pas généralement fourni de résultats
convainquants [138].
Les méthodes décrites précédemment qui intègrent la dépendance des termes
n’ont pas permis une amélioration des performances des systèmes de recherche
[148], [18], [178]. Ceci peut être dû aux limitations informatiques pour calculer
et stocker l’information de la dépendance. Bien que les méthodes d’indépendance
des termes telles que celles basées sur le modèle probabiliste semblent simplifiées et n’expriment pas explicitement la dépendance des termes pertinents,
elles permettent implicitement d’exprimer un certain degré de co-occurrence
des termes. C’est-à-dire, même si les méthodes d’indépendance des termes ne
calculent pas de valeurs explicites de co-occurrence, on estime que les termes
dans la liste d’extension ont un degré supérieur à la co-occurrence moyenne des
termes. Ceci peut être expliqué par le fait que les bons discriminateurs de pertinence sont les termes qui apparaissent plus fréquemment dans les documents
pertinents que dans les documents non pertinents. L’utilisation efficace de la
Chapitre 2. Reformulation de Requêtes
70
co-occurrence des termes reste une question ouverte en recherche d’information.
2.3.5
Reformulation par réinjection de pertinence négative
D’après Ruthven et Lalmas [157], la majorité des techniques proposées en
RF est basée sur la différence entre le contenu des documents pertinents et
celui des documents non pertinents. Ces derniers se rapportent à deux groupes
de documents :
1. ceux qui ont été jugés non pertinents explicitement par l’utilisateur ;
2. ceux qui n’ont pas été jugés par l’utilisateur. Ces documents sont soit non
sélectionnés, l’utilisateur ne les a pas jugés, soit l’utilisateur les a rejetés
implicitement sans fournir une évaluation de pertinence.
La différence entre ces deux groupes de documents non pertinents n’est pas
exprimée dans les modèles probabiliste et vectoriel.
La RF utilisant le groupe des documents jugés explicitement non pertinents
est appelée RF négative. D’après [157], cette dernière est considérée comme
problématique pour trois raisons principales :
1. L’implantation : La RF négative présente une difficulté au niveau du
traitement des informations négatives par le système. Une pratique courante en
RI est de supprimer les termes ayant un poids négatif. Ces termes permettent
plutôt la recherche de documents non pertinents que de documents pertinents.
La Réinjection de pertinence négative peut être utilisée pour indiquer les termes
devant avoir un poids négatif.
Dans ce contexte, Belkin et al., dans une étude de la participation de l’utilisateur dans la réinjection de pertinence [14, 12, 13, 16], proposent un modèle
alternatif. Leur hypothèse est qu’un terme appartenant à un document pertinent ou à un document non pertinent peut être intéressant puisqu’il permet
d’augmenter le nombre de documents pertinents (s’il appartient à un document
pertinent) ou de diminuer le nombre de documents non pertinents (dans le cas
contraire).
Le but de la réinjection de pertinence négative abordé par Sumner et al.
[182], était la suppression des documents non pertinents précédemment vus par
l’utilisateur mais pouvant réapparaı̂tre dans la liste des résultats s’ils répondent
à la nouvelle requête. Les expérimentations dans [14] montrent des résultats
comparables pour la réinjection de pertinence positive et la réinjection négative,
mais laissent entendre des améliorations potentielles en utilisant une combinaison des deux. Les expérimentations dans [12] ont montré que bien que les utilisateurs puissent utiliser la réinjection de pertinence négative, l’amélioration
Chapitre 2. Reformulation de Requêtes
71
des performances n’est pas significative.
2. Clarté : Il est difficile de spécifier les conditions dans lesquelles un utilisateur doit considérer un document non pertinent. En effet, un document est
considéré non pertinent s’il ne contient absolument aucune information pertinente, s’il ne contient aucune information liée aux besoins de l’utilisateur, s’il
contient l’information liée au thème en question mais pas l’information pertinente, si le document n’est pas assez pertinent, etc. La question est quand un
utilisateur devrait-il juger un document non pertinent ?
Ce problème existe aussi dans le cas de la réinjection de pertinence positive mais
pour deux raisons, la problématique est plus centrale dans le cas de réinjection
de pertinence négative. D’abord, comme prouvé par les expérimentations de
Belkin et al. [12], les effets de la réinjection de pertinence négative ne sont
pas clairs pour les utilisateurs. Dans le cas de la réinjection de pertinence positive, le genre de documents recherchés, ainsi que les changements effectués
par le système apparaissent avec plus de clarté, contrairement à la réinjection
négative pour laquelle l’utilisateur ne peut pas voir quels documents ont été
supprimés.
Deuxièmement, le jugement de non pertinence est une tâche plus délicate que
le jugement de pertinence [157]. Dans la pratique, la pertinence et la non pertinence ne sont pas des notions opposées. En général, un utilisateur qui juge
un document pertinent donne souvent des raisons détaillées, mais les raisons
de la non-pertinence sont susceptibles d’être basées sur ce qui manque dans le
document, plutôt que sur ce qui est présent.
3. Rentabilité : Bien que les techniques de RF puissent améliorer une
recherche, les utilisateurs ne font pas toujours d’évaluation de pertinence. Ceci
peut être dû à un manque de conscience de la part de l’utilisateur de l’utilité de
la réinjection de pertinence. La rentabilité des évaluations peut avoir un effet sur
la façon dont probablement les utilisateurs doivent évaluer. Plus les modalités
d’évaluation sont compliquées moins les utilisateurs évaluent la pertinence, ce
qui est le cas de l’évaluation de la non pertinence.
2.3.6
2.3.6.1
Autres formes de Réinjection de pertinence
Réinjection automatique de pertinence
La réinjection de pertinence décrite jusque là est basée sur les jugements de
l’utilisateur. Une approche alternative, connue sous le nom de pseudo-réinjection
ou blind Relevance Feedback, utilise des techniques de réinjection automatique
Chapitre 2. Reformulation de Requêtes
72
à l’aveugle pour construire une nouvelle requête. Plus précisément, le système
de recherche restitue un ensemble de documents répondant à la requête initiale.
Ainsi au lieu de juger explicitement les documents, on suppose que les k premiers documents comme étant pertinents (documents pseudo-pertinents). On
peut également considérer les documents qui sont restitués en fin de liste comme
non pertinents. L’idée de base derrière la pseudo réinjection de pertinence est
qu’une itération de réinjection basée sur les documents les plus similaires à la
requête initiale de l’utilisateur pourrait donner une meilleure restitution des
documents.
Cette technique a été développée la première fois par Croft & Harper [41],
en tant qu’un moyen d’estimation des probabilités dans le modèle probabiliste
pour une première recherche. Depuis, cette technique a été largement étudiée
pour améliorer les classements des documents en particulier dans le cadre de
TREC [197]. Croft Harper ont également indiqué que cette méthode peut avoir
des impacts négatifs. En effet si les documents considérés pour la réinjection
contiennent peu d’informations pertinentes ou aucune, la réinjection ajoutera
des termes à la requête initiale qui sont ”pauvres” à détecter la pertinence, et
par conséquent pour la recherche des documents pertinents.
La réinjection automatique peut être bénéfique si les requêtes initiales permettent de retrouver des documents pertinents, dans le cas contraire elle provoque une dégradation des performances.
Des chercheurs comme Mitra et al. [134] et Buckley et al., [25], ont essayé avec
un certain succès de surmonter ce problème en améliorant le taux de précision
dans les k meilleurs documents, c’est ce qu’on nomme habituellement la ”haute
précision”. D’autres groupes de recherche comme Efthimiadis et Biron, [51],
Robertson et al., [150] et Lee [114] se sont concentrés sur l’amélioration des
techniques de réinjection afin de détecter les meilleurs termes à ajouter ainsi
que sur le calcul de leurs poids.
Il est prouvé dans la majorité des travaux que la réinjection automatique
présente une solution pratique pour l’amélioration des performances de la recherche en ligne sous un certain nombre de conditions. En particulier, c’est
une technique très utile pour améliorer la recherche quand il s’agit de requêtes
courtes ou de requêtes qui ne permettent pas de restituer assez de documents
pertinents. Les améliorations observées en particulier dans le cadre de TREC
sont faibles [99].
Pour répondre aux limites de cette technique, il est nécessaire de faire intervenir l’utilisateur dans le processus de réinjection de pertinence. Dans une
section ultérieure, nous détaillons une approche qui permet la modification de
la requête utilisateur d’une manière interactive.
Chapitre 2. Reformulation de Requêtes
2.3.6.2
73
Réinjection de pertinence à itérations multiples
Dans une série d’articles traitant des besoins d’information, Campbell a
abordé la notion du besoin dynamique [27, 28, 29] à travers la notion de la
”pertinence ostensive”. L’idée derrière la pertinence ostensive est que des documents jugés pertinents dans une itération courante de RF présentent des indicateurs plus intéressants que ceux retrouvés dans des itérations précédentes.
Cependant, les documents pertinents ne sont pas considérés d’égale importance mais d’importance variable. Dans [29], Campbell et Van Rijsbergen ont
étendu le modèle probabiliste en intégrant un terme de ” vieillissement ” pour
la pondération des termes pertinents. Ce concept permet de savoir si le document auquel appartient le terme est récemment jugé pertinent ou jugé dans des
itérations antérieures. Dans [28], des expérimentations préliminaires de cette
approche ont montré que la pondération ostensive peut améliorer les résultats
en moins d’itérations de recherche que les approches non-ostensives. Ruthven
et al. ont montré également que la pondération ostensive est bénéfique pour
l’extension de la requête [158].
2.3.6.3
Extension interactive de requêtes
Dans le cas des méthodes d’extension automatique des requêtes décrites
précédemment, les termes sont extraits à partir des documents et ajoutés en
totalité à la requête. Une alternative est de permettre aux utilisateurs de choisir
les termes pouvant être ajoutés : on parle d’Expansion Interactive des Requêtes
(EIR) [78]. L’utilisateur qui est le mieux placé pour déterminer la pertinence,
a alors plus de contrôle sur les termes qui seront ajoutés à la requête. Cette
technique est défendue par le fait que l’utilisateur peut mieux sélectionner les
termes pertinents que le système.
Bien que les systèmes aient accès à l’information statistique interne qui leur permet de choisir de bons termes discriminatoires, les utilisateurs peuvent prendre
une décision plus perspicace de la pertinence. La question est alors comment
concevoir un système d’extension de requêtes interactif pour traduire les avantages potentiels de l’EIR afin d’améliorer les performances des systèmes de recherche. Il y a plusieurs problématiques associées à ce problème, qui concernent
en général les interfaces dynamiques.
2.3.6.4
Combinaison d’algorithmes de réinjection de pertinence
Une autre application de la réinjection de pertinence est la combinaison
des résultats de différentes méthodes de réinjection. Ceci pourrait impliquer de
combiner les classements donnés par les différentes méthodes de réinjection sur
Chapitre 2. Reformulation de Requêtes
74
les mêmes évaluations originales de requête et de pertinence, ou la combinaison
des requêtes modifiées selon plusieurs méthodes de réinjection. Cette approche
a été expérimentée et validée par Lee dans [114].
D’après Ruthven et Lalmas [157], la combinaison des évidences est une technique puissante pour la réinjection de pertinence, cependant, la majorité de
techniques évaluées ont prouvé que cette combinaison est une technique très
variable pour la recherche initiale : elle permet d’améliorer la performance pour
quelques requêtes mais aussi de la dégrader pour d’autres. En outre, il est
également très difficile de prévoir quelles sont les évidences à combiner pour
différentes collections ou requêtes.
2.4
2.4.1
Réinjection de pertinence en RIS
Problématiques de la réinjection de pertinence en
RIS
La nature des documents semi-structurés, comportant du texte et des informations structurelles, réactualise la problématique de la RI classique (plein
texte) en général et de la reformulation de requêtes en particulier.
L’objectif de la RF en RIS est d’enrichir la requête initiale (comme en RI
traditionnelle) afin de mieux exprimer les besoins de l’utilisateur.
Comme nous l’avons déjà vu dans l’introduction générale, plusieurs questions
se posent dans ce contexte. Elles portent principalement sur la manière de
prendre en compte le contenu et structure lors de la reformulation de requête.
Nous résumons ici les principales :
– En RI classique, l’unité documentaire jugée et donc à partir de laquelle
les termes sont extraits, est le document entier. Les méthodes proposées
ont montré leur intérêt en termes de rappel-précision [154], [152]. Or
dans le contexte de la RIS, l’unité documentaire peut avoir différentes
formes. Elle peut être le document entier ou tout élément du document.
Une adaptation simpliste des méthodes de la RI classique à la RI structurée consisterait à extraire les termes pertinents à partir des éléments
de différentes granularités jugés pertinents par l’utilisateur. Cette adaptation simpliste est-elle en adéquation avec la RI structurée ? Comment
tenir compte du fait que les éléments peuvent être imbriqués les uns dans
les autres ? Permet-elle effectivement d’améliorer les performances de la
recherche ? Au lieu de sélectionner indifféremment tous les éléments pertinents pour l’extraction des termes, doit-on au contraire prendre en compte
les sémantiques différentes des éléments (par exemple, paragraphe, titre,
Chapitre 2. Reformulation de Requêtes
75
section) ?
– La reformulation de requêtes s’est intéressée à enrichir la requête initiale
par extraction et réinjection des termes pertinents, mais qu’en est-il de
la dimension structurelle ? Est-il intéressant d’enrichir une requête avec
des contraintes structurelles ?
– Une dernière question concernant le processus de la reformulation est la
réécriture de la requête. D’une manière générale, on aura à rajouter des
termes pertinents et/ou des structures pertinentes à des requêtes structurées et non structurées. La question est comment intégrer ces deux
évidences dans la requête initiale ? Comment pondérer les termes ? Doiton re-pondérer les termes originaux ? Comment rajouter des structures
à des requêtes déjà structurées ? A quels groupes de mots-clés doit-on
ajouter des conditions structurelles ?
2.4.2
Principales approches de la réinjection de pertinence en RIS
On classifie les différentes approches développées en RF dans les document
structurés selon deux principales voies :
– des approches orientées contenu qui se basent sur l’extraction, la pondération et la réinjection des termes pertinents dans la requête initiale,
– d’autres approches orientées contexte qui consistent à extraire des informations concernant le contexte des éléments jugés pertinents comme
le document dans lequel ils se trouvent, le nom des balises, les balises des
ancêtres, des descendants, la taille, etc.
2.4.2.1
Approches orientées contenu
La majorité des approches proposées dans ce cadre ont simplement adopté
l’algorithme de Rocchio à la recherche d’information structurée. Ceci consiste
de manière générale à extraire les termes à partir des éléments jugés pertinents
et les pondérer. On trouve ces adaptations dans plusieurs travaux que nous
décrivons brièvement dans ce qui suit.
Réinjection de pertinence à la Rocchio
En 2004, Mass et Mandelbrod ont développé une première approche orienté
Chapitre 2. Reformulation de Requêtes
76
contenu [127] appliquée à leur système de recherche basé sur le modèle vectoriel étendu développé en 2002 [129]. La réinjection de pertinence ne concerne
que les requêtes composées de simples mots clés. Comme nous l’avons mentionné dans le chapitre précédent leur système de base consiste en une recherche
indépendante au niveau de chaque index3 .
Les auteurs ont proposé un algorithme [128] basé sur la formule de Rocchio
[154], qui est appliqué à chaque type d’éléments. C’est une adaptation exacte
de l’algorithme de Rocchio (section 2.3.4.1) : au lieu de considérer le document
entier, on considère les éléments. D’après les résultats obtenus dans la campagne d’évaluation INEX 2005 [65], les améliorations ne dépassent pas 5%.
Crouch et al. [43] ont eux aussi appliqué l’algorithme de Rocchio sur leur
système de recherche basé sur la propagation de pertinence. Ces travaux ont
principalement évalué l’intérêt de prendre en compte une seule dimension de
pertinence pour sélectionner les éléments pertinents, en l’occurrence l’exhaustivité. Plus précisément, seuls les paragraphes ayant une valeur d’exhaustivité
élevée sont utilisés dans le processus de la réinjection. Dans le cadre de INEX
2004 [63], les améliorations n’ont pas dépassé un taux de < 4%.
Sigurbjörnsson et al. [174] ont eux aussi utilisé l’algorithme de Rocchio pour
la réinjection de pertinence aveugle sur leur modèle de recherche basé sur la
combinaison des modèles de langage de l’élément, de document et de la collection (voir chapitre précédent, section 1.2.2.5). Ils ont évalué l’extraction des
termes à partir de l’index article ainsi de l’index des éléments. Les résultats
obtenus dépendent des requêtes et ne permettent pas de tirer des conclusions
claires.
Autres propositions pour la réinjection de pertinence
On trouve également dans la littérature des stratégies de sélection de termes
ad-hoc comme celle proposée par Geva [68]. Elle consiste à d’extraire les dix
premiers éléments, d’éliminer ensuite les mots qui occurrent plus de 50000 fois
dans la collection et ceux qui ont un taux d’occurrence de moins de 20% dans
les éléments retournés. Le reste des mots est classé par ordre décroissant selon
leurs fréquences, les 5 premiers sont rajoutés à la requête. Les évaluations ne
montrent aucune amélioration des résultats.
3 L’index
est composé de plusieurs sous-index où chacun représente l’ensemble
des éléments des documents ayant un type unique, comme par exemple paragraphe,
section,...
Chapitre 2. Reformulation de Requêtes
2.4.2.2
77
Approches orientées contexte
On appelle contexte toute information décrivant les éléments pertinents non
pas du point de vue contenu (mots clés) mais par rapport au contexte dans lequel ils apparaissent : balise, taille, ancêtre, descendant, etc.
On retrouve l’utilisation de cette notion en réinjection de pertinence dans
le cadre des travaux de Sigurbjörnsson et al. [131], [132] en particulier dans le
système de recherche TIJAH [174] basé sur un modèle de langage.
Plus précisément, ces auteurs ont proposé d’utiliser le contexte implicite des
éléments jugés pertinents pour améliorer leurs performances. La reformulation
est réalisée en deux étapes :
– Extraction du contexte des éléments les plus pertinents.
– Reformulation de la requête orientée contenu en réinjectant les informations contextuelles déjà extraites.
Pour extraire l’information contextuelle, les auteurs ont utilisé les noms des
journaux4 auxquels appartiennent les éléments jugés pertinents parmi les 20
premiers retrouvés par le système, les noms de ces éléments ainsi que leur
taille. Ils ont considéré que si un élément est évalué comme pertinent pour
une requête donnée, le journal auquel il appartient est susceptible de contenir
des informations semblables. Le nom de la balise XML dans lequel se trouve
l’élément pertinent est également utilisé dans ce processus dans le but de privilégier dans la liste des résultats trouvés, les éléments ayant le même nom de
balise. le troisième indicateur utilisé est la taille des éléments. L’idée de tenir
compte de la taille d’un élément est basée sur le fait que les éléments ayant
une taille rapprochée à celle des éléments pertinents sont probablement désirés
davantage par l’utilisateur.
La priorité d’un journal est calculée selon la formule suivante :
P
|J ⊇ top20 |
r∈top20 ⊆J Er
+ (1 − a − b).
P (J) = a + b.
3.|{r ∈ top20 |Er > 0|}
20
(2.15)
avec Er est la valeur d’exhaustivité de l’élément r appartenant au vingt premiers éléments issu d’un journal J et a, b des poids accordés à l’importance de
l’information. Cette équation n’utilise que l’exhaustivité, elle traduit le fait que
plus un journal est exhaustif plus il contient d’éléments pertinents.
Pour le calcul de priorité d’un élément, on tient compte de l’exhaustivité
4 Les
expérimentations sont réalisées sur la base d’INEX 2004 où la collection est
composée d’articles de journaux IEEE.
Chapitre 2. Reformulation de Requêtes
78
ainsi que de la spécificité pour traduire si l’élément est trop grand ou trop petit.
La priorité d’un élément est exprimée par la formule suivante :
P
|e ∈ top20 |
r∈top20 ⊆e Er + Sr
P (e) = a + b.
+ (1 − a − b).
(2.16)
6.|{r ∈ top20 |Er .Sr > 0|}
20
avec Sr la valeur de spécificité de l’élément r appartenant au vingt premiers
éléments.
La taille désirée est estimée selon une combinaison des tailles des 20 meilleurs
éléments en fonction de leurs valeurs d’exhaustivité et de spécificité.
Pour la réécriture de la requête de type CO, les auteurs ont proposé des
requêtes contenant des mots clés et les balises dans lesquelles l’utilisateur
souhaite trouver l’information. Un poids P (e) déjà calculé est associé aux
contraintes structurelles (balises) qui sont reliées par l’opérateur booléen ”or”.
Plusieurs combinaisons de contexte ont été évaluées. Les améliorations sont
comparables et ne dépassent pas 6%.
Réinjection de pertinence orientée contexte structurel
Dans [169], Schenkel et al. ont proposé une technique permettant d’étendre
la requête initiale de type CO en requêtes structurées, en intégrant le contexte
structurel des éléments. Ce dernier est composé d’un ensemble de champs
décrivant l’ancêtre, les descendants ainsi que le contenu de chaque élément.
Les auteurs ont alors défini 4 classes de caractéristiques à partir des éléments
jugés pertinents :
– Les termes composant le contenu de l’élément (classe C),
– Le couple balise-terme dans les descendants de l’élément (classe D).
– Le couple balise-terme dans les ancêtres de l’élément (classe A).
– Le couple balise-terme dans les descendants des ancêtres de l’élément
(classe AD).
Tous les candidats de chaque classe sont pondérés par un score WRSJ (c)
calculé selon la formule de Robertson :
WRSJ (c) = log
rc + 0.5
E − efc − R + rc + 0.5
+ log
R − rc + 0.5
efc − rc + 0.5
(2.17)
Avec rc est le nombre d’éléments pertinents qui contiennent le terme candidat c, R le nombre d’éléments pertinents, E le nombre d’éléments dans la
collection, et efc la fréquence d’élément pour un candidat (nombre d’éléments
où le candidat apparaı̂t).
Chapitre 2. Reformulation de Requêtes
79
Pour un candidat c, la valeur de RSV est calculée comme suit :
RSV (c) = WRSJ (c).(p − q)
(2.18)
Où p = rc /R est la probabilité d’occurrence d’un candidat dans l’ensemble
des éléments pertinents et q est la probabilité d’occurrence d’un candidat dans
l’ensemble des éléments non pertinents.
Les auteurs ignorent par la suite les candidats qui apparaissent seulement dans
les descendants des éléments. Le reste des candidats est trié en fonction de
leurs valeurs RSV. Les candidats ayant les meilleurs poids sont par la suite
sélectionnés. Les candidats des classes A et AD doivent avoir le même ancêtre
pour être sélectionnés.
La requête étendue est reformulée comme suit (en langage NEXI [190]) :
//balise-ancêtre [contraintes d’A+AD] //* [mots clés initiaux +contraintes
de C+D].
Par exemple, si la requête initiale est composée d’un simple mot clé ”XML”
et on considère les candidats : A (ancêtre, article,’ IR’), AD (article, bib,’ index’) et D (descendant, p,’ index’), la requête étendue est :
//article [about(. ,’ IR’) and about (//bib,’ index’)]//*[about (. ,’ XML’) and
about(//p,’ index’)].
Les auteurs ont ensuite procédé de manière à attribuer les meilleurs scores
(RSV(c)) aux candidats des classes C et D tout en restant inférieurs aux scores
des mots clés initiaux et à pénaliser les scores des candidats des classes A et
AD en les multipliant par une constante β =0.2.
Les expérimentations montrent que les meilleurs résultats sont obtenus par la
combinaison de toutes les caractéristiques et que les évaluations selon le INEX
2006 montrent des améliorations de l’ordre de 25%.
On remarque que cette approche permet d’enrichir les requêtes par des couples
balise-terme mais n’exprime pas explicitement de relations entre les termes et
les structures et que les termes sont extraits de manière indépendante les uns
des autres.
Une alternative de l’utilisation du contexte est appliquée pour le réordonnancement des résultats [169]. La réinjection de pertinence est alors utilisée
pour évaluer le nouveau score des éléments. Ce calcul est effectué en fonction
des caractéristiques contextuelles extraites à partir des 20 premiers éléments
jugés. Ce score sera par la suite ajouté au score initial de l’élément.
Les auteurs ont défini alors des classes descriptives :
– Les termes composant le contenu de l’élément (classe C)
Chapitre 2. Reformulation de Requêtes
80
– Les couple balise-termes dans le document de l’élément (classe D) qui
peut renseigner sur la nature des éléments qui peuvent appartenir au
document, et
– Les dérivés du chemin des éléments (classe P) : préfixe du chemin, sous
chemin, suffixe du chemin, chemin entier ...
Pour chaque classe, on calcule le poids des candidats selon la formule de Rocchio. Pour chaque élément du résultat de base, on calcule un score pour chaque
classe dans un espace vectoriel où chaque dimension correspond à un candidat qui se produit dans au moins un élément des vingt meilleurs éléments.
Les scores correspondant à chaque classe sont alors calculés comme le cosinus
du vecteur composé des k meilleurs candidats. Chacun des scores est normalisé
dans l’intervalle [-1.0, 1.0]. Le score final de l’élément est la somme de ses scores
calculés ajoutée au score initial.
Les expérimentations ont montré que les meilleurs résultats sont obtenus en ne
considérant que la classe décrivant le document (D) et la classe des dérivés du
chemin (P). Cependant, en suivant le protocole d’INEX, les amélioration ne
dépassent pas 2%.
2.4.3
Bilan
On constate que l’ensemble des approches orientées contenu proposées consistent à enrichir une requête initiale en rajoutant des termes pertinents. Ces
termes sont sélectionnés en fonction de mesures statistiques basées sur les
fréquences des termes dans les éléments pertinents. Dans le cas du modèle
vectoriel étendu, les index correspondent à des types d’éléments prédéfinis, ce
qui rend cette approche contraignante puisqu’elle dépend d’un type de DTD
bien défini. On remarque également qu’en aucun cas la sémantique des éléments
n’a été prise en compte : les termes sont sélectionnés indépendamment du type
des éléments pertinents pris en compte.
Les approches orientées contexte permettent d’enrichir les requêtes par le
contexte des éléments pertinents indépendamment des termes. On rajoute en
général des préférences sur le contexte mais en aucun cas on ne spécifie la
structure d’élément recherché, c’est-à-dire une structure exacte dans lequel on
retrouve tous les éléments pertinents.
Enfin, les deux types d’approches (orientée contenu et orientée contexte)
sont appliquées indépendamment, alors qu’il serait intéressant de voir ce que
donnerait leur combinaison.
Chapitre 2. Reformulation de Requêtes
81
2.5
Évaluation de la reformulation de requêtes
2.5.1
Différentes stratégies d’évaluation de la reformulation
Dès le début des années 70, Chang et al. [34] ont démontré que l’évaluation
des algorithmes de RF pose certains problèmes pour le rappel et la précision.
Étant donné que la réinjection de pertinence utilise l’information extraite à
partir des documents jugés pertinents, il est évident qu’un des effets principaux de la RF est de pousser les documents jugés pertinents au dessus de leur
rangs initiaux. Ce ré-ordonnancement améliorera artificiellement les valeurs de
rappel précision. Ceci rend difficile l’examen de l’impact de la réinjection de
pertinence sur la restitution des documents pertinents. Chang et al. [34] ont
donc étudié trois solutions pour mettre en évidence les impacts invisibles de la
réinjection de pertinence.
– Rang résiduel :
Cette technique consiste à éliminer du résultat final, les documents qui sont utilisés pour le jugement de pertinence. Ceci inclura les documents pertinents et
non pertinents. Après la réinjection de pertinence, les taux de rappel précision
sont calculés sur le résultat (résiduel) restant.
L’avantage de cette méthode est qu’elle considère seulement l’effet de la réinjection sur les documents pertinents restitués. L’inconvénient de cette stratégie est
que, à chaque itération de réinjection, les valeurs de Rappel|Précision peuvent
être basées sur différents nombres de requêtes. Ceci est dû au fait que des documents pertinents sont éliminés de la collection. Si tous documents pertinents
pour une requête donnée sont supprimés, alors la requête ne peut plus être
utilisée dans des itérations suivantes puisqu’il n’y a aucun document pertinent
pour calculer les valeurs de rappel-précision.
Cette méthode est seulement appropriée à un nombre restreint d’itérations de
réinjection, autrement le nombre de documents pertinents dans la collection
résiduelle peut devenir relativement petit et peu représentatif de l’ensemble
des documents pertinents.
En outre les performances avant/après reformulation ne sont pas réellement
comparables, puisqu’elles sont effectuées sur des collections différentes. Pour
avoir deux types d’ordonnancement différents mais directement comparables,
Salton [162] a utilisé la collection résiduelle avant et après la réinjection.
– ”Freezing”
La méthode connue sous le nom de ”freezing” [157] est basée sur les rangs
des documents dans la liste des résultats et elle existe sous deux formes : ”blo-
Chapitre 2. Reformulation de Requêtes
82
cage entier” et ”blocage modifié”. Dans le cas du blocage entier, les rangs des n
meilleurs documents jugés pour la réinjection sont bloqués. Les documents restants sont retirés et les valeurs Rappel/Précision sont calculées pour l’ensemble
des documents. Comme les seuls documents à changer de rangs sont ceux qui
succèdent les n meilleurs documents, aucun changement de Rappel|Précision
ne se produit avant le rang n.
Dans le cas du ”blocage modifié”, les rangs sont bloqués au rang du dernier
document jugé pertinent.
L’inconvénient des approches de ”freezing” est qu’à chaque itération de
réinjection une proportion plus intéressante de documents pertinents est bloquée.
Ceci signifie que les n meilleurs documents bloqués contribue plus au taux
de rappel-précision aux itérations postérieures de la réinjection. Bien que la
réinjection puisse fonctionner mieux à ces itérations postérieures, elle peut sembler moyennement efficace à cause d’une contribution plus élevée des documents
bloqués (i.e. les améliorations ne concernent qu’une partie de plus en plus petite de l’ensemble des résultats).
Dans ce qui précède nous avons mentionné que la méthode du rang résiduel
force à éliminer les requêtes pour lesquelles tous les documents pertinents
avaient été trouvés. Pour les méthodes de ”freezing”, une fois que tous documents pertinents pour une requête donnée, ont été trouvés, les taux de rappelprécision peuvent encore être calculés. Cependant ces taux ne changeront pas
une fois que tous documents pertinents ont été bloqués. Intuitivement ceci
semble correct : une fois que nous avons trouvé tous les documents pertinents
pour une requête donnée, la réinjection n’améliore pas ou n’empire pas l’efficacité de récupération des documents pertinents.
– groupes d’essai et de test.
Dans cette technique [157], la collection de documents est aléatoirement coupée
en deux collections : le groupe d’essai et le groupe de test. La reformulation
de requête est effectuée par réinjection de pertinence sur le groupe d’essai et
la nouvelle requête est alors exécutée dans le groupe de test. Les taux de
Rappel|précision sont évalués seulement au niveau du groupe de test, il n’y
a donc aucun effet de rang. Des requêtes successives peuvent être lancées sur
le groupe de test pour évaluer des requêtes reformulées sur une collection de
documents qui peut être considérée complète, contrairement de la méthode de
rang résiduel.
À la différence des méthodes de ”freezing”, tous les documents pertinents
dans le groupe de test sont libres de se déplacer dans la liste triée des documents. Ceci signifie que les taux de rappel-précision, avant et après refor-
Chapitre 2. Reformulation de Requêtes
83
mulation de requête, sont directement comparables. La difficulté avec cette
méthode d’évaluation est de dédoubler la collection. Il est facile de dédoubler
aléatoirement une collection de document (par exemple en mettant tous les
documents pairs dans le groupe d’essai et tous les documents impairs dans le
groupe de test). Cependant, cette distribution n’assurera pas le fait que les
documents pertinents sont également dédoublés entre les deux collections. En
aucun cas, on ne peut s’assurer que les documents pertinents dans le groupe
d’essai sont représentants de ceux dans le groupe de test. D’autres facteurs tels
que la longueur des documents ou la distribution des termes d’index peuvent
également être importants pour la méthode de réinjection examinée, et on ne
peut pas également s’assurer que la distribution des termes est dédoublée entre
les deux collections.
Chacune de ces méthodes a des avantages et des inconvénients mais toutes
sont des méthodes standards pour évaluer des algorithmes de réinjection de
pertinence. Cependant, elles comparent seulement l’exécution des algorithmes
dans des conditions idéales [108, 53, 181].
Un point final concernant les mesures d’évaluation de la réinjection de pertinence est qu’elles peuvent ne pas être directement comparables : chaque mesure
peut donner différents résultats selon la façon dont les résultats sont comparés
et sur quels facteurs la recherche est effectuée.
En conclusion, les mesures d’évaluation calculent différents aspects de réinjection :
la stratégie de ”freezing” mesure l’efficacité cumulative, le rang résiduel mesure l’efficacité de rechercher seulement les documents pertinents restants et
le groupe d’essai et de test mesure la performance relative des requêtes reformulées produites à chaque itération.
2.5.2
Évaluation selon la campagne d’évaluation INEX
Le protocole de la campagne d’évaluation INEX 2005 et 2006 [4, 64] consiste
à considérer le jugement de pertinence des 20 premiers éléments retournés par
le système de base pour les requêtes CO et les requêtes de type CAS. Seule la
stratégie de recherche ”Thorough” (recherche de tous les éléments pertinents)
est utilisée dans la tâche de RF. Le processus de réinjection de pertinence peut
être appliqué en plusieurs itérations pour une requête donnée. Il n’y a aucune
restriction sur le nombre d’itérations.
Un run5 de RF est établi comme suit : on utilise les jugements de pertinence
des 20 premiers éléments du résultat de la recherche initiale. Les éléments jugés
sont alors bloqués avec leur rang original et le reste des éléments sont triés à la
suite des 20 premiers éléments. Si on applique plusieurs itérations de RF, pour
5 Dans
le jargon de la RI, on appelle run l’ensemble des résultats d’un système
donné pour un jeu de requêtes données.
Chapitre 2. Reformulation de Requêtes
84
chaque itération i, les éléments jugés sont ”bloqués” (gardent les mêmes positions que les runs de base) de la position (i-1) *20 jusqu’à ce qu’à la position
i ∗ 20 − 1. Le reste des éléments pourvus des éléments jugés est trié à partir de
la position n ∗ 20 − 1, avec n le nombre d’ itérations.
En 2006, les organisateurs ont proposé de varier les expérimentations avec
différentes stratégies de post-réinjection pour éliminer l’influence des éléments
dont la pertinence est connue sur les résultats, parmi elles plusieurs variantes
de la méthode du rang résiduel ou du ”freezing” sur n éléments, n étant à fixer.
Seuls les résultats utilisant la stratégie de ”freezing” à 20 éléments sont évalués
officiellement.
Afin de pouvoir comparer les requêtes reformulées, on a proposé d’indiquer la
requête reformulée utilisée après réinjection de pertinence. Le format pour cette
requête reformulée suit le langage de requête NEXI avec les poids additionnels
et facultatifs pour les termes, par exemple,
//article [about (. , 0.5*XML 0.75*database -0.3*index)]
Pour évaluer les améliorations apportées par le processus de réinjection de
pertinence on a défini la valeur absolue d’amélioration (AA ou AI (Absolute
Improvement)) calculée comme suit :
M e(RFrun ) − M e(baserun )
(2.19)
et l’amélioration relative (AR ou RI (Relative Improvement)) calculée comme
suit :
M e(RFrun ) − M e(baserun )/M e(RFrun )
(2.20)
où M e(RFrun ) (resp. M e(Baserun )) est la mesure considérée pour les résultats
après réinjection (resp. des résultats de base).
En 2006, seule la fonction généralisée d’agrégation est considérée.
2.6
Conclusion
La reformulation de requêtes est une phase importante du processus de recherche d’information. Elle consiste de manière générale à enrichir la requête de
l’utilisateur en ajoutant des termes permettant de mieux exprimer son besoin.
Cette technique peut être appliquée automatiquement ou d’une façon interactive, c’est à dire avec l’intervention de l’utilisateur.
La nature des documents semi-structurés ainsi que les requêtes a conduit à
de nouvelles problématiques spécifiques à la reformulation de requêtes dans la
recherche d’information structurée.
Les approches proposées dans ce contexte se divisent en deux principaux types :
Chapitre 2. Reformulation de Requêtes
85
les approches orientées contenu dont le but est d’enrichir le contenu des requêtes
en y ajoutant des termes pertinents comme en RI classique et les approches
orientées contexte qui permettent d’enrichir la requête initiale en spécifiant le
contexte dans lequel apparaissent les éléments pertinents. Nous avons montré
tout au long de ce chapitre que les approches proposées jusque là ne permettent
pas d’aboutir à des améliorations significatives des résultats exceptée celle qui
considère l’aspect structurel dans le contexte.
Plusieurs points peuvent expliquer ces résultats :
– dans les approches orientées contenu, les termes sont sélectionnés indépendamment du type des éléments pertinents pris en compte,
– les approches orientées contexte ne permettent pas de spécifier la structure des éléments recherchés,
– les deux types d’approches sont appliquées séparément, alors que la combinaison d’évidence a souvent montré son intérêt en RI.
Dans la suite du document, nous présentons notre contribution pour la réinjection
de pertinence ou RIS. Nos propositions visent à répondre aux différentes problématiques
de la réinjection de pertinence en recherche d’information structurée, et tentent
d’apporter des solutions aux limites énoncées ci-dessus.
Deuxième partie
Nouvelles Approches pour la
Reformulation de requêtes en
Recherche d’Information
Structurée
86
Chapitre 3
Reformulation de requêtes par
réinjection de contenu et de
structures
3.1
Introduction
La reformulation de requêtes en Recherche d’Information structurée par
réinjection de pertinence ne concerne plus que les mots clés (cas de la RI
classique) mais aussi d’autres sources d’évidence qui permettent de spécifier
l’élément recherché. Comme nous l’avons mentionné dans le chapitre précédent,
ces sources peuvent décrire le contexte des éléments pertinents (descendants,
ancêtres, taille, ...).
Dans ce chapitre, nous proposons de nouvelles approches de réinjection de
pertinence en utilisant différentes sources d’évidence. En effet, nous proposons
d’enrichir le contenu de la requête initiale par des termes pertinents sélectionnés
selon leur distribution dans les éléments pertinents et non pertinents ainsi que
leur proximité vis-à-vis des termes de la requête initiale.
Une autre source d’évidence que nous allons aussi utiliser est l’information
structurelle que nous traduisons par la notion de structure pertinente.
Nous proposons également de faire cohabiter les deux sources d’évidence contenu
et structure dans une approche combinée.
Ce chapitre est structuré de la manière suivante. Nous présentons tout
d’abord notre motivation dans la section 3.2, ensuite nous décrivons dans la section 3.3 l’approche orientée contenu. La section 3.4 est consacrée à l’approche
orientée structure. Enfin, l’approche combinée sera détaillée dans la section 3.5.
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
3.2
88
Motivation
Nous avons présenté dans le chapitre précédent les différentes approches
proposées pour la réinjection de pertinence dans la recherche d’information
structurée. Certaines permettent d’étendre la requête au niveau du contenu et
ont généralement utilisé l’algorithme de Rocchio [154] et d’autres ont proposé
d’utiliser le contexte des éléments pertinents.
Nous avons également montré qu’une simple adaptation de l’algorithme de
Rocchio dans le contexte de la recherche d’information structurée ne conduit
pas à une amélioration significative des résultats [91], [168], [43], [128]. De ce
fait, nous pensons que les évidences classiques (tf ∗ idf ) utilisées pour l’identification des termes pertinents et leur pondération doivent être revues dans
le cas des documents semi-structurés puisqu’on traite non plus des documents
entiers mais des parties des documents. Il faudrait trouver et intégrer d’autres
indicateurs adéquats aux documents semi-structurés.
Dans le cas des approches orientées contexte, la réinjection de pertinence
consiste à prendre en compte le contexte dans lequel apparaissent les éléments
pertinents. Elles concernent précisément la prise en compte des ancêtres, des
descendants, du nom du journal dans lesquels apparaissent des éléments pertinents, ainsi que leurs taille. Les résultats obtenus restent non significatifs (taux
d’amélioration < 5%). Seule l’approche de réinjection du contexte structurel a
montré son intérêt [169]. Ces approches restent étroitement liées à un type de
DTD.
De plus, la majorité des approches proposées en réinjection de pertinence,
ont abordé une seule source d’évidence à la fois soit contenu soit contexte. Il
existe peu voire pas d’approches ayant combiner les deux sources pour identifier des éventuelles relations de pertinences entre termes et structures. De plus,
dans aucune des approches proposées on ne retrouve une modélisation des relations directes entre les données textuelles et les données structurelles.
Les objectifs de nos travaux sont alors les suivants :
– utiliser d’autres sources d’évidence, indicateurs, pour sélectionner et pondérer les termes pertinents [89],
– proposer une approche pour la réinjection de la structure [90], [84], [92],
– enfin étudier l’impact de la combinaison des deux sources d’évidence
(contenu et structure) [86] [87], [88], [85] pour enrichir la requête initiale et répondre en particulier à la question de dépendance contextuelle
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
89
Fig. 3.1 – Mécanisme de reformulation
qui peut exister entre les termes pertinents et les structures pertinentes.
Nos investigations concernent donc plusieurs points comme ceci est résumé
dans la figure 3.1. Le point de départ des approches que nous proposons est
évidemment la liste des éléments jugés pertinents par l’utilisateur. En outre,
la démarche que nous adoptons pour ce processus de reformulation de requête
est composée essentiellement de 3 étapes :
1. La première étape : Echantillonnage. Cette étape est commune à toutes
les approches proposées, elle consiste à construire un échantillon d’éléments
à partir des résultats de base et des jugements de pertinence. Un échantillon
est caractérisé par sa taille, le nombre d’éléments pertinents qu’il contient
et la nature de la pertinence considérée (degré d’exhaustivité et de spécificité). Nous n’avons pas effectué d’investigations ni de propositions théoriques
particulières dans cette étape. C’est une étape qui a été investie principalement lors de l’expérimentation de nos approches. Nous discuterons
donc dans le chapitre consacré à l’expérimentation les critères à considérer
pour la construction d’un échantillon.
2. La seconde étape : Extraction des sources d’évidence. Dans cette étape,
nous proposons trois types d’approches pour extraire des informations à
partir de l’échantillon défini dans l’étape précédente :
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
90
– la première orientée contenu dans laquelle on enrichit le contenu de la
requête par des termes pertinents,
– la seconde permet d’extraire des structures pertinentes,
– la troisième combine les deux sources : termes pertinents et structures
pertinentes.
3. La dernière étape : Réécriture de la requête. Cette étape dépend
de l’approche utilisée ainsi que du type de requêtes (structurées et non
structurées). Elle permet de réinjecter les données sélectionnées de l’étape
précédente pour aboutir à une nouvelle requête qui peut être exécutée par
le système de recherche.
Comme nous l’avons mentionné ci-dessus, les étapes que nous venons de
décrire concernent les 3 approches proposées : orientée contenu, orientée structure et combinée. Ainsi, au lieu de présenter chacune de ces étapes d’une
manière séparée, nous avons préféré les présenter dans chacune des approches.
3.3
Approche orientée Contenu
Notre approche orientée contenu se déroule en trois étapes : l’extraction et
la sélection des termes pertinents, la pondération des termes de la requête et
enfin la réécriture de la requête.
3.3.1
Extraction et Sélection des termes pertinents
Nous avons abordé le problème d’extraction de termes en utilisant différents
indicateurs de pertinence. Ceci a conduit à trois stratégies. Nous proposons tout
d’abord une stratégie de base utilisant uniquement la distribution des termes
dans les éléments pertinents, puis les stratégies intégrant d’autres sources notamment le contexte des termes et l’information issue de la pertinence négative.
3.3.1.1
Stratégie de base : Sélection par probabilité de pertinence
Nous avons assimilé le problème d’extraction des termes pertinents à un
problème probabiliste. En effet, l’extraction des termes pertinents est conditionnée par leur présence dans les éléments jugés pertinents. L’idée derrière
cette approche et que plus un terme figure dans des éléments jugés pertinents
plus sa probabilité de pertinence, c’est à dire sa capacité d’exprimer le besoin
de l’utilisateur, est importante.
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
91
Une manière simple de mesurer cette probabilité est d’utiliser le maximum
de vraisemblance. On considère alors la pertinence d’un terme tj comme un
événement probabiliste. Ceci est une traduction simple de la formule de Robertson [152]. Ainsi, la probabilité qu’un terme soit pertinent pour une requête
est définie comme suit :
P (tj /R) = |pej |/|E p |
(3.1)
où
R est l’évènement pertinence. |pej | est le nombre d’éléments pertinents dans lesquels apparaı̂t le terme tj et |E p | est la taille de
l’ensemble le nombre d’éléments pertinents (E p ).
Cette équation attribue des probabilités indépendamment des fréquences
des termes dans les éléments pertinents. De ce fait, tous les termes des éléments
jugés pertinents auront un poids > 0. Cette formule présente des limites dans
le cas où les termes occurrent dans le même nombre d’éléments pertinents mais
avec des fréquences différentes. Dans ce cas les termes peuvent être de degrés
d’importance différents alors qu’ils ont le même poids.
Exemple :
si considère un terme t1 qui occurre dans 2 éléments jugés pertinents dans un ensemble composé de 3 éléments pertinents, avec
des fréquences 3 et 5 et un terme t2 qui occurre également dans 2
éléments jugés pertinents avec des fréquences 1 et 2, bien qu’il nous
parait que le terme t1 est plus représentant de l’élément pertinent
que le terme t2 , ces derniers ont le même poids = 0,66.
Nous essayons alors d’affiner le choix des termes pertinents dans l’étape
suivante : sélection basée sur le contexte des termes pertinents.
3.3.1.2
Stratégie basée sur le contexte
Comme nous l’avons signalé, l’extraction des termes en considérant uniquement leurs distribution dans les éléments pertinents est insuffisante pour
déterminer leur degré de pertinence. En effet, les valeurs de probabilité calculées ne sont pas assez discriminantes. Comme la pertinence est définie selon
deux dimensions l’exhaustivité et la spécificité, notre problème revient alors à
trouver les termes qui décrivent des éléments à la fois spécifiques et exhaustifs.
La notion d’exhaustivité est traduite par la distribution des termes dans les
éléments pertinents que nous avons vue dans la stratégie de base. La spécificité
peut être traduite en considérant les termes proches de ceux de la requête.
En d’autres termes, si un terme se trouve souvent aux alentours des termes
de la requête, il y a une forte chance que ce terme soit lié sémantiquement
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
92
à ceux de la requête. Intuitivement, ce terme pourrait être un bon candidat
pour l’enrichissement de la requête initiale. Une manière simple de traduire
cette proximité surfacique entre les termes des éléments pertinents et ceux
de la requête est d’utiliser la notion de contexte d’un terme. Cette notion a
été préalablement utilisée en RI classique [159], nous l’avons adapté à notre
contexte. C’est une mesure qui tient compte des termes de la requête pour
pondérer les termes extraits d’un élément jugé pertinent. Elle est basée sur les
distances entre les termes d’un élément et ceux de la requête. Elle est définie
dans l’équation suivante :
contextei (tj ) = (distributionei (q) − minei (tj ))/distributionei (q)
(3.2)
minei (tj ) = mintj 6=tk |(positionei (tj ) − positionei (tk ))|
(3.3)
distributionei (q) = length(ei )/occurrencesei (q)
(3.4)
où
distributionei (q) est la distribution de tous les termes de la requête
dans l’élément ei , avec length(ei ) la taille de l’élément ei moins les
termes de la requête et occurrenceei (q) le nombre d’occurrences des
termes de la requête q dans l’élément ei
minei (tj ) est la différence minimale de positions entre n’importe
quelle occurrence du terme tj et un autre terme tk de la requête,
avec positionei (tj ) la position du terme tj dans ei .
Cette notion permet de mesurer le degré d’appartenance d’un terme au
contexte d’une requête donnée. Elle sert à mettre en valeur les termes exprimant
à la fois l’exhaustivité et la spécificité. En effet, la formule peut être interprétée
de deux manières différentes :
1. Une interprétation directe de cette mesure permet de constater qu’on obtient un contexte élevé pour un terme tj dans le cas où minei (tj ) (distance
entre tj et le terme tk de la requête) est faible (i.e minei (tj ) tend vers 0).
Ce qui traduit la spécificité du terme par rapport à la requête.
Exemple :
Un utilisateur exprime le besoin suivant :
” recherche d’information ”
Soit l’élément suivant jugé pertinent :
” Abrégée en RI ou IR (Information Retrieval en anglais), la
recherche d’information est la science qui consiste à rechercher l’information dans des documents - les documents euxmêmes ou les méta données qui décrivent les documents ...,
dans des bases de données - ... ...L’informatique a permis le
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
93
développement d’outils pour traiter l’information et établir la
représentation des documents au moment de leur indexation,
ainsi que pour rechercher l’information ...”
La distribution de la requête est le nombre des termes de la requête figurant dans le paragraphe, ici : 7 par lequel on divise la taille du paragraphe
excepté des termes de la requête soit 28, pour faciliter les calculs (on ne
considère pas les prépositions, les propositions, les articles, etc.). Le minimum est quant à lui égal à 1. Si on calcule le score du terme ”document”
par exemple :
Context(tj ) = (4 − 1)/4 = 0.75.
2. Une deuxième interprétation vient du fait que si le minei (tj ) est faible, le
contexte reste faible tant que distributionei (q) est faible (i.e. se rapproche
de la valeur du minei (tj )). Ceci traduit le cas où les termes de l’élément
considéré sont en majorité ceux de la requête. Les termes de cet élément
n’appartenant pas à la requête ne représentent pas en général une description de l’information recherchée et par conséquent, ils ne peuvent pas
être efficaces pour pointer sur des éléments exhaustifs.
Exemple : soit la même requête que précédemment :
”recherche d’information”
Si on considère l’élément suivant :
” Association francophone en Recherche d’Information et
Applications (ARIA) ”.
Cet élément bien qu’il ne réponde pas directement au besoin de l’utilisateur, est jugé pertinent puisqu’il renseigne sur l’association du domaine
sans présenter aucune information sur le processus le la RI.
Si on calcule le score du terme ”francophone” :
la distribution de la requête dans cet élément est 3/2=1.5, le minimum
=1.
Context(tj ) = (1.5 − 1)/1.5 = 0.33.
On remarque que ce terme a un poids bien inférieur à celui du terme
”document” dans l’exemple précédent (0.33 < 0.75). En effet, il appartient un élément caractérisé par une faible distribution des termes de la
requête initiale.
En conclusion la mesure contexte répond à nos besoins pour exprimer la
pertinence d’un terme. Nous allons alors combiner le poids déjà calculé par la
probabilité conditionnelle avec le contexte du terme calculé dans l’ensemble des
éléments pertinents. Le poids d’un terme appelé Poids Contextuel (PC) sera
calculé suivant l’équation 3.5 suivante combinant la probabilité et le contexte :
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
p
P C(tj ) = P (tj /E ) ×
|pej |
X
contextej i
94
(3.5)
i=1
où
|pej | est l’ensemble des éléments pertinents contenant le terme tj .
Cette équation conçue pour la sélection de termes pertinents en considérant
la réinjection de pertinence positive. Dans le prochain paragraphe, nous proposons de considérer la pertinence négative pour l’extraction et la sélection des
évidences.
3.3.1.3
Prise en compte de la pertinence négative
Comme nous l’avons déjà mentionné dans le chapitre précédent, la reformulation de requête peut également prendre en compte des éléments jugés non
pertinents [154].
D’une manière générale, l’effet de la réinjection négative est de diminuer l’importance des termes qui ont un effet négatif sur la recherche ou de les supprimer.
Ces termes sont extraits des éléments jugés non pertinents.
D’après Ruthven et al. [157], les éléments jugés non pertinents ne sont pas
bien définis, ce qui explique le fait que la réinjection négative n’a pas d’effet
important, en RI en termes de performances (i.e. dans Rocchio, le coefficient
γ de la réinjection négative est beaucoup plus faible que le coefficient β de la
réinjection positive).
Intuitivement, nous croyons que la prise en compte de la réinjection de pertinence négative permettrait un meilleur taux de précision. Nous proposons pour
cela de calculer pour chaque terme un facteur bruit [164]. Un terme présente
du bruit s’il occurre autant de fois dans les éléments pertinents que dans les
éléments non pertinents. Ce facteur bruit est calculé comme suit :
Bruit(tj ) =
np
X
tfjei
i=1
ttfj
log
ttfj
tfjei
où
tfjei est la fréquence du terme tj dans l’élément ei , np est le nombre
d’éléments non pertinents et ttfj est la fréquence totale du terme
tj dans les éléments non pertinents.
(3.6)
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
95
Fig. 3.2 – Variation du bruit en fonction de fréquences
Le Bruit(tj ) défini dans [164] est basé sur la fréquence du terme dans le document. Dans notre cas nous considérons les fréquences des termes au niveau
des éléments jugés non pertinents.
Si on étudie la fonction de bruit de plus près, on constate qu’elle ne peut
être nulle que s’il s’agit d’un cas particulier. Bruit(tj ) = 0 correspond au cas
où le terme n’apparaı̂t que dans un seul élément (ttfj = tfje ). Le reste des
cas correspond à des valeurs qui sont soit entre 0 et 1 soit supérieures à 1. Le
premier cas (0 < Bruit(tj ) < 1), correspond à une distribution variée dans
les différents éléments jugés non pertinents : c’est le cas où le terme présente
relativement du bruit.
Le deuxième cas est celui où le terme occurre d’une manière régulière dans
tous les éléments jugés non pertinents. Les variations du bruit en fonction des
fréquences sont illustrées dans la figure 3.2 : plus le nombre d’éléments non pertinents dans lequel apparaı̂t un terme augmente, plus le bruit augmente. Il est
au dessus de 1 ce qui correspond à un terme bruité. Remarquons que cette fonction ne peut pas avoir des valeurs strictement négatives puisque ttfj >= tfjei .
Selon les valeurs possibles du bruit, ce facteur permet de discriminer davantage
les poids des termes pour la sélection.
Exemples :
1. soit un terme t1 qui occurre dans 3 éléments jugés non pertinents avec
les fréquences suivantes : 2, 4 et 10. Le bruit est calculé comme suit :
bruit(t1 ) = 2/16 ∗ log(16/2) + 4/16 ∗ log(16/4) + 10/16 ∗ log(16/10) = 0.38
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
96
2. soit un terme t2 qui occurre dans 20 éléments jugés non pertinents avec
une même fréquence égale à 5. Le bruit est calculé comme suit :
bruit(t1 ) = 20 ∗ 5/100 ∗ log(100/5) = 1.3
Nous proposons alors de diminuer les poids des termes qui présentent un bruit
élevé (c’est à dire bruit > 1) et d’augmenter ceux des termes moins bruités
(ayant un bruit entre 0 et 1).
Nous proposons alors d’intégrer le bruit dans le poids contextuel. Ainsi le poids
ajusté (PA) combinant le facteur bruit et le poids des termes sélectionnés selon l’équation 3.5. Le poids ajusté permet de prendre en compte à la fois de
la pertinence positive exprimée à travers le poids contextuel et la pertinence
négative à travers le facteur bruit.
P A(tj ) = (Pn C(ti ))Bruit(tj )
(3.7)
Nous avons appliqué cette fonction en puissance des poids contextuels déjà
calculés normalisés Pn C(tj ) dans l’intervalle [0, 1]. La normalisation est effectuée de la manière suivante :
Pn C(tj ) =
P C(tj )
max∀ti ∈T S (P C(ti ))
(3.8)
Où
P C(tj ) le poids contextuel du terme tj (équation 3.5), Pn C(tj ) le
poids contextuel normalisé du terme tj , T S l’ensemble des termes
sélectionnés.
Ceci nous conduit à un poids maximal si le terme n’apparaı̂t que dans un
seul élément non pertinent ou dans aucun élément, le score final est égal à 1.
Un terme bruité (bruit> 1) aura un poids final inférieur à celui déjà calculé.
Pour le cas où les valeurs se situent entre 0 et 1, les poids seront élevés tout en
restant inférieurs à 1.
Les deux équations conçues pour la sélection de termes pertinents (poids
contextuel et poids ajusté), peuvent servir également à la pondération des
termes de la requête reformulée. Par ailleurs, d’autres sources d’évidence peuvent
aussi être utilisées pour la pondération des termes de la nouvelle requête. Ceci
fait l’objet de la section suivante.
3.3.2
Pondération des termes de la requête
La pondération concerne d’une part les termes sélectionnés et d’autre part
les termes de la requête initiale. Nous proposons deux solutions différentes :
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
97
– La première consiste à pondérer les termes de la requête reformulée selon
le poids contextuel (avec ou sans prise en compte du bruit).
– Dans la seconde hypothèse, nous séparons la phase de la sélection de celle
de la pondération. En fait, les termes de la requête finale sont sélectionnés
selon le poids contextuel, puis il sont pondérés en utilisant une formule
de type tf.idf.ief que nous avons proposée dans le modèle XFIRM que
nous dériverons dans le chapitre 4. Cette formule reflète l’importance d’un
terme dans les éléments ainsi que dans les documents de la collection.
Ainsi les termes de la requête, y compris les termes originaux, seront
pondérés selon l’équation suivante :
P ds(tj ) = tf (tj ) × idf (tj ) × ief (tj )
(3.9)
Nous avons alors considéré la fréquence du terme dans la collection tf (tj ).
Pour conserver la dualité de la pertinence (exhaustivité et spécificité), le facteur
tf (tj ) est ainsi multiplié par le facteur idf, ainsi que par son analogue ief défini
pour exprimer la spécificité d’un terme dans l’ensemble des éléments de la
collection :
¶
µ
|E|
+1
(3.10)
ief (tj ) = log
|ej |
Avec |ej | le nombre d’éléments dans lequel occurre le terme tj et |E| le nombre
d’éléments dans la collection.
Dans les deux solutions proposées, les poids attribués aux termes à réinjecter
seront normalisés entre 0 et 1.
3.3.3
Réécriture de la requête
La réécriture de la requête est l’étape finale de la reformulation, elle permet
de mettre en place la requête qui sera transmise au système de recherche. La
question est comment prendre en compte les termes de la requête initiale Q
dans la réécriture de la nouvelle requête Q′ ?
D’une manière générale, la nouvelle requête est formulée comme suit :
Q′ = α.Q + β.T S
(3.11)
où :
Q est la requête initiale composée d’un ensemble de k couples
(tj , wjq ), j ∈ [1, k], wjq est le poids du terme tj de la requête initiale.
T S représente l’ensemble des couples (tj , wjT S ) terme pertinent tj
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
98
associé à son poids wjT S , triés selon leurs poids. Les poids sont
calculés selon l’équation 3.5, l’equation 3.7 ou l’équation 3.9
Une alternative possible de la réécriture 3.11 est de rajouter uniquement à la
requête initiale les nouveaux termes :
Q′ = Q + T S ′
(3.12)
avec
T S ′ = {T S − Q}
Exemples : requête orientée contenu
Nous considérons la requête 202 de la collection de test INEX 2005 :
”ontologies case study ”
Nous supposons que nous sélectionnons 3 termes pertinents dont un existe
déjà dans la requête. Les termes sélectionnés avec leurs poids associés sont les
suivants : (graph, 1 ) (concept, 0.6 ) et (ontology,0.8 ) Nous supposons que les
termes initiaux de la requête on un poids égale à 1.
La requête finale sera alors comme suit :
”ontologies,1 case,1 study,1 graph,1 concept,0.6 ontology,0.8 ”
avec α = β = 1
Si on considère la seconde alternative, la requête finale sera comme suit où
le mot-clé ”ontology” apparaı̂t une seule fois :
”ontologies,1 case,1 study,1 graph,1 concept,0.6 ”
Exemples : requête structurée
Ce type de requête est composée de sous requêtes dont chacune représente
une contrainte structurelle et un ensemble de mots clés. Dans notre approche
pour éviter d’une part les redondance dans la requête et pour simplifier d’autre
part la recherche, nous allons procéder de manière à enrichir la sous requête
cible. La sous requête cible est explicitement identifiée par le terme ec (utilisé
dans notre système XFIRM décrit dans le chapitre 4). Le terme ec désigne
l’élément désiré par l’utilisateur. Nous appliquons alors le même principe que
précédemment. Les termes appartenant aux autres sous requêtes auront une
pondération maximale =1.
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
99
Nous considérons comme exemple la requête 202 de la collection de test
INEX 2005 :
”article[ontologies] // ec : sec[ontologies case study] ”
On cherche une section sur ”ontologies case study” descendante d’un article
sur les ”ontologies”.
Si on considère les termes de l’exemple précédent à réinjecter,
les nouvelles requêtes seront comme suit : seule la sous requête cible (sec[ontologies
case study] ) sera modifiée.
” article[ontologies,1] // ec : sec[ontologies,1 case,1 study,1 graph,1
concept,0.6 ontology,0.8] ”.
avec α = β = 1.
Selon la seconde alternative, la requête finale sera comme suit :
” article[ontologies,1] // ec : sec[ontologies,1 case,1 study,1 graph,1
concept,0.6] ”.
3.3.4
Conclusion
L’approche que nous avons proposée pour extraire les termes pertinents à
partir des éléments pertinents est différente des approches proposées dans la
littérature. Cette différence se situe dans la stratégie proposée pour extraire les
termes pertinents. Cette stratégie combine plusieurs indicateurs : la distribution des termes dans les éléments pertinents, la proximité contextuelle de ces
termes vis à vis des termes de la requête initiale et enfin le bruit qu’ils peuvent
engendrer selon leur présence dans les éléments non pertinents.
Nous allons introduire la seconde source d’évidence dans la section suivante.
3.4
Réinjection de la structure
Le processus de réinjection de pertinence que nous avons étudié tout au
long des chapitres précédents concerne principalement l’ajout des termes dans
les requêtes. Notre objectif dans cette section est d’étudier l’intérêt de reformuler une requête en réinjectant une contrainte structurelle. L’intuition que nous
avons derrière cette démarche est la suivante :
nous pensons que les informations pertinentes recherchées par un utilisateur ont
de fortes chances de se retrouver dans des éléments de même type (même type
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
100
de balise). L’idée est alors d’arriver à identifier ces balises à partir des éléments
jugés pertinents par l’utilisateur puis reconstruire une nouvelle requête en y injectant ces balises sous forme de contraintes structurelles.
Pour simplifier, nous allons commencer par introduire la notion de structure
pertinente. Avant de rentrer dans le détail de l’approche et afin de lever toutes
les ambiguı̈tés dans notre discours, nous donnons quelques définitions utiles
pour la suite.
Définitions :
Nous rappelons brièvement les notions de l’élément et de chemins :
– Un élément toute partie qui représente un sous-arbre de l’arbre d’un
document XML. Un élément est représenté par un nœud. Un nœud est
caractérisé par le nom d’une balise.
– Le chemin (path) de l’élément est l’ensemble des nœuds séparant le nœud
de l’élément de la racine.
Nous considérons une structure comme une forme simplifiée du chemin,
composée d’un ensemble de balises.
La distance entre deux balises d’une même structure est le nombre de balises
qui les séparent. Si nous considérons une structure S (composée de n balises) :
S = B1 /B2 /.../Bn , la distance (d) entre la balise Bi et la balise Bn est calculée
comme suit :
d(Bn , Bi ) = (n − i), n ≥ i
Une séquence de balises est une partie d’une structure.
3.4.1
La notion de structure pertinente
La première question qui se pose dans cette approche concerne l’existence
même de cette notion de structure pertinente, c’est-à-dire celle susceptible
de contenir des informations pertinentes, et qu’est ce qu’elle représente exactement.
Pour répondre à cette question, nous avons analysé les collections de test de
INEX 2005 et INEX 2006. Cette analyse consiste à regarder de près la nature
des réponses pertinentes à une requête donnée.
En particulier, nous avons compté le nombre de types de structures dans lesquelles peuvent se retrouver les éléments pertinents pour une requête donnée.
Les types de structures correspondent dans ce cas à la dernière balise comme
par exemple la balise p de la structure /article/sec/ss1/p. Nous nous sommes
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
101
servis principalement des jugements de pertinence fournis par la campagne
d’évaluation pour chaque requête. Nous n’avons considéré que les éléments
strictement pertinents puisque le but est de fixer les besoins de l’utilisateur en
structures.
Le tableau 3.1 présente pour chacune des collections 2005 (composée de 28
requêtes jugée) et 2006 (composée de 114 requêtes jugées), la moyenne du
nombre d’éléments strictement pertinents sur l’ensemble des requêtes (MEP), la
moyenne du nombre de balises distinctes dans lesquelles se trouvent les éléments
pertinents (MSEP) et le nombre total de balises différentes des éléments pertinents (NSEP) pour toutes les requêtes. D’après ce tableau pour une requêtes
Tab. 3.1 – Propriétés des jugement de pertinence
MEP
MSEP
NSEP
INEX 2005
31.22
4.67
27
INEX 2006
323.86
8.3
37
donnée de la collection 2005, la moyenne d’éléments pertinents est de 31.22.
Ces éléments ont en moyenne 4.67 structures différentes parmi les 27 de la
collection. Dans le cas de la collection 2006, la moyenne d’éléments pertinents
pour une requête donnée est de 323.86. Ces éléments ont en moyenne 8.3 structures différentes parmi les 37 de la collection. Nous avons ensuite compté pour
chaque balise le nombre de fois qu’elle apparaı̂t dans les éléments pertinents
(#(balisei )q). Ces balises sont ensuite triées par ordre décroissant de ce nombre
(#(balisei )q).
Afin de mieux rendre compte de ces nombres, le tableau 3.2 liste le ratio (%)
entre (#(balisei )q) et le nombre total d’éléments pertinents.
Dans a colonne 1 struct, on ne considère qu’une seule balise, 2 struct. On
considère les 2 premières pour une requête et 3 struct, les trois premières, etc.
Nous avons calculé une moyenne, un min et un max sur l’ensemble des requêtes
pour les 2 collections considérées.
Tab. 3.2 – Répartition des éléments pertinents en fonction des types de structures - INEX 2005-2006
1 struct
2 struct
3 struct
4 struct
5 struct
2005
Moyenne 64%
85%
93%
96%
98%
Min
23%
44%
60%
73%
89%
Max
100%
100%
100%
100%
100%
2006
Moyenne 70%
84%
91%
95%
97%
Min
31%
56%
73%
84%
89%
Max
96%
100%
100%
100%
100%
Nous constatons que quelle que soit la collection (INEX 2005 ou INEX 2006)
les éléments se partitionnent généralement dans un ensemble bien défini de type
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
102
de structures. Nous notons en examinant la moyenne, que l’on arrive à plus de
90% des éléments pertinents (93% pour la collection INEX 2005 et 91% pour le
collection de INEX 2006) en considérant trois balises pour une requête donnée,
sachant que le nombre total des types de structures (balises) caractérisant des
éléments pertinents est respectivement 27 et 37 dans les collections 2005 et 2006.
Nous pouvons donc conclure qu’il existe bien des structures pertinentes pour
chaque requête. Nous définissons par la suite la notion de structure générique
qui traduit la pertinence des structures.
3.4.2
Extraction de la structure pertinente
Une structure pertinente est une structure dans laquelle on retrouve des
informations à la fois exhaustives et spécifiques. Nous définissons tout d’abord
le concept de structure générique comme suit :
On appelle structure générique une structure qui peut être commune à un
grand nombre d’éléments pertinents.
Exemple :
Si l’on considère que pour une requête donnée, nous avons 3 éléments jugés
pertinents ayant les structures Sk , Sl et Sm suivantes :
Sk /article/bdy/sec/ss1,
Sl /article/bdy/sec/ss1/ss2 et
Sm /article/bdy.
On remarque que Sm est une structure commune aux deux autres structures. Si on considère ces structures sous forme d’un arbre, la distance entre
les 2 structures Sm et Sl est de 3.
Pour extraire alors la structure générique, nous allons procéder de manière à
retrouver une structure qui représente une branche commune entre la majorité
des structures auxquelles appartiennent les éléments pertinents tout en tenant
compte des distances entre les structures.
Nous revenons brièvement sur cette notion de distance définie dans la section
précédente. Le tableau 3.3 liste les différentes distances entre les structures de
l’exemple. On constate que la structure Sk a la somme des distances la séparant
des autres structures, la moins élevée =3 par rapport aux sommes obtenues par
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
Tab. 3.3 – Récapitulation des différences
Sk
Sl
Sk
1
Sl
1
Sm
2
3
103
de distance entre les structures
Sm
Somme
2
3
3
4
5
Sm (4) et Sl (5) les structures Sm et Sl . La structure générique dans ce cas est
Sk .
Nous proposons dans ce qui suit l’algorithme d’extraction des structures
génériques appelé SCA (Smallest Common Ancestor ).
Plusieurs approches en RI structurée orientées bases de données ont utilisé la
notion d’ancêtre communs pour répondre à la fois aux contraintes structurelles
et textuelles. Nous présentons dans ce qu’il suit quelques algorithmes de recherche d’ancêtre commun ainsi notre algorithme d’extraction des structures
génériques dans le cas des documents homogènes, ayant une même DTD.
3.4.3
Extraction de structures pertinentes dans des documents homogènes
3.4.3.1
Algorithmes de recherche des ancêtres communs
Il existe une panoplie d’algorithmes permettant la recherche des ancêtres
communs on y trouve en particulier :
– L’algorithme LCA : Les auteurs de [171] ont proposé l’algorithme LCA
(Lowest Common Ancestor ) pour la recherche dans les documents XML
par mots clés. Cet algorithme permet de sélectionner le plus petit sous
arbre contenant tous les mots clés. Le LCA est utilisé pour la reconstruction des B-Arbres [199]. On retrouves d’autres dérivés de cet algorithme
comme le SLCA et le MLCAS. La recherche selon LCA est assez stricte :
toutes les contraintes doivent êtres satisfaites ce qui ne convient pas à
la définition de structure générique : elle peut ne représenter un tronc
commun avec certaines structures.
– SLCA : La notion de SLCA (Smallest Lowest Common Ancestor) a été
proposée par Xu et Papakonstantinou dans [203] pour pallier le problème
de redondance des sous-arbres, de LCA. La fonction SLCA permet au
système de recherche et de ne retourner que le nœud le plus spécifique
et non pas un ensemble des nœuds redondants. Les auteurs ont alors im-
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
104
planté deux algorithmes de recherche basés sur SLCA : Indexed Lookup
Eager (appliqué dans la cas où la fréquence des mots clés varie significativement) et Scan Eager (dans le cas contraire) testés dans le système de
recherche X-KSearch (XML Keywords Search).
Une autre extension a été proposée par Sun et al. de [183] (Multiway
SLCA) pour répondre aux requêtes comportant des opérateurs booléens
de type OR et AND.
– Le MLCA (Meaningful Lowest Common Ancestor ) [119] est lui aussi un
dérivé de LCA. Le MLCA est un plus petit nœud commun de deux autres
nœuds de deux types différents. MLCA ne peut pas avoir un descendant
pour lequel il peut être un ancêtre commun avec les deux types de nœuds.
Le MLCAS est un dérivé de la fonction MLCA qui ne renvoie que les
nœuds répondant aux contraintes avec leur plus petit ancêtre commun
MLCA. En d’autres termes, c’est une structure qui ne comporte pas d’informations inutiles pour la requête.
Ces différents algorithmes sont appliqués au niveau d’un seul arbre d’un document XML. Leur but est d’extraire le plus petit ancêtre commun qui satisfait toutes les contraintes textuelles et structurelles. Nous nous intéressons
dans notre cas aux structures qui satisfont le maximum, pas forcément tous
les éléments jugés pertinents (dans ce cas on parle de l’ancêtre commun qui
peut refléter l’exhaustivité de l’information) mais qui ne perdent pas l’aspect
spécifique renseigné par la structure des éléments.
Nous allons en fait extraire un ancêtre commun d’une manière plus flexible
grâce à un nouveau algorithme appelé SCA (Smallest Common Ancestor) et
nous appelons cet ancêtre une structure générique.
3.4.3.2
L’algorithme SCA (Smallest Common Ancestor)
Nous considérons les paramètres suivants :
– E p l’ensemble des éléments pertinents jugés par l’utilisateur,
– epi le ieme élément pertinent ∈ E p ,
– epi est caractérisé par un chemin XPath simplifié ci
(exemple : /article/bdy/section) et un poids wi (initialisé à 1 au début de
l’algorithme),
– c.f irst et c.last respectivement la première et la dernière balise du chemin
c,
– head(c) une fonction permettant de réduire le chemin c en lui attribuant
celui du parent (c.à.d. supprimant la dernière balise de la structure).
Par exemple, head(/article/bdy/section) = /article/bdy.
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
105
Notre algorithme (voir tableau 3.4) consiste à comparer la structure de
chaque élément pertinent avec le reste des structures des éléments jugés pertinents. Pour chaque (epi , epj )i6=j ∈ E p × E p , nous appliquons l’algorithme SCA
qui permet d’extraire le chemin du plus petit ancêtre commun entre epi et epj .
Le chemin sera par la suite ajouté à un ensemble des Structures Communes
noté SC.
SCA(epi , epj )
Début
epi (ci , wi ) ; epj (cj , wj ) SC=
si ci .f irst = cj .f irst, alors
si ci .last = cj .last, alors
sinon
si head(cj ) 6= null, alors
sinon SCA(epj , epi )
Fin
si ∃epk (ck , wk ) ∈ SC ck = ci
alors wk ← wk + wj
sinon wi ← wi + wj
SC ← ci
c′j ← head(cj )
wj′ ← wj /2
′
′
SCA(epi (ci , wi ), e′p
j (cj , wj ))
Tab. 3.4 – Algorithme d’extraction de la structure générique.
La structure générique choisie est celle ayant le score le plus élevé.
3.4.3.3
Exemple d’application de l’algorithme SCA
On considère pour une requête donnée trois éléments jugés pertinents er1 ,
er2 et er3 auxquels correspondent les structures (nous traitons dans ce cas les
structures comme des chemins) :
S1 /article/bdy/sec/ss1
S2 /article/bdy/sec/ss1/ss2
S3 /article/bdy.
Nous décrivons à travers les figures suivantes les différentes étapes de la
recherche d’une structure générique. On affecte un poids unique à toutes les
structures sont w1 , w2 et w3 . Dans notre application, ce poids est une constante,
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
106
Fig. 3.3 – Recherche d’une structure générique :A
Fig. 3.4 – Recherche d’une structure générique : C
que l’on pourra par exemple prendre égale à 1. Soit l’ensemble SC initialement
vide dans lequel on rajoutera les structures génériques.
Nous considérons que la comparaison des premières balises comme étape 0
de l’algorithme.
La figure 3.3 présente la première étape de notre recherche de structure générique ;
elle consiste à comparer la dernière balise de la structure S1 à la dernière balise de la structure S2 . Dans ce cas les balises sont différentes, donc on passe
au niveau supérieur de la structure S2 dont le score devient w2 /2. La dernière
balise devient ss1 ce qui correspond à la dernière balise de S1 . Par conséquent,
la structure S1 sera ajoutée à l’ensemble SC avec le score w1 + w2 /2
On compare ensuite (Figure 3.5) les deux structures S1 et S3 .
La comparaison de la dernière balise de S1 avec les balises de la structure S3
n’aboutit à aucun résultat (figure 3.5 ), on passe au ”matching” dans le sens
inverse.
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
Fig. 3.5 – Recherche d’une structure générique : B
Fig. 3.6 – Recherche d’une structure générique : C
107
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
108
On arrive à trouver la structure commune entre S3 et S1 au bout de 2 itérations.
Le score de la structure de S1 est divisée par 22 et la structure /article/bdy est
rajoutée à l’ensemble SC.
On passe ensuite à la comparaison des structures S2 et S3 (figure 3.6 ). On
applique le même principe que précédemment, le premier sens de comparaison
ne donne pas de résultat , on passe à la sous étape suivante.
Pour retrouver l’ancêtre commun, on effectue trois fois les passages au niveau
plus haut. Par conséquent, le score de S2 est devisé par 23 . On remarque que
la structure /article/bdy existe déjà dans l’ensemble SC. Son score est alors
incrémenté dans SC de w2 /8.
La structure générique sera celle qui a le plus élevé score parmi l’ensemble SC.
Dans cet exemple on sélectionne la structure S1 (/article/bdy/sec/ss1).
L’algorithme proposé concerne principalement les collection homogènes dans
lesquelles tous les documents ont la même DTD.
Remarque :
Intuitivement, on pourrait penser que la structure générique est /article/bdy.
Ce n’est pas le cas car en fait notre algorithme ne cherche pas l’ancêtre commun
seulement, mais aussi celui qui a la plus petite distance qui le sépare des autres
structures, d’où le résultat.
En réalité, les documents peuvent provenir de différentes sources n’ayant
pas la même DTD, d’où la question : Comment peut-on traiter l’hétérogénéité
des collections ?
3.4.4
Extraction des structures pertinentes dans des documents hétérogènes
Nous proposons dans cette section d’étendre l’algorithme SCA pour prendre
en compte l’hétérogénéité des structures. Nous entendons par structures hétérogènes celles qui décrivent des éléments de documents ayant différentes DTDs.
Exemple : pour une requête donnée, deux éléments jugés pertinents peuvent
avoir les deux structures suivantes : A/B/C et E/C/D. On constate que dans
ce cas il n’existe pas une séquence de balises commune depuis les racines des
deux structures. Nous définissons tout d’abord la notion de classe de structures
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
109
et classe de structures génériques.
Une classe de structures est un ensemble de structures ayant
la même balise finale.
Nous nous intéressons ici principalement au type de l’élément répondant au
besoin de l’utilisateur (le type d’élément est spécifié par la dernière balise d’une
structure). Une classe de structure de type A notée C(X) est définie comme
suit :
C(X) = {S|S.last = X}
où S est une structure.
A partir de la notion de classe de structure, nous définissons la notion de
classe de structures génériques.
Une classe de structures génériques est une classe de structure ayant le plus grand nombre d’éléments.
T C = argmax∀X∈Ω (|C(X)|)
Ω : l’ensemble de classe de structures extraites des éléments pertinents
|C(X)| : le nombre d’éléments pertinents ayant des structures appartenant à C(X).
Pour pouvoir trier les classes de structures génériques ayant le même nombre
T C, on assigne à chaque classe un score calculé en fonction de l’occurrence de
la balise caractérisant la classe dans les structures Si des éléments pertinents
tout en tenant compte de la distance qui la sépare Si .last.
Le processus d’extraction de la structure générique est comme suit :
1. La première étape consiste à construire les classes de structure à partir
de l’ensemble des éléments jugés pertinents.
Exemple : Si on considère les quatre structures suivantes : A/B/C, E/C/D,
H/I/C et A/E/F . Les classes de structures sont : C(C)C={A/B/C,H/I/C},
C( D)={E/C/D} et C(F)={A/E/F }.
Les classes seront triée selon la valeurs de T C.
La classe de structure générique est celle qui a la valeur la plus élevée de
T C. dans l’exemple ça sera C(C).
S’il existe plusieurs classes ayant la même valeur de T C, on passe à l’étape
suivante.
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
110
2. La deuxième étape consiste à calculer les scores des classes ayant la même
valeur de T C.
X
Si 1/(d(X, Si ) + 1)
(3.13)
W eight(X) =
∀Si ∈E p /X∈Si
Où :
Si est une structure d’un élément appartenant à l’ensemble des
éléments pertinents (E p ), dans laquelle apparaı̂t la balise X
d(X, Si ) la distance qui sépare la balise considérée et la dernière
balise de la structure Si .
Exemple : distances calculées pour la classe C de l’exemple.
d(C, A/B/C) = 0, d(C, E/C/D) = 1 et d(C, H/I/C) = 0
W eight(C) = 1 + 1/2 + 1 = 2, 5
A l’issu, la classe de structures générique est celle ayant le meilleur W eight(C).
Jusqu’à présent, nous avons considéré que la dernière balise d’une structure
à intégrer. Une autre alternative à envisager est de considérer tout le chemin
d’un élément recherché, c’est à dire spécifier les différentes balises qui constituent la structure génériques.
Pour ce faire, nous calculons les poids des balises intérieures de chaque structure des éléments pertinents. Ceci nous ramène dans le cas de l’exemple à
calculer le poids des balises A, B, C, D, E, F, I et H. Nous construisons ensuite le graphe des nœuds (voir figure 3.7). Les structures sont présentées dans
un graphe orienté composé des nœuds représentant des balises pondérées selon
la formule 3.13 et les arcs représentent les chemins extraits des structures des
éléments pertinents. On assigne ensuite à chaque structure Si un score :
X
score(Si ) =
weight(X)
∀X∈Si
La structure générique est alors celle qui a le score le plus élevé. Ce processus permet de sélectionner le chemin partagé par le maximum d’éléments
pertinents.
Ainsi, si on regarde la figure 3.7, nous remarquons que le chemin ayant
le score le plus important de la classe C est : A/E/C, la somme est 2/3+
5/6+2.5=4.
On remarque que le chemin de cette structure ne correspond à aucun chemin
ou sous-chemin des structures des éléments jugés pertinents. De ce fait, il y a
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
111
Fig. 3.7 – Présentation des structures dans un graphe orienté
une probabilité faible qu’on puisse retrouver des éléments qui satisfont cette
structure. D’autres possibilités sont alors à envisager pour exprimer le chemin
de la structure. Ces possibilités sont définies de manière plus flexible. C’est à
dire on peut exprimer un chemin en ignorant quelques balises intermédiaires
entre la racine et la dernière balise. On l’appelle chemin générique.
Exemple de chemin indéterminé : //A//C.
Pour garder le sens des structures génériques, les balises seront celles qui sont
partagées au maximum par l’ensemble des chemins des éléments pertinents en
d’autres termes celles qui correspondent aux nœuds ayant les scores les plus
élevés.
Dans les deux processus utilisant l’algorithme SCA et la classification nous
extrayons des structures complètes. Étant donné que l’algorithme SCA concerne
le cas des documents homogènes (même DTD), nous réinjectons seulement la
dernière balise de la structure (forme simplifiée). Dans le cas des document
hétérogènes, la réinjection peut concerner soit la dernière balise (forme simplifiée) de la structure pertinente, soit la structure complète (spécifiant toutes
les balises intermédiaire) ou son chemin générique (en éliminant quelques balises intermédiaires).
3.4.5
Réécriture de la requête
La réécriture des requêtes concerne les deux types de requêtes (structurées
et non structurées). Pour les reformuler, on sélectionne les structures ayant les
scores les plus élevés. Ces structures seront utilisées sous deux formes différentes
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
112
(la réinjection peut concerner une ou plusieurs structures pertinentes) :
– une forme simplifiée qui correspond à l’ajout à la requête initiale de la
dernière balise de la structure sélectionnée. En cas de plusieurs structures,
la requête est composée de plusieurs sous-requêtes dont chacune spécifie
une contrainte structurelle.
– une forme complexe qui correspond à l’ajout à la requête initiale du (des)
chemin(s) de la (des) structure(s) sélectionnée(s).
Considérons l’exemple des deux types de requêtes auxquels on réinjecte une
structure pertinente S qui peut être sous forme simplifiée (balise) ou sous forme
d’un chemin :
1. Soit R1 = t1 , t2 , ..., tn une requête composée de n mots clés. La requête
reformulée par réinjection de S sera :
R1’=élément cible :S[t1 , t2 , ..., tn ]
2. Soit R2 une requête structurée avec CS1 et CS2 sont les anciennes contraintes
structurelles et CS1 est l’élément cible :
R2=élément cible :CS1[t1 , t2 , ..., ti ] // CS2[ti+1 , ti+2 , ..., tn ].
La nouvelle requête sera de la forme :
R2’=élément cible :CS1[t1 , t2 , ..., ti ] // CS2[ti+1 , ti+2 , ..., tn ] OR S[t1 , t2 , ..., ti ].
où OR est l’opérateur booléen pour exprimer la disjonction des sous
requêtes. Le même opérateur est utilisé pour relier les sous requêtes après
la réinjection de plusieurs structures pertinentes.
Dans le cas de la réinjection d’une forme complexe la structure S sera remplacée
par son chemin. Pour généraliser cette écriture, nous définissons la grammaire
présentée dans le tableau 3.5.
Exemple
Dans ce qui suit, les requêtes sont formulées selon le langage de requête
XFIRM [165]. On distingue les deux types de requêtes (structurées et non
structurées).
– Soit la requête initiale de type CO : Q ”reformulation des requêtes en
recherche d’information”. La nouvelle requête sera reformulée par ajout
d’une structure ss1 et donc de type CAS :
”ec :// ss1[”reformulation des requêtes en recherche d’information”]”.
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
113
Soient R1 la réécriture d’une requête non structurée et R2 la réécriture
d’une requête structurée :
R1 : := <élément cible><contrainte structurelle><c1><Requête
initiale1><c2><Suite Expressions Structurées>*
R2 : := <Requête initiale2> <Suite Structures>*
Requête initiale1 : := requête non structurée
Requête initiale2 : := requête structurée
Suite Expressions Structurées : :=<Opérateur><contrainte
structurelle><c1><Requête Initiale><c2>
Suite
Structures
:
:=
<Opérateur><contrainte
structurelle><c1><MC><c2>
Opérateur : :=”OR”
élément cible : :=”//ec : ”
contrainte structurelle : :=nom de la balise extraite—chemin de la
balise
MC : :=mots clés de l’élément cible de la requête initiale
c1 : :=”[”
c2 : :=”]”
Tab. 3.5 – Grammaire de la réécriture des requêtes par injection de structure.
Si on considère plusieurs structures génériques Si à réinjecter (i ∈ {2, ..n}),
la requête finale sera de la forme :
”ec :// S1 [”reformulation des requêtes en recherche d’information”] OR S2 [”reformulation des requêtes en recherche d’information”] OR ... OR Sn [”reformulation des requêtes en
recherche d’information”]”.
– Soit une requête structurée de type CAS :
”article[”recherche d’information”] //ec :paragraphe[”reformulation
des requêtes”]”
La requête reformulée par réinjection d’une structure ss1 sera :
”// article [”recherche d’information”] ec : //paragraphe[”reformulation
des requêtes”]” OR ss1 [”reformulation des requêtes”] ”
L’opérateur Booléen ”OR” exprime une éventuelle contrainte structurelle.
On traite de la même façon le cas de réinjection de plusieurs structures
génériques, la requête finale sera sous le format :
”// article [”recherche d’information”] ec : //paragraphe[”reformulation
des requêtes”]” OR S1 [”reformulation des requêtes”] OR S2
[”reformulation des requêtes”] OR ... OR Sn [”reformulation
des requêtes ”]”.
A ce niveau, nous avons présenté les deux différentes approches orientée
contenu et orientée structure. Une question qui se pose maintenant porte sur
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
114
l’intérêt des combiner ces deux approches ?
Dans la prochaine section nous allons présenter les différentes stratégies de
combinaison que nous avons envisagées.
3.5
Approche Combinée
Nous proposons dans cette section de combiner les sources d’évidence contenu
et structure extraites des éléments pertinents afin d’exprimer des relation contextuelles qui peuvent exister entre elles. Cette combinaison peut se faire de trois
manières différentes :
1. une combinaison naı̈ve,
2. une combinaison avec dépendance contextuelle,
3. une combinaison flexible.
3.5.1
Combinaison naı̈ve
Une première forme de combinaison, qualifiée de naı̈ve, consiste à rajouter
à la requête initiale à la fois les termes pertinents et les structures pertinentes.
Les processus ayant permis l’extraction des termes et des structures pertinentes
sont indépendants.
Cette combinaison est effectuée au niveau de la réécriture. On distingue les
deux types de requêtes :
– La requête de type CO sera reformulée en ajoutant les termes extraits
comme pertinents aux termes originaux de la requête. L’ensemble des
termes (termes originaux de la requête + termes pertinents sélectionnés)
sera conditionné par la structure pertinente extraite à partir des éléments
pertinents selon l’approche orientée structure.
Formellement, soit R1 = t1 , t2 , ..., tn une requête composée de n mots clés.
La requête reformulée par réinjection d’une structure S et de 3 termes
pertinents tk , tl et tm sera :
R1’=élément cible : S [t1 , w1 t2 , w2 ...tn , wn , tk , wk tl , wl tm , wm ] où wi est
le poids correspondant à chaque terme calculé selon l’approche orientée
contenu.
– Dans le cas d’une requête structurée, la nouvelle structure à réinjecter
sera une condition sur les termes de l’élément cible de la requête initiale auxquels on ajoute les termes pertinents sélectionnés. L’ensemble
représente une sous requête qui sera coordonnée avec la requête initiale
avec l’opérateur booléen OR.
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
115
Formellement, soient CS1 et CS2 sont les anciennes contraintes structurelles avec CS1 est l’élément cible :
R2=élément cible : CS1 [t1 , t2 , ..., ti ] // CS2 [ti+1 , ti+2 , ..., tn ]. La nouvelle
requête par réinjection d’une structure S et de 3 termes pertinents tk , tl
et tm sera de la forme :
R2’=élément cible : CS1 [t1 , w1 t2 , w2 ...ti , wi ] // CS2 [ti+1 , wi+1 ti+2 , wi+2 ...tn , wn ]
OR S [t1 , w1 t2 , w2 ...ti , wi , tk , wk tl , wl tm , wm ].
où OR est l’opérateur booléen pour exprimer la conjonction des sous
requêtes.
En général, la réécriture des deux requêtes suit la grammaire suivante (voir
tableau 3.9).
Soient R1 la réécriture d’une requête non structurée et R2 la réécriture
d’une requête structurée :
R1 : :<élément cible><contrainte structurelle><c1><Requête
initiale1><Mots Clés><c2><Suite Expressions Structurées>*
R2 : := <Requête initiale2><Suite Structures>*
Requête initiale1 : := requête non structurée
Requête initiale2 : := requête structurée
Suite Expressions Structurées : :=<Opérateur¿¡contrainte
structurelle><c1><Requête Initiale><Mots Clés><c2>
Suite
Structures
:
:=
<Opérateur><contrainte
structurelle><c1><Mots clés Cibles><Mots Clés><c2>
Opérateur : :=”OR”
élément cible : :=”//ec : ”
contrainte structurelle : :=nom de la balise extraite
Mots Clés : :=mots clés sélectionnés
Mots Clés Cibles : :=mots clés appartenant à l’élément cible de la
requête initiale
c1 : :=”[”
c2 : :=”]”
Tab. 3.6 – Grammaire de la réécriture des requêtes par injection des structures
et des mots clés.
Exemple :
Soit la requête 202 de la collection de test INEX 2005 :
Requête CO
R1= ” ontologies case study”
et requête CO+S1
R2=” article[ontologies] // ec : sec[ontologies case study] ”
sous forme de requête structurée où le terme ec marque la sous requête cible
c’est-à-dire le type d’éléments désiré par l’utilisateur.
1 Nous
rappelons qu’une requête de type CO+S est une requête comportant des
mots clés + une contrainte structurelle qui sera traitée d’une manière vague
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
116
On considère que les termes à réinjecter sont : (graph, 1), (concept, 0.6) et
que les termes de la requête initiale (”ontologies case study” ) sont pondérés
respectivement par 1, 0.3 et 0.4. On considère également ”paragraph” comme
structure pertinente à réinjecter. Les requêtes reformulées R1’ et R2’ seront :
– Requête CO :
R1’=”ec : //paragraph [ontologie,1 case,0.3 study,0.4 graph,1
concept,0.6]”
– Requête CO+S :
R2’= ” article[ontologies,1] // ec : sec[ontologies,1 case,0.3
study,0.4 ] OR paragraph [ontologies,1 case,0.3 study,0.4 graph,1
concept,0.6] ”
3.5.2
Combinaison avec dépendance contextuelle
Jusqu’à présent, nous avons considéré les termes pertinents indépendamment
des structure pertinentes.
Une hypothèse envisageable est de considérer que l’importance des termes
dépende des structures dans lesquelles ils apparaissent : leur contexte. L’intuition derrière cette hypothèse est qu’il est possible qu’il ait un lien entre les
termes pertinents et les structures pertinentes. En XML, les balises ont un rôle
syntaxique pour structurer le document mais porte également une sémantique.
On entend par sémantique d’un élément la balise qui le décrit, par exemple s’il
s’agit d’un article, d’un paragraphe, d’une référence ou d’url, il est peu envisageable de mettre une balise ”section” pour un titre de l’article.
Si l’on considère qu’une une adresse url peut présenter un élément pertinent
pour l’utilisateur, généralement, les termes extraits de cet élément ne sont pas
pertinents. D’où l’idée d’étudier la sémantique des éléments pertinents.
Notre objectif est alors de répondre à la question déjà posée : doit-on tenir
compte de la sémantique des éléments pour l’extraction des termes pertinents ?
On peut procéder d’une manière inverse. Il s’agit d’extraire des structures
pertinentes en tenant compte des termes déjà extraits (Ce cas peut être un
cas particulier de notre processus dans lequel on considère que tous les termes
des éléments pertinents sont pertinents). De ce fait, nous nous intéressons à
l’extraction des termes pertinents en fonction des structures pertinentes. Nous
distinguons dans ce cas deux approches différentes :
1. Une première est d’affecter un degré d’importance prédéfini aux différentes
structures de manière à considérer par exemple que pour deux termes
différents ayant les mêmes caractéristiques, pertinence, contexte et bruit,
le fait qu’un terme appartienne à un titre peut sembler sémantiquement
plus intéressant que celui appartenant à une section ou une référence.
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
117
Cette préférence reste assez subjective puisque c’est un jugement qui
dépend essentiellement de la requête : s’il s’agit d’une requête portant
sur une référence il sera plus intéressant d’affecter un poids plus élevé au
terme extrait d’une référence que d’un titre ou d’une section.
2. Une seconde approche est d’augmenter le poids de pertinence d’un terme
en fonction du type des structures qui sont déjà sélectionnées pertinentes
selon l’approche orientée structure. La pertinence d’un terme dépend alors
de la nature de la structure à laquelle il appartient.
Nous procédons alors de manière à restreindre l’ensemble des éléments à
partir desquels on extrait les termes pertinents. Si un élément ne fait pas partie
des structures pertinentes, il ne sera pas considéré dans la phase d’extraction des
termes. Dans ce cas la formule d’extraction déjà présentée dans le paragraphe
3.3.1.1 devient la suivante :
p
p
|
P (ti |Eres
) = peres /|Eres
(3.14)
Où
p
Eres
est l’ensemble restreint des éléments pertinents possédant des
structures pertinentes.
p
conteperes est le nombre des éléments pertinents appartenant à Eres
nant le termes ti .
On remarque que cette restriction peut affiner l’extraction des termes de
manière à ne considérer que ceux appartenant à des structures pertinentes.
Cette approche en revanche ne donne pas de poids relatifs aux termes appartenant à deux structures pertinentes différentes. On peut dire que ce sont des
poids binaires : 1, s’ils appartiennent aux structures pertinents, 0 sinon.
Cette technique peut être affinée davantage en attribuant des scores aux
structures pertinentes qui seront combinés avec le score du terme à calculer.
Ce score traduit le degré d’importance d’une structure d’un élément pertinent.
Les scores des structures seront les poids calculés dans la phase de l’extraction
des structures génériques. Nous considérons par la suite l’ensemble des couples
(structure, score) pour l’extraction des termes. Exemple : (paragraphe, 0.7),
(référence,0.4).
La nouvelle formule pour l’extraction des termes pertinents est alors la suivante :
p
p
|
(3.15)
P oids(ti , Eres
) = score(SG) × peres /|Eres
Où le score(SG) est le score da la structure générique calculé selon l’algorithme
SCA décrit dans le paragraphe 3.4.3.2.
On applique la même grammaire que pour la combinaison naı̈ve (paragraphe
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
118
3.5.1) pour la réécriture des requêtes en réinjectant les termes et les structures
sélectionnés.
3.5.3
Combinaison flexible
L’approche ci-dessus peut être considérée comme stricte : la relation de
dépendance exclut tout terme n’appartenant pas aux structures génériques.
Les termes seront donc pénalisés. Pour pallier ce problème, nous proposons
une combinaison flexible des deux sources d’évidence. On cherche alors à calculer le poids d’un terme en fonction des éléments dans lesquels il apparaı̂t.
Considérons une liste de termes et une liste de structures génériques, la combinaison flexible consiste à distribuer (répartir) les termes de manière à faire
apparaı̂tre chacun d’eux dans le type d’éléments qui le concerne (où il apparaı̂t)
pour formuler une requête du type :
”article [recherche d’information] //ec : paragraphe [reformulation
des requêtes]”
qui peut remplacer une requête du type :
”ec : article [recherche d’information et reformulation des requêtes]”.
Le processus de distribution est réalisé comme suit :
Considérons les 3 termes pertinents : ti , tj et tk et les 3 structures pertinentes
A, B et C. Nous supposons que les occurrences de chaque terme dans chaque
structures sont comme décrites dans le tableau 3.7 :
Tab. 3.7 – Distribution des termes dans les structures génériques.
A
B
C
Nombre
d’éléments
pertinents
ti
2
5
3
10
tj
6
3
0
9
tk
0
0
2
2
L’idée est de calculer la distribution d’un terme dans l’ensemble des structures
pertinentes, c’est à dire de quelle manière est distribuée sa fréquence totale dans
les différents types d’éléments. Pour un terme donné on calcule la somme de ses
occurrences dans les éléments ayant le même type X divisée par sa fréquence
totale. Ce facteur est appelé partition P art(ti , X).
PN
j=1 Occ(ti , ej )
(3.16)
P art(ti , X) = PM
k=1 Occ(ti , ek )
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
119
avec
N est le nombre des éléments (ej ) ayant une structure pertinente
de type X dans lesquels occurre le terme ti ,
M est l’ensemble des éléments pertinents dans lequel occurre ti et
Occ(ti , ej ) est le nombre d’occurrence du terme ti dans l’élément ej
D’après le tableau 3.7, les distributions du terme ti dans les différentes structures (A, B et C) sont les suivantes : 2/10, 5/10 et 3/10. On remarque alors que
le terme ti occurre plus fréquemment dans des éléments de type B. Autrement
dit, il existe une relation plus solide entre le terme ti et la structure B.
La distribution peut nous renseigner sur des relations entre termes et structures mais n’est pas assez discriminante. En effet si on considère qu’un terme
occurre autant de fois dans deux types d’éléments différents ayant des tailles
différentes, il est évident que la relation entre le terme et le type de plus petite
taille est plus intéressante que celle avec des éléments de plus grande taille. Pour
avoir alors des relations discriminantes nous avons tenu compte de la taille des
éléments. La formule qui traduit la relation entre le terme ti et structure X est
alors comme suit :
PN
j=1 Occ(ti , ej )/(|ej |)
Rel(ti , X) =
(3.17)
PM
k=1 Occ(ti , ek )
Où :
|ej | la taille (nombre de termes) de l’élément ej .
On suppose que la taille de chacun des éléments de type A, B et C est
respectivement, 30, 15 et 12. La matrice terme structure sera comme illustré
dans le tableau 3.8.
Tab. 3.8 – Les relations termes pertinents-structures génériques.
A
B
C
ti
2/300 5/150 3/120
tj
6/270 3/135 0
tk
0
0
2/24
Nous proposons alors d’intégrer cette relation sémantique au niveau de la
pondération des termes de la requête. Nous proposons de calculer un nouveau poids pour chaque terme dans chaque type d’élément. La formule de
pondération est alors la suivante :
PN
j=1 Occ(ti , ej )/(|ej |)
(3.18)
P oids(ti , A) = W (ti ) ×
PM
k=1 Occ(ti , ek )
Avec W( ti ) est le poids du terme calculé selon une des fonction de podération
déjà présentées (équation 3.5 et 3.9). Cette méthode est intéressante lorsqu’elle
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
120
concerne la réinjection de plus qu’une structure pertinente. En effet dans le
cas d’une seule structure, tous les mots-clés partagent une même contrainte
structurelle.
La réécriture des requêtes garde le même principe que précédemment. Cependant, les mots clés sont répartis dans les sous requêtes, dans lesquelles on
spécifie les différentes contraintes structurelles, de manière à ce que si un terme
pertinent n’appartient pas à un type d’élément (structure) il ne fera pas partie
des mots clés de la sous-requête utilisant ce type d’élément. Cette réécriture
est représentée dans la grammaire suivante :
Soient R1 la réécriture d’une requête non structurée et R2 la réécriture
d’une requête structurée :
R1 : :<élément cible><contrainte structurelle><c1><Requête
initiale1><Mots Clés ><c2><Suite Expressions Structurées>*
R2 : := <Requête initiale2><Suite Structures>*
Requête initiale1 : := requête non structurée
Requête initiale2 : := requête structurée
Suite Expressions Structurées : :=<Opérateur><contrainte
structurelle><c1><Requête Initiale><Mots Clés><c2>
Suite
Structures
:
:=
<Opérateur><contrainte
structurelle><c1><Mots clés Cibles><Mots Clés><c2>
Opérateur : :=”OR”
élément cible : :=”//ec : ”
contrainte structurelle : :=nom de la balise extraite
Mots Clés : :=mots clés sélectionnés appartenant à la condition structurelle spécifiée
Mots Clés Cibles : :=mots clés appartenant à l’élément cible de la
requête initiale et à la condition structurelle spécifiée
c1 : :=”[”
c2 : :=”]”
Tab. 3.9 – Grammaire de la réécriture des requêtes par injection flexible des
structures et des mots clés.
Exemple :
On considère les termes ti , tj et tk et les trois structures A, B et C à réinjecter
dans deux requêtes :
– CO R1 = t1 , t2 , ..., tn composé de n mots clés et structurée
– CO+S R2 = ec : S[t1 , t2 , ..., tn ] composée d’un élément cible de type S et
de n mots clés.
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
121
Les requêtes reformulée seront comme suit :
R1’= ec : A [(t1 , w1a ), ..., (tn , wna ), (ti , wia ), (tj , wja )]
OR B [((t1 , w1b ), ..., (tn , wnb ), (ti , wib ), (tj , wjb )] OR
C [(t1 , w1c ), ..., (tn , wnc ), (ti , wic ), (tk , wkc )]
R2’=ec :S[t1 , 1 t2 , 1 tn , 1] OR A [(t1 , w1a ), ..., (tn , wna ), (ti , wia ), (tj , wja )]
OR B [((t1 , w1b ), ..., (tn , wnb ), (ti , wib ), (tj , wjb )]
OR C [(t1 , w1c ), ..., (tn , wnc ), (ti , wic ), (tk , wkc )]
Où wia , wja , wib ... and wkc sont les poids correspondant à chaque terme sélectionné dans chaque type d’élément. w1a ,..., wna sont les poids des termes de la
requête originale dans l’élément de type A, w1b ,..., wnb sont les poids des termes
de la requête originale dans l’élément de type B et w1c ,..., wnc sont les poids
des termes de la requête originale dans l’élément de type C.
Lorsque le terme n’apparaı̂t pas dans un type d’élément son poids est égal à
zéro.
Nous supposons que tous les mots clés originaux occurrent dans tous les types
d’éléments.
Exemple :
Pour illustrer ce point, nous allons supposer les conditions résumées dans le
tableau 3.10 : sachant que la requête initiale est la requête 202 de la collection
de test INEX 2005 :
R1= ” ontologies case study” sous forme de requête non structurée et
R2=” article[ontologies] // ec : sec[ontologies case study] ” sous forme d’une
requête structurée,
où le terme ec marque la sous requête cible c’est-à-dire désirée par l’utilisateur.
On considère que les termes à réinjecter sont graph, concept, semantic, que
les structure à réinjecter sont paragraphe, titre, section et on garde les même
relations illustrées dans le tableau 3.8.
Tab. 3.10 – Distribution des termes dans les structures génériques.
paragrapah titre
soussection
ontologies 0.7
0.9
0.5
case
0.3
0.05
0.1
study
0.4
0.1
0.2
graph
0.06
0.3
0.25
concept
0.2
0.2
0
semantic
0
0
0.16
Les requêtes finale sont R1’ et R2’ :
Chapitre 3. Reformulation de requêtes par réinjection de contenu et de
structures
122
– R1’=”ec : //paragraph [ontologie,0.7 case,0.3 study,0.4 graph,0.06 concept,0.2]
OR titre [ontologie,0.9 case,0.05 study,0.1 graph,0.3 concept,0.2] OR soussection [ontologie,0.5 case,0.1 study,0.2 graph,0.25 semantic,0.16]”
– R2’=” article[ontologies,1] // ec : sec[ontologies,1 case,1 study,1 ] OR
paragraph [ontologie,0.7 case,0.3 study,0.4 graph,0.06 concept,0.2] OR
titre [ontologie,0.9 case,0.05 study,0.1 graph,0.3 concept,0.2] OR soussection [ontologie,0.5 case,0.1 study,0.2 graph,0.25 semantic,0.16]”
3.6
Conclusion
Dans ce chapitre, nous avons présenté des approches de réinjection de pertinence qui répondent aux caractéristiques de la RI structurée. Nous avons alors
proposé trois différentes approches :
1. Une approche orientée contenu qui permet d’enrichir la requête initiale
en réinjectant des mots clés. Ces mots clés sont tout d’abord extraits à
partir des éléments jugés pertinents en utilisant différents indicateurs : la
distribution des termes dans les éléments pertinents, la proximité de ces
termes vis-à vis ceux de la requête initiale et enfin le bruit qu’ils peuvent
engendrer s’ils sont fréquents dans les éléments non pertinents.
2. Une approche orientée structure qui permet de réinjecter une ou plusieurs
structures pertinentes. Nous avons alors commencé par montrer empiriquement l’existence de la notion de structures pertinentes. Nous avons
ensuite défini un algorithme (SCA) pour l’extraction des structures pertinentes appelées ici structures génériques. Nous avons également proposé
une solution d’extraction des structures génériques dans des collections de
documents hétérogènes, c’est ce que nous avons appelée classe de structures.
3. Une troisième approche combine les deux premières afin d’enrichir la
requête initiale en y ajoutant à la fois des termes et des structures pertinents. Nous avons présenté alors trois formes de combinaison : une naı̈ve
qui s’applique au niveau de la réécriture de la requête, une seconde qui traduit la dépendance entre les deux approches et une troisième plus flexible
qui permet d’exprimer des relation ”sémantiques” entre les termes et les
structures. Cette dernière répartit les termes pertinents dans les structures pertinentes adéquates.
Le dernier chapitre est consacré à la phase de mise à l’épreuve de nos propositions sur les collections INEX.
Chapitre 4
Evaluations & Expérimentations
4.1
Introduction
Pour évaluer les différentes approches proposées dans cette thèse, nous nous
appuyons sur les collections de test fournies dans le contexte d’INEX.
Dans ce chapitre, nous nous intéressons à la construction de l’échantillon
d’éléments renvoyés par le système à considérer pour l’extraction des évidences
(termes +structures) ainsi qu’à l’étude qualitative des différentes approches
présentées dans le chapitre précédent. Nous commençons par introduire notre
plateforme d’évaluation dans la section 4.2, à savoir le système de recherche
XFIRM, les collections de test INEX ainsi que les différentes stratégies d’évaluation utilisées dans nos expérimentations. Dans la section 4.3, nous évaluons
l’impact du nombre d’éléments jugés sur les performances. Nous évaluons ensuite les performances des différentes approches proposées : l’approche orientée
contenu (section 4.4), l’approche orientée structure (section 4.5) et l’approche
combinée (sections 4.6). Nous présentons dans la section 4.7, l’impact du type
de jugements de pertinence et des résultats de base1 sur les performances de nos
approches. Nous finissons dans la section 4.8 par présenter nos expérimentations
sur la réinjection à itérations multiples ainsi que sur la réinjection aveugle.
1 Les
résultats de base sont donnés par le système de recherche XFIRM
Chapitre 4. Evaluations & Expérimentations
4.2
Plateforme pour l’évaluation
4.2.1
Le système de recherche XFIRM
124
Nous avons évalué nos approches en utilisant le système de recherche XFIRM
[166]. Ce système est basé sur une méthode de propagation de pertinence. Des
valeurs de pertinence sont d’abord calculées pour les différents noeuds feuilles
(c’est à dire les noeuds contenant du texte). Ces valeurs sont par la suite propagées et agrégées vers les noeuds ancêtres.
Nous détaillons le modèle dans ce qui suit, à savoir la méthode d’évaluation
de pertinence des noeuds feuilles, ainsi que l’évaluation de la pertinence des
noeuds ancêtres dans le cadre des requêtes non structurées et structurées.
4.2.1.1
Évaluation de pertinence des noeuds feuilles
Si on considère un noeud feuille (nf ) et une requête q composée de n mots
clés (c’est à dire une requête de type CO dans la terminologie d’INEX), la
valeur de pertinence du noeud feuille sera calculée en utilisant la fonction de
similarité RSV(q,nf ) suivante [139] :
RSV (q, nf ) =
n
X
wjq × wjnf
(4.1)
j=1
Où :
wjq = tfjq est le poids du terme j dans la requête q et wjnf =
tfjnf × idfj × iefj est le poids du terme j dans le noeud feuille
nf .
Cette pondération permet d’exprimer à la fois l’importance des termes dans
la collection de noeuds feuilles et la collection de documents.
tfjq et tfjnf sont respectivement la fréquence du terme j dans la requête q et
dans le noeud feuille nf ,
idfj = log(|D|/(|dj | + 1)) + 1, avec |D| le nombre total des documents dans la
collection, |dj | le nombre de documents contenant le terme j,
et iefj est la fréquence inverse d’élément du terme j, c’est à dire log(|N F |/|nfj |+
1) + 1, où |nfj | est le nombre de noeuds feuille contenant le terme j et |N F |
est le nombre total de noeuds feuilles dans la collection.
La valeur de pertinence d’un noeud interne n (différent d’un noeud feuille)
est calculée différemment par propagation de pertinence selon le type de requête
(structurée ou non structurée).
Chapitre 4. Evaluations & Expérimentations
4.2.1.2
125
Propagation de pertinence dans une requête non structurée
On attribue pour chaque noeud de l’arbre du document une valeur de pertinence calculée en fonction des valeurs de pertinence des noeuds feuilles qui
lui appartiennent. La valeur de pertinence d’un noeud interne n, définie par
RSV (q, n), est calculée comme suit :
X
αdist(n,nfk )−1 ∗ RSV (q, nfk )
(4.2)
RSV (q, n) = |Fnp |
k=1..Fn
Où
les nfk sont les noeuds feuilles descendants du noeud n, dist(n, nfk )
est la distance entre le noeud n et le noeud feuille nfk dans l’arbre
du document (c’est à dire le nombre d’arcs nécessaires pour atteindre le noeud n en partant du noeud feuille nfk ),
|Fnp | est le nombre de noeuds feuilles descendants du noeud n ayant
un score différent de zéro,
Fn est le nombre total de noeuds feuilles descendants de n, et
α ∈]0..1].
On peut également intégrer dans la mesure du score la pertinence que l’on accorde au document entier. On parle alors de pertinence contextuelle. La valeur
de pertinence d’un noeud interne est défini alors comme suit :
X
pn = ρ ∗ |Fnp |
αdist(n,nfk )−1 ∗ RSV (q, nfk ) + (1 − ρ) ∗ pracine
(4.3)
k=1..N
avec pracine la pertinence du noeud racine du document, calculée d’après l’équation 4.2. ρ ∈ [0..1] est le paramètre servant de pivot et permettant d’ajuster
l’importance de la pertinence du noeud racine.
4.2.1.3
Propagation de pertinence dans une requête structurée
Les requêtes structurées les plus précises se présentent sous le format suivant :
Q = RE//ec : RE//RE
où RE est une requête élémentaire de la forme :
RE = tg1 [t11 , t12 , ...t1n ] OR tg2 [t21 , t22 , ...t2n ] OR...
avec tgi un nom de balise qui représentant une contrainte structurelle.
Les // entre les requêtes RE permettent d’exprimer des contraintes hiérarchiques
et ec : permet de désigner les éléments cibles de la requête c’est à dire les
éléments devant être renvoyés à l’utilisateur.
L’évaluation des requêtes est réalisée à travers les étapes suivantes :
Chapitre 4. Evaluations & Expérimentations
126
1. Les requêtes sont décomposées en sous-requêtes élémentaires SRE, ayant
la forme : SRE = tg[q], où q = t1 , ..., tn présente une contrainte sur le
contenu composée de simples mots clés.
2. Les valeurs de pertinence sont par la suite calculées entre les noeuds
feuilles et les conditions portant sur le contenu des sous requêtes élémentaires.
3. Les valeurs de pertinence sont propagées dans l’arbre du document afin
de répondre aux contraintes structurelle des sous-requêtes élémentaires.
4. Les requêtes élémentaires RE sont ensuite évaluées en appliquant l’opérateur OR entre les sous requêtes élémentaires. Le résultat d’une RE est
un ensemble de noeuds et les pertinences associées.
5. Pour évaluer les conditions de hiérarchie de la requête originale, les ensembles résultats des requêtes élémentaires sont combinées grâce à l’opérateur non-commutatif ∆ défini ci-dessous. Cet opérateur permet de propager les pertinences des noeuds résultats de différentes RE vers les noeuds
résultats de la requête élémentaire désignant les éléments cibles. Cette
propagation est uniquement effectuée si les conditions hiérarchiques de la
requête sont vérifiées dans les documents.
Soient deux ensembles de paires (noeud, pertinence) Ri = (n, pn ) et
Ri+1 = (m, pm )
Ri ∆Ri+1 = (n, p′n )
(4.4)
avec
½
pn + propag (dist(m, n), pn , pm ) si n ∈ Ri est Ancetre de m ∈ Ri+1
pn sinon
(4.5)
Où propag (dist(m, n), pn , pm ) → p′n permet d’agréger les pertinences pm
du noeud m et pn du noeud n en fonction de la distance qui sépare les
deux noeuds, pour obtenir la nouvelle pertinence p′n du noeud n.
Dans la troisième étape, la valeur de pertinence pn d’un noeud n pour une sous
requête élémentaire SRE = tg[q] est calculée selon la formule suivante :
½ P
dist(n,nfk )−1
∗ RSV (q, nfk ) si n ∈ construct(tg)
nfk ∈Fn α
(4.6)
pn =
0 sinon
p′n
=
où le résultat de la fonction construct(tg) est l’ensemble des noeuds ayant tg
comme nom de balise, et RSV (q, nfk ) est calculée dans l’étape 2 avec l’équation
4.1. La fonction construct(tg) utilise un index Dictionnaire qui présente pour
une balise tg donnée les balises qui lui sont considérées équivalentes.
Pour évaluer des requêtes structurées en considérant les contraintes structurées
comme vagues, on utilise l’index Dictionnaire composé d’équivalences étendues.
Par exemple, un noeud de type section peut être considéré équivalent aux
noeuds de type paragraphe ou aussi body. Ce dictionnaire est construit manuellement.
On trouvera plus de détails sur le modèle XFIRM dans [166].
Chapitre 4. Evaluations & Expérimentations
4.2.2
127
Rappel sur les collections de test
Nous nous basons pour l’évaluation des performances sur la collection de
test fournie dans le cadre de la campagne d’évaluation INEX (INitiative for the
Evaluation of XML Retrieval ).
Dans le premier chapitre, nous avons présenté les différentes tâches et mesures
proposées depuis la mise en place de cette campagne. Dans cette section, nous
nous focalisons sur les stratégies et les mesures appliquées dans la tâche Relevance Feedback en 2005 et 2006.
4.2.2.1
Collection de documents
Les collections de documents diffèrent entre 2005 et 2006 :
– En 2005, la collection présente une extension de la collection 2004 composée d’articles scientifiques provenant de la IEEE Computer Society,
balisés au format XML. Elle comporte environ 17000 articles publiés de
1995 à 2004 provenant de 21 magazines ou revues différents ayant une
taille totale d’environ 1,3 gigaoctets. En moyenne, un article contient
1532 noeuds XML, où la profondeur moyenne d’un noeud est 6.9. La collection contient au total 8 millions de noeuds et 180 balises différentes.
– En 2006, la collection est composée de 659388 documents en anglais
issus de l’encyclopédie en ligne de Wikipedia [47] pour une taille totale d’environ 5 gigaoctets. Elle contient environ 5000 balises différentes.
En moyenne un article contient 161.35 noeuds XML, où la profondeur
moyenne d’un élément est 6.72.
4.2.2.2
Topics
Les topics, c’est à dire les thèmes à partir desquels les requêtes sont construites,
sont créés par les différents participants et doivent être représentatifs des demandes de l’utilisateur sur la collection. On distingue deux types de requêtes :
– Les CO (Content Only) : ce sont des requêtes composées de simples mots
clés. Les mots clés de la requête peuvent être éventuellement groupés sous
forme d’expressions et précédés par les opérateurs ’+’ (signifiant que le
terme est obligatoire) ou ’-’ (signifiant que le terme ne doit pas apparaı̂tre
dans les éléments renvoyés à l’utilisateur).
– Les CAS (Content And Structure) : ces requêtes contiennent des contraintes
Chapitre 4. Evaluations & Expérimentations
128
sur la structure des documents.
Les tâches de recherche proposées pour chaque type de requêtes en 2005
diffèrent de celles de 2006. Nous distinguons en ce qui concerne la tâche de
Relevance Feedback :
– En 2005, des requêtes de type CO (40 requêtes dont 28 ont été jugées)
ont été traitées dans une tâche CO dans laquelle on considère uniquement leur contenu (titre composé de mots clés) et dans une tâche CO+S
dans laquelle on considère le même contenu que la requête CO avec
une contrainte structurelle vague. Pour les requêtes structurées CAS (47
requêtes dont 12 ont été jugées), on n’a considéré que la tâche VVCAS2 .
– En 2006, un seul ensemble de requêtes a été proposé. Il a été traité selon
deux tâches : CO et CO+S. Les requêtes sont au nombre de 125 dont 114
ont été jugées.
Dans la tâche Relevance Feedback seule la stratégie Thorough de recherche est
appliquée pour les différents types de requêtes. On rappelle que dans la stratégie
Thorough, on suppose qu’un utilisateur préfère retrouver tous les élément fortement pertinents.
4.2.2.3
Jugements de pertinence
Comme nous l’avons déjà introduit dans le premier chapitre, le jugement
de pertinence en RI structurée concerne 2 dimensions : l’exhaustivité et la
spécificité. En 2005, l’exhaustivité est mesurée selon une échelle à 4 niveaux :
exhaustivité { e=2 exhaustivité élevée
e=1 exhaustivité moyenne
e=0 pas d’exhaustivité
e= ? élement trop petit
En 2006, tous les éléments jugés pertinents sont d’exhaustivité=2.
La spécificité est mesurée dans un intervalle continu [0,1] où s=1 représente un
élément totalement spécifique.
Pour obtenir des résultats de performance, les 2 dimensions de pertinence (exhaustivité et spécificité) sont agrégées en une seule valeur. Deux types de fonction d’agrégation sont utilisées :
2 On
rappelle que dans la tâche VVCAS le jugement de pertinence est fait selon le
champ narrative de la requête, c’est à dire la contrainte structurelle n’est pas prise
en compte.
Chapitre 4. Evaluations & Expérimentations
129
– une agrégation ”stricte” pour évaluer si un SRI est capable de retrouver
des éléments très spécifiques et très exhaustifs
½
1 si e = 2 et s = 1
(4.7)
fstrict (e, s) =
0 sinon
– une agrégation ”généralisée” pour évaluer les éléments selon leur degré
de pertinence
fgeneralisee (e, s) = e ∗ s
(4.8)
4.2.2.4
Mesures d’évaluation
Les mêmes mesures ont été utilisées dans INEX 2005 et INEX 2006. Elles reposent sur deux principales mesures que nous allons utiliser durant nos expérimentations :
– La mesure xCG (le gain cumulé ) : on utilise la forme normalisée nxCG[i].
Pour un rang donné i, le gain cumulé nxCG[i] reflète le gain relatif de
l’utilisateur accumulé jusqu’à ce rang, comparé à ce qu’il aurait du atteindre si le système avait produit une liste triée optimale.
Le M AnXCG[i] est la moyenne des gains cumulés jusqu’au rang i.
– Par analogie au gain cumulé, on définit l’effort-précision (ep(r))
L’effort-précision (ep(r)) est calculé à des points de gain-rappel arbitraires, où le gain-rappel gr est la valeur du gain cumulé divisé par la
valeur totale atteignable du gain cumulé.
L’effort-précision à une valeur donnée de gain-rappel mesure l’effort d’un
utilisateur pour atteindre un gain relatif au gain total qu’il peut obtenir.
On utilise dans nos expérimentations la moyenne non interpolée MAep
(Mean Average Effort Precision). Elle permet de moyenner les valeurs
d’effort-précision pour chaque rang auquel un élément pertinent est renvoyé.
Par analogie aux courbes de rappel précision en RI classique, nous utilisons dans
ce contexte les courbes de variation d’effort-précision en fonction des points du
gain-rappel.
Nous rappelons également que l’évaluation de la réinjection de pertinence est
mesurée par l’amélioration relative AR définie dans la section 2.5.2 du second
chapitre.
Chapitre 4. Evaluations & Expérimentations
4.2.3
130
Stratégies d’évaluation
Pour mettre en relief l’impact de nos approches sur la restitution de nouveaux éléments pertinents, les différentes expérimentations que nous avons
menées ont été évaluées selon la stratégie résiduelle. On rappelle que la stratégie
résiduelle évalue les requêtes initiales et la reformulation sur une collection
résiduelle ne contenant plus les éléments jugés.
Nous utiliserons la stratégie d’évaluation ”freezing” adoptée pour les résultats
officiels de la campagne d’évaluation INEX à la fin de nos expérimentations.
Ces résultats sont présentés dans la section 4.9.
4.2.4
Résultats de base
Pour évaluer les performances de nos approches, nous devons tout d’abord
fixer les résultats de base à partir desquels nous allons construire notre échantillon
pour la reformulation. Ces résultats seront par la suite comparés à ceux obtenus
après reformulation en appliquant les mêmes paramètres de recherche.
Pour ce faire, nous avons considéré les tâches de recherche CO, CO+S et VVCAS de la collection 2005 et CO et CO+S de la collection 2006 pour retrouver
la valeur du paramètre α du système de recherche XFIRM qui permet d’avoir
les meilleurs résultats. α est une constante qui varie dans un intervalle ]0..1].
Pour juger les meilleures performances du système, nous privilégions les valeurs
obtenues avec une agrégation stricte (les éléments strictement pertinents traduisent d’une manière exacte les besoins de l’utilisateur) ainsi que les MAep,
présentant une mesure de performance globale sur l’ensemble des éléments retournés par le système de recherche (alors que les MAnxCG présentent des
performances dans des points précis de la liste des éléments restitués).
Nous résumons dans le tableau 4.1 les valeurs du paramètre α permettant
d’obtenir les meilleurs résultats de base pour chaque type de requête de chaque
collection. Nous présentons les mesures MAep et MAnxCG[10] avec les deux
fonctions d’agrégation (généralisée et stricte). Notons que les faibles valeurs
de α permettant d’obtenir des résultats optimaux privilégient les éléments de
petite taille dans la liste des résultats. Dans le cas des requêtes CO, le paramètre
ρ est fixé à 0 (donnant les meilleurs résultats). Lorsque ρ = 0, seule la pertinence
du document entre en compte pour le calcul de la pertinence des éléments.
Nous utiliserons pour relancer la recherche après reformulation les mêmes
valeurs des constantes (α et ρ) que celles ayant permis d’obtenir les meilleurs
résultats de base.
Chapitre 4. Evaluations & Expérimentations
131
Tab. 4.1 – Résultats de base des collections 2005 et 2006.
MAnxCG MAep
MAnxCG
MAep Rang/Nombre
[10] gen
gen
[10] stricte stricte
de
participants
CO
2005 0.1532
0.0457
0.0438
0.0156
29/55
(α = 0.2)
CO+S 2005 0.2986
0.0568
0.1277
0.0316
3/33
(α = 0.1)
VVCAS
0.2532
0.0499
0.1189
0.0382
9/28
2005
(α = 0.1)
CO
2006 0.2356
0.0205
0.1319
0.0132
26/106
(α = 0.2)
CO+S 2006 0.2016
0.0079
0.1749
0.0045
77/106
(α = 0.1)
4.2.5
Démarche d’évaluation
La démarche que nous adoptons pour évaluer nos différentes propositions
est la suivante. Nous allons commencer tout d’abord par évaluer l’impact de
l’échantillon et du choix du nombre d’éléments jugés pour les différentes tâches
des deux collections. Nous évaluons ensuite chacune des approches proposées.
Les approches seront testées dans l’ordre de leur présentation dans le chapitre
précédent : orientée contenu, orientée structure et approche combinée.
Afin de tirer des conclusions générale sur l’intérêt d’un point ou une proposition, nous commençons d’abord par observer les résultats obtenus sur les
différentes tâches (CO, CO+S, VVCAS) pour les deux collections considérées,
puis nous faisons un bilan global à partir de toutes les observations.
4.3
Échantillonnage
Un échantillon est principalement caractérisé par :
– le nombre d’éléments jugés,
– le nombre d’éléments jugés pertinents. Ce facteur influence directement
les approches utilisées. En effet, si le nombre d’éléments pertinents est
faible, voire nul, il sera difficile de déceler des termes pertinents ainsi que
des structures pertinentes pouvant enrichir la requête initiale. Dans le cas
où l’ensemble des éléments pertinents est vide, on ne peut pas appliquer
la réinjection de pertinence.
Chapitre 4. Evaluations & Expérimentations
132
– la nature du jugement de pertinence : c’est à dire si les éléments qui
constituent l’échantillon sont jugés strictement (éléments très spécifiques
et très exhaustifs) ou selon la fonction d’agrégation généralisée3 .
Notre objectif est d’améliorer les performances du système en utilisant les
mêmes conditions d’expérimentation (mêmes caractéristiques de l’échantillon).
Nous nous intéressons en particulier à améliorer les performances du système
de recherche en se basant sur des éléments strictement pertinents traduisant
exactement le besoin de l’utilisateur. Nous ne considérons alors que les éléments
jugés strictement pertinents pour la construction de l’échantillon. Dans les paragraphes suivants, nous allons évaluer l’impact du nombre d’éléments jugés
ainsi que le nombre d’éléments jugés pertinents.
Nous utiliserons pour relancer la recherche après reformulation les mêmes
valeurs des constantes (α et ρ) que celles ayant permis d’obtenir les meilleurs
résultats de base. Nous avons appliqué :
– la reformulation orientée contenu (ROC ) en réinjectant un seul terme
pertinent. Pour la pondération des termes de la nouvelle requête, nous
avons utilisé le poids Probabiliste-Contextuel (Prob-Cont) calculé selon
l’équation 3.5. Les termes réinjectés n’apparaissent pas dans la requête
initiale.
– la reformulation orientée structure (ROS ) en réinjectant une seule structure générique extraite en appliquant l’algorithme SCA.
– la reformulation combinée naı̈ve (RCN ) en réinjectant un terme pertinent
(on utilise les mêmes paramètres que ceux de ROC ) et une structure
générique extraite aussi en appliquant l’algorithme SCA.
D’autres valeurs ainsi que d’autres mode de combinaison seront testés par la
suite dans les sections consacrées à l’évaluation de chacune des approches.
Nous rappelons aussi que les évaluations sont effectuées en appliquant la stratégie
résiduelle. Pour permettre une meilleure lisibilité, les cas où nous n’obtenons
pas d’améliorations seront représentés par des cellules vides (-).
4.3.1
Choix du nombre d’éléments jugés
D’après le protocole d’évaluation adopté par la campagne INEX, on considère
les 20 premiers éléments retournés par le système de base pour construire
l’échantillon et on utilise la stratégie de ”freezing”. Or nous supposons que
le choix des 20 premiers éléments n’est pas forcément le meilleur pour tous les
systèmes. En effet, si un système est assez performant, un nombre plus faible
peut être efficace et dans le cas où le système ne retourne pas d’éléments perti3 On
rappelle que la fonction d’agrégation généralisée traduit le fait qu’un élément
pertinent peut avoir différents degrés de spécificité et d’exhaustivité
Chapitre 4. Evaluations & Expérimentations
133
nents dans les 20 premiers éléments, il sera plus important d’élargir l’ensemble
des éléments à juger.
En réalité il n’existe pas de taille idéale pour construire l’échantillon. Ce dernier
dépend directement :
– Des performances du système de base qui sont liées aux types des requêtes.
En effet, les résultats diffèrent d’un type à un autre. On le constate par
exemple dans le tableau récapitulatif des résultats des différents participants d’INEX. Par exemple en 2005, le système de recherche XFIRM
se classe le 3eme dans le cas des requêtes de type CO+S alors qu’il est à
la 22eme place dans le cas des requêtes de type CO. Par conséquent, le
nombre d’éléments jugés pertinents n’est pas le même dans les n premiers
résultats retournés par le système de recherche. On remarque également
dans le cas de collection 2006, que malgré une meilleure expressivité des
requêtes CO+S (comportant mots clés et structures), les résultats ne sont
pas meilleurs que ceux obtenus par des requêtes CO (comportant que des
des mots clés)
– De la collection : on remarque dans le tableau 4.1 que pour le même type
de requêtes, on ne retrouve pas les mêmes performances. Par exemple la
MAep stricte des requêtes CO+S dans la collection 2005 et celle de 2006
sont respectivement, 0.0316 et 0.0045.
– De l’approche utilisée pour la réinjection de pertinence : puisque nous
proposons différents processus pour l’extraction des termes et des structures pertinents, un nombre d’éléments pertinents peut être suffisant pour
extraire une évidence mais pas pour une autre.
Dans ce paragraphe, nous allons étudier à travers des expérimentations la
construction de l’échantillon selon les différents cas envisagés. Nous allons alors
faire varier le nombre des éléments jugés pour chaque type de tâche de recherche
(CO, CO+S VVCAS), dans chaque collection (2005 et 2006) et en utilisant les
différentes approches : ROC, ROS et RCN. Le nombre d’éléments jugés varie
dans l’ensemble {10, 20, 50}. Nous allons présenter les différents résultats par
type de tâche.
4.3.1.1
Tâche CO
Les tableaux 4.2 et 4.3 listent les valeurs des améliorations relatives (AR)
obtenues selon le nombre d’éléments jugés (Nb-Elt-Jugés) dans le cas des requêtes
CO (comportant que des mots clés) de la collection 2005 et 2006. Le terme
”Base” désigne les résultats de base obtenus sur la collection résiduelle.
Dans le cas de la collection 2006, les valeurs qui correspondent aux nombres
d’éléments jugés 10 et 20 ne sont pas représentées car aucune amélioration n’est
Chapitre 4. Evaluations & Expérimentations
134
Tab. 4.2 – Impact du nombre d’éléments jugés sur l’échantillon dans le cas de
la tâche CO de la collection 2005
App
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-EltBase
0,1525
0,0401
0,0617
0,0137
Jugés=10
ROC
14%
31%
–
–
ROS
101%
76%
49%
110%
RCN
70%
65%
–
50%
Nb-EltBase
0,1393
0,0379
0,0386
0,01
Jugés=20
ROC
48%
43%
–
10%
ROS
120%
87%
138%
188%
RCN
86%
75%
55%
106%
Nb-EltBase
0,1736
0,0551
0,0269
0,0064
Jugés=50
ROC
0%
0%
–
64%
ROS
77%
28%
242%
350%
RCN
55%
23%
139%
230%
observée pour ces cas.
Le premier résultat intéressant que l’on observe, en particulier pour la collection 2005 est que nos trois approches apportent des améliorations significatives comparées aux résultats de base. Nous remarquons également que
nous obtenons deux différents comportements selon la collection et l’approche
considérées. En effet, on constate des améliorations significatives, en particulier
pour les mesures généralisées dans le cas de la collection 2005 pour les différents
nombre d’éléments jugés et pour les différentes approches. Concernant les mesures strictes on observe des améliorations claires, en particulier au niveau de la
MAep, à partir de 20 éléments jugés. Les résultats sont beaucoup plus mitigés
Tab. 4.3 – Impact du nombre d’éléments jugés sur l’échantillon dans le cas de
la tâche CO de la collection 2006
Tâches
App
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-EltBase
0,142
0,0122
0,1065
0,0069
Jugés=50
ROC
4%
–
13%
4%
ROS
–
–
15%–
–
RCN
–
–
8%
–
Chapitre 4. Evaluations & Expérimentations
135
Tab. 4.4 – Impact du nombre d’éléments jugés sur l’échantillon dans le cas de
la tâche CO+S de la collection 2005
Tâches
App
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-EltBase
0,2081
0,0461
0,1071
0,0444
Jugés=10
ROC
–
13%
–
–
ROS
3%
15%
–
–
RCN
3%
14%
–
–
Nb-EltBase
0,1741
0,0407
0,0558
0,0197
Jugés=20
ROC
8%
33%
46%
30%
ROS
3%
22%
5%
32%
RCN
7%
23%
41%
32%
Nb-EltBase
0,1027
0,028
0,0277
0,0085
Jugés=50
ROC
45%
46%
157%
23%
ROS
29%
46%
–
–
RCN
32%
46%
97%
16%
pour la collection 2006. On ne constate pas d’améliorations spécifiques, hormis,
une légère amélioration au niveau de MAnxCG[10] stricte pour 50 éléments
jugés. Nous discuterons le nombre de requêtes qui améliorent les performances
vis-à-vis de celles qui le détériorent dans la section 4.3.3.
Nous n’avons pas d’explication rationnelle quant à la différence des résultats
entre ces deux collections. Nous pensons néanmoins que les deux collections
n’ont pas les mêmes caractéristiques (nombre de balise, profondeur moyenne
d’un noeud,...), et que ces caractéristiques influencent la performance du système
de recherche ainsi que notre processus de réinjection de pertinence.
4.3.1.2
Tâche CO+S
Les tableaux 4.4 et 4.5 listent les valeurs des améliorations relatives obtenues
selon le nombre d’éléments jugés (Nb-Elt-Jugés) dans le cas de la tâche de
recherche CO+S des collections 2005 et 2006.
Le premier résultat que l’on peut tirer de ces deux tableaux est que nos
différentes approches apportent des améliorations claires, en particulier à MAnxCG[10] pour les deux mesures considérées et à partir de 20 éléments jugés.
Le comportement au niveau de la MAep diffère dans les deux cas. En effet les
Chapitre 4. Evaluations & Expérimentations
136
Tab. 4.5 – Impact du nombre d’éléments jugés sur l’échantillon dans le cas de
la tâche CO+S de la collection 2006
Tâches
App
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-EltBase
0,1299
0,0062
0,1115
0,0035
Jugés=10
ROC
–
–
17%
–
ROS
9%
–
12%
–
RCN
14%
–
16%
–
Nb-EltBase
0,1224
0,0054
0,1114
0,0031
Jugés=20
ROC
15%
–
14%
–
ROS
16%
–
15%
–
RCN
19%
–
18%
–
Nb-EltBase
0,0901
0,004
0,0717
0,0019
Jugés=50
ROC
33%
–
48%
10%
ROS
30%
–
36%
0%
RCN
47%
–
54%
0%
améliorations des MAep ne concernent que la collection 2005.
4.3.1.3
Tâche VVCAS
Le tableau 4.6 liste les valeurs des améliorations relatives obtenues selon le
nombre d’éléments jugés (Nb-Elt-Jugés) dans le cas de la tâche VVCAS de la
collection 2005.
On constate des améliorations significatives, en particulier à MAnxCG[10]
pour toutes les approches pour un nombre d’éléments jugés égal à 10 et 20.
Un résultat surprenant, très positif, concerne la mesure stricte. En effet, on
constate des améliorations très significatives pour toutes les approches et tous
les gains considérés. Cette amélioration montre en outre un accroissement clair,
en particulier au niveau de MAep strict, proportionnel au nombre d’éléments
jugés.
En termes de tâches, nous remarquons que nos approches ont des impact très
positifs dans la tâche VVCAS vis-à-vis les autres tâches. Ces résultats sont à
considérer avec prudence car le nombre de requêtes considérées dans cette tâche
est faible en le comparant aux autres tâches. En effet, parmi les 12 requêtes
jugées, les requêtes ayant des éléments pertinents dans les 10, 20 et 50 premiers
Chapitre 4. Evaluations & Expérimentations
137
Tab. 4.6 – Impact du nombre d’éléments jugés sur l’échantillon dans le cas de
la tâche VVCAS de la collection 2005
Tâches
App
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-EltBase
0,22
0,0469
0,1177
0,0282
Jugés=10
ROC
7%
–
56%
147%
ROS
19%
1%
83%
160%
RCN
13%
2%
56%
146%
Nb-EltBase
0,1425
0,0437
0,0904
0,0224
Jugés=20
ROC
51%
–
84%
187%
ROS
34%
0%
63%
197%
RCN
33%
4%
69%
207%
Nb-EltBase
0,1772
0,0423
0,0927
0,0209
Jugés=50
ROC
–
–
63%
195%
ROS
–
–
63%
214%
RCN
–
–
64%
213%
éléments sont au nombre de 5, 6 et 8 (voir tableau 4.7). Ceci explique aussi
le comportement brutal de cette tâche au niveau des mesures généralisées en
considérant le nombre d’éléments jugés de 20 et 50, autrement dit, une seule
requête peut influencer sur significativement le résultat global.
4.3.1.4
Discussion et bilan
Un premier résultat important que l’on peut tirer de ces premières expérimentations est qu’on observe des améliorations souvent significatives à partir des 10
premiers éléments retournés (MAnxCG[10]) et/ou au niveau de la MAep pour
les deux mesures strictes et généralisées et pour toutes les tâches considérées
en jugeant les 20 premiers éléments hormis la tâche CO 2006.
Nous remarquons également que les approches ont un comportement très variable selon l’agrégation considérée (stricte/généralisée), les tâches et les collections, en particulier dans le cas de la tâche VVCAS, où les améliorations
strictes sont beaucoup plus importantes que celles généralisées.
Afin de bien mettre en évidence l’impact du nombre d’éléments jugés,
nous avons calculé la moyenne du nombre d’éléments pertinents dans chaque
échantillon parmi les 10, 20 et 50 premiers éléments retournés par le systèmes.
Chapitre 4. Evaluations & Expérimentations
138
Tab. 4.7 – Moyennes des éléments jugés pertinents dans les échantillons
NRP
MEP
NRP
MEP
NRP
MEP
(Top
(Top
(Top
(Top
(Top
(Top
50)
10)
10)
20)
20)
50)
CO 2005
15/28
2.47
15/28
4.67
17/28
7.35
CO+S
9/28
3.11
12/28
3.83
17/28
6.47
2005
VVCAS
5/12
2.8
6/12
4.83
8/12
8.88
2005
CO 2006
51/114 2.78
63/114 5.52
81/114 11.58
CO+S
65/114 2.31
77/114 3.34
88/114 6.10
2006
Le tableau 4.7 résume, pour chaque type de tâches de recherche de chaque collection, le nombre de requêtes ayant des éléments pertinents (NRP) et le nombre
moyen d’éléments jugés pertinents par requête (MEP). Pour cette dernière mesure, on ne considère pas les requêtes n’ayant aucun élément pertinent.
D’après le tableau 4.7, nous constatons que le nombre d’éléments jugés pertinents dans les 10 premiers éléments retournés par le système de recherche est
généralement inférieur à 3. Ceci peut expliquer les cas souvent observés où nous
n’obtenons pas d’améliorations ou bien des améliorations non significatives en
considérant les 10 premiers éléments dans la construction de l’échantillon. De
plus on constate que le nombre de requêtes ayant des éléments pertinents varie
entre 6 et 17 pour la collection 2005. Ceci peut avoir des effets incontrôlables au
niveau des performances. Ainsi, afin d’assurer un minimum d’éléments pertinents dans un échantillon, nous proposons de construire un échantillon non pas
en fixant le nombre d’éléments jugés mais en fixant le nombre d’éléments
jugés pertinents.
Nous allons étudier l’impact du nombre d’éléments pertinents sur les performances de notre système dans le paragraphe suivant.
Étant donné qu’en général, nous obtenons des améliorations significatives en
considérant des échantillons construits à partir de 20 éléments pertinents (excepté le cas de la tâche CO de la collection 2006), nous allons focaliser notre
étude pour des valeurs qui ne dépassent pas 5 éléments jugés pertinents. Nous
ne considérons pas la tâche CO de la collection 2006 dans cette étude car aucune
amélioration n’a été observée pour cette tâche.
Chapitre 4. Evaluations & Expérimentations
139
Tab. 4.8 – Impact du nombre d’éléments jugés pertinents sur l’échantillon dans
le cas de la tâche CO de la collection 2005
Tâches
App
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-Elt- Base
0,2367
0,0409
0,0757
0,0175
Pert=1
ROC
–
28%
–
–
ROS
28%
60%
22%
58%
RCN
2%
48%
–
–
Nb-Elt- Base
0,2258
0,0355
0,1235
0,0307
Pert=3
ROC
–
61%
–
–
ROS
37%
95%
–
–
RCN
23%
85%
–
–
Nb-Elt- e Base 0,213
0,0352
0,078
0,0202
Pert=5
ROC
–
63%
–
–
ROS
45%
97%
18%
45%
RCN
30%
86%
–
20%
4.3.2
Choix du nombre d’éléments jugés pertinents dans
un échantillon
Dans ce paragraphe nous varions le nombre des éléments jugés pertinents
(Nb-Elt-Pert) dans l’ensemble {1, 3, 5}. Cette étude est effectuée pour les
différentes tâches. Nous représentons les pourcentages des améliorations relatives pour les différentes mesures.
Les tableaux 4.8, 4.9, 4.11 et 4.10 présentent respectivement l’impact du nombre
d’éléments jugés pertinents sur l’échantillon dans le cas des tâches de recherche
CO+S et VVCAS de la collection 2005 et dans le cas de la tâche CO+S de la
collection 2006.
Tout d’abord pour la collection 2005, d’une manière générale, dans le cas
des tâches CO et CO+S, les meilleures performances ainsi que les meilleurs
taux d’amélioration sont obtenus en considérant un échantillon composés de 3
éléments pertinents excepté dans quelques cas comme par exemple le cas de
l’agrégation stricte de la tâche CO de la collection 2005 (tableau 4.8). Trois
éléments pertinents semblent donc présenter un nombre suffisant pour appliquer la reformulation.
Concernant les requêtes CO+S de la collection 2006 (tableau 4.10), nous n’observons pas d’amélioration en utilisant les échantillons à 1 et 5 éléments per-
Chapitre 4. Evaluations & Expérimentations
140
Tab. 4.9 – Impact du nombre d’éléments jugés pertinents sur l’échantillon dans
le cas de la tâche CO+S de la collection 2005
Tâches
App
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-Elt- Base
0,1773
0,0324
0,1232
0,0357
Pert=1
ROC
–
45%
–
–
ROS
11%
39%
–
–
RCN
76%
84%
47%
22%
Nb-Elt- Base
0,135
0,0247
0,0802
0,019
Pert=3
ROC
7%
51%
–
–
ROS
36%
65%
18%
26%
RCN
137%
141%
106%
105%
Nb-Elt- Base
0,1473
0,0225
0,0841
0,0187
Pert=5
ROC
3%
70%
–
–
ROS
6%
63%
–
–
RCN
77%
131%
71%
84%
Tab. 4.10 – Impact du nombre d’éléments jugés pertinents sur l’échantillon
dans le cas de la tâche CO+S de la collection 2006
Tâches
App
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-Elt- Base
0,1458
0,0065
0,1263
0,0035
Pert=3
ROC
8%
–
14%
–
ROS
–
–
1%
–
RCN
12%
–
19%
–
Chapitre 4. Evaluations & Expérimentations
141
Tab. 4.11 – Impact du nombre d’éléments jugés pertinents sur l’échantillon
dans le cas de la tâche VVCAS de la collection 2005
Tâches
App
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-Elt- Base
0,1804
0,1693
0,112
0,0283
Pert=1
ROC
–
–
27%
105%
ROS
29%
71%
55%
160%
RCN
74%
16%
89%
187%
Nb-Elt- Base
0,175
0,0399
0,1126
0,0275
Pert=3
ROC
–
–
30%
111%
ROS
39%
5%
85%
165%
RCN
40%
6%
76%
156%
Nb-Elt- Base
0,1471
0,0381
0,083
0,0258
Pert=5
ROC
17%
–
62%
121%
ROS
68%
5%
152%
177%
RCN
114%
32%
146%
206%
tinents. Ces valeurs ne sont pas listées. En revanche, des améliorations significatives sont observées dans le cas des mesures MAnxCG[10] en agrégation
stricte et généralisée en appliquant l’approche orientée contenu et l’approche
combinée.
Dans le cas de la tâche VVCAS, il y a une amélioration claire au niveau des
mesures strictes, proportionnelle au nombre d’éléments jugés pertinents. Pour
les mesures généralisées, les améliorations sont claires pour les approches ROS
et RON, l’approche ROC à partir de 5 éléments pertinents.
Nous n’allons pas nous attarder sur ce point car la solution proposée est peu
applicable en pratique, en effet, en fixant le nombre d’éléments jugés pertinents,
on peut se ramener à parcourir un grand nombre d’éléments retournés par le
système ce qui pénalise l’évaluation résiduelle (dans certains cas il n’existe pas
d’éléments strictement pertinents). Nous présentons dans le tableau 4.12 la
moyenne des éléments parcourus (jugés) (MEJ) pour retrouver le nombre fixé
d’éléments jugés pertinents.
Nous remarquons que le nombre d’éléments parcourus est élevé (nous avons
considéré toutes les requêtes y compris celles pour lesquelles on ne retrouve
pas d’éléments pertinents, c’est ce qui explique les valeurs élevées des nombres
d’éléments. Nous remarquons que les moyennes varient selon les tâches ainsi
que les collections. Par exemple si nous considérons le cas de la tâche CO, pour
Chapitre 4. Evaluations & Expérimentations
142
Tab. 4.12 – Moyennes des éléments jugés dans les échantillons
MEJ
MEJ
MEJ
(P1)
(P3)
(P5)
CO 2005
211.92
289.78
304.28
CO+S 2005
199.82
331.85
383.53
VVCAS 2005
148.41
409.16
476
CO 2006
99.04
175.83
248.95
CO+S 2006
160.28
381.81
490.54
retrouver 3 éléments pertinents, on doit parcourir en moyenne 289 éléments
dans la collection 2005 alors que 175 éléments est la moyenne d’éléments parcourus dans la collection 2006, elle est de 381 pour la même collection mais
pour la tâche CO+S. Nous allons alors discuter les deux paramètres (nombre
d’éléments jugés et le nombre d’éléments jugés pertinents) dans la section suivante.
4.3.3
Discussion
Nous constatons d’après les expérimentations effectuées précédemment que
d’une part, si on fixe le nombre d’éléments jugés, on risque de ne pas avoir des
éléments pertinents pour appliquer notre approche, et d’autre part si on fixe
le nombre d’éléments jugés pertinents, on risque de parcourir l’ensemble des
éléments retournés par le système pour certaines requêtes. Ceci nous conduit à
chercher un compromis entre les deux facteurs. De ce fait, nous proposons de
fixer le nombre des éléments jugés pertinents tout en fixant un nombre maximum d’éléments parcourus qu’on ne doit pas dépasser.
Cette proposition semble la plus raisonnable puisqu’elle pourra être appliquée dans des cas réels. En effet, si on charge un utilisateur de juger un
ensemble d’éléments, il lui semblera inutile de continuer à parcourir une liste
d’éléments s’il retrouve un nombre suffisant d’éléments pertinents dès les premiers éléments de l’ensemble. D’autre part, un utilisateur ne peut pas dépasser
un certain nombre d’éléments à parcourir car il est généralement limité par
le facteur temps. Par souci de généralisation, nous n’allons pas prendre les
meilleures conditions pour chaque tâche, nous essayons de trouver des conditions qui peuvent plus au moins convenir à toutes les tâches. Dans notre cas,
on prend les condition suivantes : on considère 3 éléments pertinents et on juge
au plus 20 élément. Nous avons ensuite appliqué ce choix d’échantillon pour
les différentes requêtes des collections 2005 et 2006. Nous présentons dans le
tableau 4.13 les résultats obtenus.
Chapitre 4. Evaluations & Expérimentations
143
Tab. 4.13 – Résultats selon le nouvel échantillon de test pour les différentes
tâches de recherche
Tâches
App
MAnxCG MAep
MAnxCG MAep
[10] gen gen
[10]
stricte
stricte
Base 0,1742
0,0398
0,0963
0,0226
ROC 19%
24%
–
–
CO 2005
ROS 48%
44%
39%
60%
RCN 19%
30%
–
–
Base 0,1622
0,0426
0,0863
0,0267
ROC –
19%
6%
–
CO+S 2005
ROS 1%
12%
30%
28%
RCN 0%
12%
23%
17%
Base 0,1353
0,0063
0,1203
0,0035
ROC 24%
–
26%
0%
CO+S 2006
ROS 17%
–
14%
–
RCN 20%
–
19%
–
Base 0,2499
0,0476
0,1657
0,0286
ROC 1%
–
15%
132%
VVCASS 2005 ROS 3%
0%
26%
155%
RCN 0%
0%
22%
153%
Nous observons d’une manière générale, des amélioration claires au niveau
de ManxCG et/ou MAep pour toutes les tâches et quelle sue soit l’approche.
Nous constatons que les améliorations obtenues pour la tâche CO ne concernent
que la collection 2005 où l’approche orientée structure (ROS) s’avère la plus
intéressante. Ceci montre l’intérêt de la structure pertinente comme source
d’évidence (on obtient 60% d’amélioration pour les MAep stricte). Dans le cas
de la tâche CO+S, des améliorations sont obtenues dans les deux collections où
l’approche orientée structure est la plus efficace dans la collection 2005. Dans
la collection 2006, l’approche orientée contenu s’avère plus efficace mais reste
sans impact positif en considérant les MAep. Dans le cas de la tâche VVCAS,
quelle que soit l’approche utilisée, on n’observe des améliorations qu’au niveau des mesures strictes. Pour la collection 2006 bien qu’on n’ait pas observée
d’amélioration globale pour la mesure MAep stricte dans le cas de ROS, nous
avons regardé les améliorations obtenues pour chacune de requête. Nous avons
alors constaté qu’il y a plus de requêtes qui améliorent les performances que
de requêtes qui les détériorent dans le cas de la tâche CO+S (52/77) et autant
de requêtes améliorant les performances que celles qui les détériorent dans le
cas de la tâche CO (parmi 63 requêtes ayant des éléments pertinents dans les
20 premiers jugés, 28 requêtes permettant l’amélioration des performances, 27
qui détériorent et le reste des requêtes n’apporte rien (0%)).
Ces résultats préliminaires sont à prendre avec prudence car les approches sont
différentes et chacune a ses paramètres spécifiques qu’il faut régler. C’est ce que
Chapitre 4. Evaluations & Expérimentations
144
Tab. 4.14 – Comparaison des résultats du nouvel échantillon et l’échantillon
fixe
Tâches
CO 2005
CO+S
2005
CO+S
2006
VVCAS
2005
App
MAnxCG
[10] gen
MAep gen
ROC
ROS
RCN
ROC
NouEch
0.2079
0.2577
0.2075
0.1515
NouEch
0.0493
0.0572
0.0518
0.0506
ROS
RCN
ROC
0,1637 0.1807 0,0475 0.0499 0,1122 0.0969 0,0341 0.0279
0,1629 0.1877 0,0475 0.0504 0,1062 0.079 0,0312 0.0261
0.1672 0.1409 0.0052 0.0044 0.1514 0.1276 0.0035 0.003
ROS
RCN
ROC
0.1579 0.1428 0.0042 0.0042 0.1373 0.1292 0.0029 0.0029
0.1621 0.1467 0.0042 0.0042 0.1428 0.132 0.0031 0.0029
0.2515 0.2156 0.044 0.0425 0.1906 0.1669 0.0663 0.0644
ROS
RCN
0.2569 0.1914 0.0474 0.0439 0.2088 0.1475 0.073 0.0688
0.2491 0.1898 0.0478 0.0458 0.2023 0.1536 0.0725 0.0688
NbElt=20
0.2062
0.3078
0.2603
0.1883
NbElt=20
0.0545
0.071
0.0664
0.0542
MAnxCG
[10]
stricte
NouNbEch
Elt=20
0.0572 0.0365
0.1336 0.0921
0.0836 0.06
0.0969 0.0819
MAep
stricte
NouEch
0.0122
0.0361
0.0201
0.0279
NbElt=20
0.011
0.0288
0.0206
0.0258
nous allons faire dans les sections suivantes. Nous allons étudier ces différentes
approches en détail.
Afin de montrer l’intérêt de cet échantillonnage, nous allons plutôt comparer dans le tableau 4.14 les résultats, en termes de performances directes
(la comparaison considérant les améliorations n’a pas de sens car la base est
différente), obtenus pour les tâches CO de la collection 2005, CO+S de la collection 2005 et 2006 et VVCAS de la collection 2005 vis-à-vis les résultats déjà
obtenus en fixant le nombre d’éléments jugés à 20 (échantillon fixe).
Nous remarquons que les deux échantillons ont des comportements différents
selon la mesure considérée. Les résultats obtenus avec le nouvel échantillon
sont meilleurs que ceux de l’échantillon fixe, niveau des mesures strictes quelle
que soient la tâche et l’approche considérées. en ce qui concerne la mesure
généralisée, les résultats varient selon les tâches. Pour CO et CO+S 2005 c’est
l’échantillon fixe qui l’emporte, alors que pour VVCAS 2005 et CO+S 2006
c’est le nouvel échantillon.
Nous considérons pour l’évaluation de nos différentes approches dans le reste des
Chapitre 4. Evaluations & Expérimentations
145
expérimentations le nouvel échantillon. L’avantage de cet échantillon, qualifié
d’optimal, permet d’améliorer les performances des systèmes de recherche en
se basant sur un minimum d’éléments jugés.
4.4
Évaluation de la RF Orientée Contenu
Nous rappelons que cette approche consiste à enrichir le contenu de la
requête en réinjectant des termes pertinents. L’objectif des expérimentations
effectuées dans cette section est d’évaluer l’impact des techniques d’extraction
et de pondération des termes de la requête. Nous distinguons trois méthodes
de sélection/pondération des termes :
1. La première consiste à extraire et sélectionner les termes pertinents selon leur poids probabiliste-contextuel noté Prob-Cont, (équation 3.5). Ce
poids prend en compte la probabilité de pertinence des termes sachant les
éléments pertinents ainsi que leur appartenance au contexte des termes de
la requête. Le poids Prob-Cont servira aussi à la pondération des termes
dans la requête finale.
Une alternative est d’extraire et sélectionner les termes en ne tenant
compte que de leur probabilité de pertinence. Les évaluations de cette
alternative ont montré que ce facteur est insuffisant pour la sélection des
termes pertinents [82]. Dans nos expérimentations nous n’utiliserons donc
que le poids Prob-Cont.
2. La deuxième consiste à extraire et sélectionner les termes pertinents selon
le poids ajusté Prob-Cont-Brt (équation 3.7). Ce poids est une combinaison du poids Prob-Cont avec le facteur bruit. Ce poids servira lui aussi
pour la pondération des termes de la requête finale. Dans cette méthode
nous utilisons la réinjection de pertinence négative.
3. La troisième alternative consiste à utiliser l’un des poids Prob-Cont ou
Prob-Cont-Brt pour l’extraction et la sélection des termes pertinents. La
pondération des termes de la requête finale s’effectue en appliquant le
poids P df req tenant compte de leur importance dans la collection des
éléments et celle des documents (équation 3.9).
Dans ce qui suit, nous allons étudier d’abord le nombre adéquat de termes
pertinents à réinjecter (section 4.4.1) en utilisant la première méthode. Une fois
ce paramètre fixé, nous comparons les différentes méthodes de sélection/pondération
des termes de la requête dans la section 4.4.2.
Chapitre 4. Evaluations & Expérimentations
146
Tab. 4.15 – Impact du nombre de termes pertinents à réinjecter dans le cas de
la tâche CO de la collection 2005
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-TP=1
19%
24%
–
–
Nb-TP=2
26%
19%
6%
–
Nb-TP=3
12%
13%
–
–
Nb-TP=4
11%
5%
–
–
Nb-TP=5
10%
6%
–
–
Nb-TP=6
–
5%
–
–
Nb-TP=7
–
6%
–
–
Nb-TP=8
–
5%
–
–
Nb-TP=9
–
9%
–
–
Nb-TP=10
–
–
–
–
4.4.1
Nombre de termes réinjectés
Notre objectif est de retrouver le nombre de termes qu’on doit réinjecter
pour chaque tâche de recherche de chaque collection de test. Pour ce faire, nous
allons varier le nombre de termes pertinents à réinjecter (Nb-TP ) de 1 jusqu’à
10 termes. Nous présentons les résultats obtenus en appliquant la stratégie
d’évaluation résiduelle en se basant sur l’échantillon présenté dans la section
précédente (composé de trois éléments jugés pertinents sans dépasser les 20
éléments jugés). Nous utiliserons la première méthode pour la sélection et la
pondération des termes pertinents à savoir l’utilisation du poids probabiliste
contextuel P rob − Cont (équation 3.5).
Nous présentons les résultats obtenus pour chaque tâche de recherche CO,
CO+S et VVCAS de la collection 2005 et CO et CO+S de la collection 2006.
4.4.1.1
Tâche CO
Dans le cas de la tâche de recherche CO de la collection 2005, nous remarquons dans le tableau 4.15 que les améliorations significatives sont obtenues
pour les mesures généralisées en réinjectant un nombre de termes pertinents
ne dépassant pas 3. Notre approche a ainsi plus d’impact en réinjectant un
nombre limité de termes pertinents. Nous remarquons en outre que nous n’obtenons pas d’amélioration des mesures strictes hormis le cas de l’ajout de deux
termes pertinents. Ceci ne traduit cependant pas forcément le fait que notre
approche n’est pas fiable. Les valeurs présentées sont des moyennes pour toutes
les requêtes.
Chapitre 4. Evaluations & Expérimentations
147
Tab. 4.16 – Impact du nombre de termes pertinents à réinjecter dans le cas de
la tâche CO+S de la collection 2005
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-TP=1
–
19%
6%
4%
Nb-TP=2
7%
14%
17%
0%
Nb-TP=3
3%
16%
8%
18%
Nb-TP=4
3%
9%
7%
9%
Nb-TP=5
9%
11%
19%
6%
Nb-TP=6
5%
15%
6%
12%
Nb-TP=7
2%
10%
22%
2%
Nb-TP=8
13%
12%
44%
14%
Nb-TP=9
6%
11%
42%
13%
Nb-TP=10
13%
11%
46%
18%
Nos expérimentations ont montré que la réinjection de pertinence ne permet pas d’améliorer les performances de recherche dans le cas de la collection
2006. Par ailleurs les différentes mesures présentent des moyennes de toutes les
requêtes. Comme nous l’avons déjà mentionné, des améliorations sont observées
pour 28 requêtes vis-à-vis 27 qui détériorent les performances du système dans
le cas de l’ajout d’un seul terme.
4.4.1.2
Tâche CO+S
D’après le tableau 4.16, nous remarquons que la réinjection de termes pertinents dans le cas de la tâche de recherche CO+S de la collection 2005 permet
d’améliorer significativement les résultats à partir de l’ajout d’un terme et
quelle que soit la mesure considérée. On constate également que l’amélioration
est proportionnelle au nombre de termes ajoutés dans le cas de la mesure stricte.
Dans le cas de la collection 2006, nous remarquons dans le tableau 4.17
que les améliorations ne concernent que les MAnxCG[10]. On constate des
améliorations à partir de l’ajout d’un terme. Dans ce cas la réinjection de
termes pertinents permet d’augmenter le nombre des éléments pertinents dans
l’ensemble des premiers éléments retournés. Même si nous n’observons pas
d’améliorations au niveau de MAep stricte, nous aboutissons à des résultats satisfaisants puisque notre approche permet d’augmenter significativement (AR>
10%) les performances au niveau des 10 premiers éléments retournés par le
Chapitre 4. Evaluations & Expérimentations
148
Tab. 4.17 – Impact du nombre de termes pertinents à réinjecter dans le cas de
la tâche CO+S de la collection 2006
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-TP=1
23%
–
26%
0%
Nb-TP=2
24%
–
25%
–
Nb-TP=3
19%
–
20%
–
Nb-TP=4
18%
–
18%
–
Nb-TP=5
19%
–
20%
–
Nb-TP=6
22%
–
23%
–
Nb-TP=7
20%
–
20%
1% –
Nb-TP=8
25%
–
27%
–
Nb-TP=9
22%
–
24%
–
Nb-TP=10
19%
–
21%
–
système.
4.4.1.3
Tâche VVCAS de la collection 2005
Dans le tableau 4.18, nous remarquons d’une manière générale que les seules
améliorations obtenues sont pour la mesure MAep stricte où l’amélioration est
très significative (supérieure de 110%) quelque soit le nombre de termes pertinents réinjectés, aucune amélioration n’est observée dans les MAnxCG. En
comparant les améliorations obtenues pour les différents nombres de termes
ajoutés, nous remarquons un comportement comparable quelque soit ce nombre.
En outre la seule amélioration significative (15%) de la mesure MAnxCG[10]
stricte est obtenue dans le cas de l’ajout d’un seul terme (ce qui correspond au
résultat déjà observé dans le tableau 4.13). Nous remarquons également que la
taille moyenne des requêtes de la tâche VVCAS est aux alentours de 4 termes
donc de petites tailles. Il est vraisemblable que l’ajout d’un nombre élevé de
termes peut dégrader les performances du système. Nous discuterons de la notion de nature de requêtes dans le paragraphe suivant.
Nous rappelons que les améliorations des mesures généralisées peuvent être
observées dans les cas des échantillons vus précédemment.
4.4.1.4
Discussion
Comme nous l’avons mentionné sur les différentes tâches de recherche de
chaque collection, le nombre de termes adéquats à réinjecter peut être lié aux
requêtes. Une requête est caractérisée par sa taille et l’ambiguı̈té éventuelle
Chapitre 4. Evaluations & Expérimentations
149
Tab. 4.18 – Impact du nombre de termes pertinents à réinjecter dans le cas
des requêtes VVCAS de la collection 2005
MAnxCG MAep gen MAnxCG MAep
[10] gen
[10]
stricte
stricte
Nb-TP=1
1%
–
15%
132%
Nb-TP=2
–
–
–
135%
Nb-TP=3
–
–
–
136%
Nb-TP=4
–
–
–
136%
Nb-TP=5
–
–
–
138%
Nb-TP=6
–
–
–
134%
Nb-TP=7
–
–
–
135%
Nb-TP=8
–
–
–
117%
Nb-TP=9
–
–
–
118%
Nb-TP=10
–
–
–
135%
de ses termes. Ceci est déjà confirmé en RI [156]. On se focalise dans nos
travaux sur le critère taille. Il parait évident que la taille de la requête influe
sur le nombre adéquat de termes à réinjecter. Par exemple, l’ajout de 2 termes
pertinents pour une requête composée de 7 mots clés diffère de l’ajout du même
nombre de termes pour une requête composée de 2 mots clés seulement, car
dans ce cas les termes ajoutés peuvent changer le sens original de la requête.
Nous avons alors essayé de voir s’il existe une règle pour le choix du nombre
de termes. Nous avons alors observé les 28 requêtes ayant des amélioration,
de la tâche CO de la collection 2006. Comme ceci est présenté dans la figure
4.1, nous avons considéré le nombre de termes ajoutés permettant la meilleure
amélioration pour chacune des requêtes.
La seule constatation qu’on a pu faire est qu’il n’existe aucun cas où le
nombre de termes réinjectés est supérieur à la taille initiale de la requête. En
d’autres termes : soit T la taille initiale de la requête, N b − T P le nombre de
termes à réinjecter : N b − T P ≤ T .
Au delà de cette constatation aucune conclusion n’a pu être tirée. Nous
avons par ailleurs effectué des expérimentations en faisant varier le nombre de
terme rajoutés à la requête en fonction de sa taille (nombre de termes). L’idée
est que le nombre de termes rajoutés ne dépasse pas la taille de la requête
initiale et la requête reformulée ne dépasse pas 7 termes (pour les requêtes de
taille < à 7). Aucun résultat significatif n’a été observé.
Il n y a pas un nombre de termes idéal qui sort du lot. Il semble par ailleurs
que l’ajout de peu de termes, entre 1 et 3, apporte des améliorations significa-
Chapitre 4. Evaluations & Expérimentations
150
Fig. 4.1 – Nombre de termes à réinjecter en fonction de la taille des requêtes.
tives, souvent meilleurs que l’ajout de ”beaucoup” de termes (au delà des trois).
Nous choisissons pour le reste des expérimentations les conditions suivantes :
ajout d’un seul terme dans le cas des tâches CO, CO+S de la collection 2006
et VVCAS de la collection 2005. Dans le cas de la tâche CO+S de la collection
2005, on réinjecte 3 termes pertinents.
L’ajout de peu de termes peut toutefois être justifié par la taille des éléments
jugés. En effet, comme ces éléments sont strictement pertinents, ils sont donc
très spécifiques ; donc souvent de petite taille.
Par ailleurs, on pourrait penser à juste de titre que l’ajout de peu de termes,
en particulier de 1 terme, pourrait ne pas avoir d’influence sur le processus de
réinjection. En fait ceci n’est pas tout à fait vrai car au delà de l’ajout des
termes, il y a également la repondération des termes de la requête initiale. Ceci
peut également avoir un impact sur les résultats.
Chapitre 4. Evaluations & Expérimentations
Tab. 4.19 – Impact des stratégies de sélection et pondération des
le cas des requêtes CO de la collection 2005
Choix
du MAnxCG MAep gen MAnxCG
nombre
de [10] gen
[10]
stricte
termes
Prob-Cont
9%
6%
–
Prob-Cont-Brt
–
25%
–
Prob-Cont/P df req
8%
19%
–
Prob-Cont8%
19%
–
Brt/P df req
4.4.2
151
termes dans
MAep
stricte
–
–
–
–
Impact des stratégies de sélection et de pondération
des termes de la requête
Dans cette section nous étudions l’impact des différentes stratégies de sélection
et pondération des termes de la requête. Nous rappelons que nous distinguons
les stratégies suivantes :
– La première est celle que nous avons avant appliquée dans la section
précédente en attribuant les mêmes poids Prob-Cont (équation 3.5) pour
la sélection des termes ainsi que pour la pondération des termes de la
requête finale.
– La deuxième consiste à sélectionner et pondérer les termes pertinents
selon le poids Prob-Cont-Brt (équation 3.7).
– La troisième est composée de deux stratégies. Elle consiste à utiliser l’un
des poids Prob-Cont ou Prob-Cont-Brt pour l’extraction et la sélection
des termes pertinents. La pondération des termes s’effectue en appliquant le poids P df req (équation 3.9). Les deux types de stratégies seront
désignées par : Prob-Cont/P df req et Prob-Cont-Brt/P df req .
Nous allons procéder par type de tâche de recherche pour analyser nos expérimentations.
4.4.2.1
Tâche CO
Comme nous l’avons mentionné précédemment, nous ajoutons dans ce cas
un seul terme pertinent.
Nous remarquons dans le tableau 4.19 que les différentes stratégies permettent une amélioration significative de MAep généralisée dans la collection
2005, et notamment, lorsque le facteur bruit est considéré (Prob-Cont-Brt :
25%). Cependant, l’intérêt du facteur bruit est relatif puisqu’il dégrade les per-
Chapitre 4. Evaluations & Expérimentations
152
Tab. 4.20 – Impact des stratégies de sélection et pondération des
le cas de la tâche CO+S de la collection 2005
Choix
du MAnxCG MAep gen MAnxCG
nombre
de [10] gen
[10]
termes
stricte
Prob-Cont
5%
16%
8%
Prob-Cont-Brt
–
9%
–
Prob-Cont/P df req
–
6%
–
Prob-Cont–
6%
–
Brt/P df req
termes dans
Tab. 4.21 – Impact des stratégies de sélection et pondération des
le cas de la tâche CO+S de la collection 2006
Choix
du MAnxCG MAep gen MAnxCG
nombre
de [10] gen
[10]
termes
stricte
Prob-Cont
24%
–
28%
Prob-Cont-Brt
19%
–
18%
Prob-Cont/P df req
11%
–
10%
Prob-Cont11%
–
10%
Brt/P df req
termes dans
MAep
stricte
18%
–
–
–
MAep
stricte
–
–
–
–
formance au niveau des 10 premiers éléments.
Nous remarquons en outre que quelque soit le poids utilisé pour la sélection
des termes, on retrouve les mêmes résultats en considérant une pondération
selon P df req . Comparée à Prob-Cont-Brt, Prob-Cont-Brt/P df req apporte une
amélioration au niveau des 10 premiers éléments, son analogue Prob-Cont/P df req ,
comparé à Prob-Cont augmente la MAep généralisée (19% par rapport à 6%).
Les résultats montrent alors l’intérêt relatif de cette pondération mais laissent
entendre, comme on peut s’y attentre, que les poids des termes de la requête
influent directement sur les performances du système.
Dans le cas de la collection 2006, on ne trouve pas d’améliorations globales.
4.4.2.2
Tâche CO+S
Comme nous l’avons mentionné précédemment, nous ajoutons 3 termes pertinents à la requête initiale dans le cas de la collection 2005 et 1 seul terme dans
le cas de la collection 2006. Les tableaux 4.20 et 4.21 listent les résultats obtenus en appliquant les différentes variantes de sélection/pondération des termes.
Nous remarquons pour COS2005 une amélioration de la MAep généralisée pour
toutes les méthodes avec une légère préférence pour P rob − Cont, qui en outre
améliore les mesures strictes et généralisées au niveau des 10 premiers éléments
Chapitre 4. Evaluations & Expérimentations
Tab. 4.22 – Impact des stratégies de sélection et pondération des
le cas de la tâche VVCAS de la collection 2005
Choix
du MAnxCG MAep gen MAnxCG
nombre
de [10] gen
[10]
termes
stricte
Prob-Cont
1%
–
15%
Prob-Cont-Brt
–
–
5%
Prob-Cont/P df req
–
–
5%
Prob-Cont–
–
5%
Brt/P df req
153
termes dans
MAep
stricte
132%
132%
126%
124%
et la MAep. Ceci est plus ou moins confirmé pour la collection 2006. En effet, on
observe des améliorations significatives obtenues par les différentes stratégies.
Elles ne concernent que les mesures MAnxCG[10] (stricte et généralisée). Ceci
nous permet de conclure que pour ce type de requêtes,
– Le facteur bruit (Prob-Cont-Brt) n’a pas d’impact réel sur la sélection
des termes.
– La pondération en considérant l’importance des termes dans la collection
des éléments et celle des documents ne permet pas de mieux exprimer
les degrés d’importance des termes car elle ne tient pas compte de la
présence des termes dans les documents pertinents. En d’autres termes
le poids probabiliste contextuel traduit mieux l’importance des termes.
4.4.2.3
Tâche VVCAS
Dans le cas des requêtes VVCAS de la collection 2005, nous avons testé
les différentes variantes en réinjectant un seul terme. Le tableau 4.22 liste les
différents résultats. Nous remarquons que la stratégie utilisant les poids calculés
en fonction du bruit (Prob-Cont-Brt), n’apporte rien.
La pondération des termes de la requête en considérant leur importance dans
la collection des éléments et celle des documents n’apporte pas d’améliorations
dans les deux cas de sélection des termes. En général, nous remarquons que
quelle que soit la stratégie appliquée, les résultats affirment l’intérêt de notre
approche (AR(MAep strict> 120%).
4.4.3
Bilan
En conclusion, nous avons montré l’intérêt de notre approche orientée contenu
basée sur la distribution des termes dans les éléments pertinents et sur la no-
Chapitre 4. Evaluations & Expérimentations
154
tion de contexte pour l’extraction et la sélection des termes à réinjecter. Nous
avons montré en occurrence, que le indicateurs considérés dans la pondération
(tf −ief −idf ) ne traduisent pas bien les degrés d’importance des termes. Nous
avons montré également que la réinjection de pertinence négative n’a pas un
impact remarquable sur la sélection des termes.
En outre, nous avons étudié le choix du nombre de termes à réinjecter qui influe
directement sur les performances de notre approche. La seule conclusion que
nous avons pu tirer est que le nombre de termes réinjectés ne doit pas dépasser
la taille initiale de la requête, il est situé entre 1 et 3 termes. Ceci est loin des 20
termes souvent utilisé en RI. Ceci peut provenir comme nous l’avons mentionné
de la taille des éléments considérés. En effet, nous pensons que ces éléments
manque de diversité an niveau de leurs termes pour pouvoir dégager plusieurs
bons termes à rajouter à la requête.
Nous constatons de manière générale, que la stratégie P rob − Cont permet
d’améliorer dans la majorité des tâches les MAnxCG et la MAep. Ceci n’exclut
pas le fait qu’elle puisse aussi être la cause de dégradation de performances
pour certaines requêtes. Ceci a été déjà observé en RI de manière générale et
on a considéré que ce problème revient à la nature des requêtes dites difficiles.
En effet, Buckley dans [23] a essayé de classifier les requêtes difficiles selon
10 catégories différentes. Chaque catégorie de requête doit être adaptée à une
méthode différente de traitements.
4.5
4.5.1
Évaluation de la reformulation OrientéeStructure
Nombre adéquat de structures à réinjecter
Par analogie à la reformulation orientée contenu, nous allons tester dans
cette approche le nombre adéquat de structures à réinjecter pour chaque tâche
de recherche de chaque collection. Pour ce faire, nous allons varier le nombre de
structures pertinentes (Nb-Str ) à réinjecter de 1 à 3. Le tableaux 4.23 présente
l’impact du nombre de structures à réinjecter pour les tâches CO, CO+S et VVCAS de la collection 2005 et CO+S de la collection 2006. Le premier résultat
intéressant qu’on observe est l’impact positif qu’apporte la réinjection de structure. Elle est très significative dans le cas des requêtes non structurées. On
constate une stabilité des performances en réinjectant une seule structure pertinente dans le cas des tâches CO+S et VVCAS de la collection 2005.
Chapitre 4. Evaluations & Expérimentations
155
Tab. 4.23 – Impact du nombre de structures pertinentes à réinjecter dans le
cas des tâches CO, CO+S et VVCAS de la collection 2005 et la tâche CO+S
de la collection 2006
Choix du MAnxCG MAep MAnxCG MAep
nombre
[10] gen
gen
[10]
stricte
stricte
de
termes
Nb-Str=1
48%
44%
39%
60%
CO 2005
Nb-Str=2
49%
44%
40%
60%
Nb-Str=3
50%
44%
44%
62%
CO+S 2005
Nb-Str=1
1%
12%
30%
28%
VVCAS 2005 Nb-Str=1
3%
0%
26%
155%
Nb-Str=1
17%
–
14%
–
CO+S 2006
Nb-Str=2
3%
–
7%
–
Nb-Str=3
4%
–
8%
11%
Plus précisément, on observe des améliorations significatives de toutes les
mesures considérées dans le cas des requêtes de type CO (AR> 40%). Ceci
prouve d’une part l’intérêt de la réinjection des structures pertinentes et d’autre
part l’efficacité de notre algorithme d’extraction des structures pertinentes. La
légère croissance de l’AR en fonction du nombre de structures réinjectées est
conforme avec nos statistiques présentées dans le chapitre précédent (section
3.4.1).
En outre la comparaison des requêtes CO reformulées par réinjection de structures pertinentes avec les requêtes CO+S (où l’utilisateur spécifie le type d’éléments répondant à son besoin) a montré :
– dans le cas de l’ajout d’une structure, 40% des requêtes reformulées
contiennent la condition de structure exprimée dans les requêtes CO+S.
– dans le cas de l’ajout de deux structures pertinentes, 60% des requêtes
reformulées contiennent la ou les conditions de structures exprimées dans
les requêtes CO+S.
– dans le cas de l’ajout de trois structures 100% des requêtes reformulées
contiennent la ou les conditions de structures exprimées dans les requêtes
CO+S.
Dans le cas de la collection 2006 et de l’ajout d’une, de deux ou de trois structures pertinentes, les requêtes reformulées contenant la ou les conditions de
structures exprimées dans les requêtes CO+S sont à l’entour de 50%.
Dans les deux collections nous obtenons des résultats en terme de performance
plus importants que ceux obtenus dans la tâche CO+S. Ceci peut être expliqué par le fait que l’utilisateur ne connaı̂t pas forcément le type d’éléments
répondant à ses besoins. Cette idée est déjà prouvée dans [187].
Dans le cas des tâches CO+S et VVCAS de la collection 2005, on obtient
Chapitre 4. Evaluations & Expérimentations
156
des améliorations significatives en considérant les mesures en agrégation stricte
(notamment la MAep stricte).
Dans le cas de la tâche CO+S de la collection 2006, des améliorations significatives de MAnxCG[10] sont observées en réinjectant une seule structure. Alors
que l’ajout de 3 structures pertinentes permet d’améliorer la MAep stricte.
Ceci peut nous renseigner sur l’aspect diversifié des structures existantes dans
la collection 2006. La prise en compte de plus de structures ne permet pas
forcément l’augmentation de l’amélioration relative puisque les structures de la
collection 2006 sont peu reliées sémantiquement par des relations de hiérarchie
(comme par exemple : collectionlink, section, unknownlink, item..).
On observe clairement que la réinjection d’une structure permet d’améliorer
de manière significative les résultats. Les autres résultats obtenus par la réinjection de 2 et 3 structures pertinentes, ne sont pas statistiquement meilleurs que
le premier résultat (ajouter 1 seule structure).
Comme nous l’avons détaillé dans le chapitre 3, la réinjection de structure
peut être effectuée en ne spécifiant que le type de structure désiré par l’utilisateur ou en spécifiant tout le chemin. Nous présentons la comparaison de ces
deux aspects dans les paragraphes suivants.
4.5.2
Réinjection de la balise ou du chemin
Notre objectif est de comparer les différentes méthodes d’extraction et de
réinjection des structures pertinentes. Nous distinguons les 4 méthodes suivantes :
– Une première est celle que nous avant utilisée précédemment, elles consiste
à réinjecter la dernière balise (c’est dire l’élément cible Ec) de la structure
extraite en appliquant l’algorithme SCA. Cette stratégie est désignée par
SCA.
– Une seconde consiste aussi à réinjecter l’élément cible extrait selon la
méthode de classification (section 3.4.4 du chapitre 3). Cette stratégie est
désignée par Ec − class.
– La troisième méthode consiste à réinjecter toute la structure (en spécifiant
toutes les balises intermédiaires) extraite par la méthode de classification
(section 3.4.4 du chapitre 3). Cette stratégie est désignée par Ch − Spes.
– La quatrième méthode consiste à réinjecter un chemin générique présenté
dans la section 3.4.4 du chapitre 3, c’est à dire sans spécifier toutes les balises intermédiaires de la structure pertinente. Cette stratégie est désignée
par Ch − Gen.
Le tableau 4.24 liste les résultats obtenus. Nous remarquons que la réinjection
Chapitre 4. Evaluations & Expérimentations
157
Tab. 4.24 – Réinjection de structure (Element cible, Chemin spécifique et Chemin générique)
Choix du MAnxCG MAep MAnxCG MAep
nombre de [10] gen
gen
[10]
stricte
termes
stricte
SCA
48%
44%
39%
60%
Ec − Class
57%
40%
44%
60%
CO 2005
Ch − Spes
20%
38%
–
–
Ch − Gen
20%
36%
–
–
SCA
1%
12%
30%
28%
EC − Class
1%
11%
30%
28%
CO+S 2005
Ch − Spes
–
–
–
–
Ch − Gen
–
–
–
–
SCA
3%
0%
26%
155%
EC − Class
–
–
1%
152%
VVCAS 2005
Ch − Spes
–
–
–
68%
Ch − Gen
6%
–
10%
151%
SCA
17%
–
14%
–
EC − Class
11%
–
–
–
CO+S 2006
Ch − Spes
5%
–
0%
–
Ch − Gen
5%
–
–
–
de l’élément cible (une balise) apporte une meilleure performance, quelle que
soit la tâche, avec un bénéfice clair (soit en MAep ou en MAnxCG[10]) pour
les tâches CO et CO+S de la collection 2005. De ce fait, l’ajout de la balise
(élément cible) est plus à même d’améliorer les performances quelle que soit la
tâche.
En ce qui concerne la réinjection du chemin spécifique et du chemin générique,
nous notons une amélioration au niveau de COS2005, mais ceci ne se retrouve
pas dans les autres tâches.
4.5.3
Bilan
Le premier bilan que l’on peut faire à partir de ces expérimentations est
qu’il est important de considérer la structure comme une source d’évidence.
De plus nous avons constaté que l’ajout de la balise cible, de préférence une
seule balise, est plus à même d’apporter des améliorations comparativement à
l’ajout de plusieurs balises ou du chemin.
Chapitre 4. Evaluations & Expérimentations
4.6
158
Évaluation de la reformulation OrientéeContenu & Structure
Nous avons défini 3 formes de combinaison des deux approches présentées
précédemment : une forme naı̈ve, une forme tenant compte de la ”sémantique”
des balises sous deux versions (en utilisant l’équation 3.14 (Sémantique1) et
l’équation 3.15 (Sémantique2)) et une forme flexible. Nous rappelons que :
– la combinaison naı̈ve (section 3.5.1 du chapitre 3) consiste tout simplement à réinjecter les termes pertinents ainsi que les structures pertinentes
issus des deux approches appliquées indépendamment. La combinaison se
fait au niveau de la réécriture.
– la combinaison avec dépendance sémantique (section 3.5.2 du chapitre 3)
consiste à considérer la sémantique des éléments jugés pertinents pour la
sélection des termes. Nous distinguons deux versions de cette méthode :
la première considère les poids des structures pertinentes dans la sélection
des termes pertinents (elle est désignée par Sémantique 2) et la seconde
ne considère que le poids d’extraction des termes calculé selon l’approche
orientée contenu (Sémantique 1).
– la combinaison flexible (section 3.5.3 du chapitre 3) consiste à distribuer les termes pertinents selon leur degré d’appartenance aux différentes
contraintes structurelles spécifiées dans la requête.
Les résultats obtenus sont détaillés dans les paragraphes suivants pour chaque
tâche de recherche.
Pour étudier l’impact de cette approche, nous utilisons le même nombre de
termes fixés pour chaque tâche de recherche que ceux utilisés dans la comparaison des stratégies de l’approche orientée contenu. Les termes sélectionnés
seront combinés avec trois structures génériques extraites en appliquant l’algorithme SCA dans le cas des tâches CO 2005 et CO+S 2006. Nous choisissons
trois structures afin de pouvoir appliquer la combinaison flexible ; dans le cas
d’une seule stucture, l’approche flexible n’a pas d’impact. Dans le cas des tâches
CO+S et VVCAS de la collection 2005, nous réinjectons une seule structure
puisque les résultats de la section précédente, ont montré une stabilisation des
améliorations en réinjectant une seule structure. Nous présentons les différentes
méthodes de combinaison pour chaque tâche de recherche. Les résultats issus
de ces méthodes seront comparés aux meilleurs résultats obtenus en appliquant
l’approche orientée contenu et l’approche orientée structure.
Chapitre 4. Evaluations & Expérimentations
159
Tab. 4.25 – Reformulation de requêtes par combinaison dans le cas de la tâche
CO de la collection 2005
Choix du MAnxCG MAep
MAnxCG MAep
nombre de [10] gen
gen
[10]
stricte
termes
stricte
Naive
23%
33%
–
0%
Semantique1 15%
33%
–
–
Semantique2 16%
22%
–
–
Flexible
27%
31%
–
–
Orientée50%
44%
44%
62%
Structure
Orientée9%
6%
–
–
Contenu
4.6.1
Tâche CO
D’après le tableau 4.25, nous remarquons que la combinaison des deux
sources d’évidence (contenu et structure) permet des améliorations significatives quelle que soit la méthode de combinaison pour les mesures généralisée.
Si nous comparons les différentes méthodes, nous constatons que les meilleures
améliorations sont obtenues en appliquant la méthode naı̈ve et la méthode
flexible. Ceci peut être expliqué par le fait que ces deux méthodes ne pénalisent
pas certains termes qui n’appartiennent pas aux structures sélectionnées comme
pertinentes.
Ces résultats restent moins bons en les comparant avec ceux obtenus en appliquant l’approche orientée structure mais ils sont meilleurs comparativement à
l’approche orientée contenu seulement.
4.6.2
Tâche CO+S
On observe d’après les tableaux 4.26 et 4.27 que toutes les combinaisons
permettent d’améliorer de manière significative les performances au niveau
de la MAep ou/et au niveau de la MAnxCG[10]. Pour les deux collections
aucune méthode ne surpasse les autres de manière claires. On constate une
amélioration plus importante au niveau de la mesure stricte. Ceci est logique
car l’ajout de la structure restreint le champ de la recherche.
Comparés aux résultats déjà obtenus par les deux approches orientée contenu et
orientée structure, nous remarquons que la combinaison permet, dans la majorité des cas, une meilleure amélioration pour les deux collections. En particulier
au niveau de la mesure MAep stricte dans le cas de la collection 2006.
Chapitre 4. Evaluations & Expérimentations
160
Tab. 4.26 – Reformulation de requêtes par combinaison dans le cas de la tâche
CO+S de la collection 2005
Choix du MAnxCG MAep
MAnxCG MAep
nombre de [10] gen
gen
[10]
stricte
termes
stricte
Naive
–
11%
–
13%
Semantique1 7%
14%
20%
28%
Semantique2 –
11%
–
13%
Flexible
0%
11%
10%
16%
Orientée1%
12%
30%
28%
Structure
Orientée3%
16%
8%
18%
Contenu
Tab. 4.27 – reformulation de requêtes par combinaison dans le cas de la tâche
CO+S de la collection 2006
Choix du MAnxCG MAep
MAnxCG MAep
nombre de [10] gen
gen
[10]
stricte
termes
stricte
Naive
29%
–
32%
26%
Semantique1 18%
–
24%
26%
Semantique2 29%
–
32%
26%
Flexible
32%
–
35%
31%
Orientée4%
–
8%
11%
Structure
Orientée24%
–
28%
–
Contenu
Chapitre 4. Evaluations & Expérimentations
161
Tab. 4.28 – Reformulation de requêtes par combinaison dans le cas de la tâche
VVCAS de la collection 2005
Choix du MAnxCG MAep
MAnxCG MAep
nombre
de [10] gen
gen
[10]
stricte
termes
stricte
Naive
–
4%
14%
153%
Seman- 1%
4%
30%
154%
tique1
Semantique2 –
4%
14%
153%
Flexible
–
4%
14%
153%
Orientée3%
0%
26%
155%
Structure
Orientée1%
–
15%
132%
Contenu
4.6.2.1
Tâche VVCAS
Dans le cas de la tâche VVCAS de la collection 2005, nous remarquons
d’après le tableau 4.28 que toutes les méthodes appliquées permettent des
améliorations semblables et significatives en considérant l’agrégation stricte,
notamment les MAep où AR > 150%, pour la méthode Sémantique 1 comme
dans le cas de la tâche CO+S 2005, ce qui peut être expliqué par le nombre de
structures pertinentes limité (=1) dans les deux cas.
Comparée aux approches précédentes orientée structure et orientée contenu,
l’approche combinée permet des améliorations similaires à celle en réinjectant
une structure pertinente avec une légère amélioration au niveau des MAep
généralisée.
En général, la combinaison est plus bénéfique que les deux approches précédentes.
4.6.3
Conclusion
En conclusion nous constatons différentes conséquences de la cohabitation
des deux sources d’évidence selon le type de tâche de recherche.
– la combinaison des deux sources d’évidence permet de renforcer les améliorations observées pour les deux approches (orientée structure et orientée
contenu) en particulier, pour les tâches CO+S (2005 et 2006) et VVCAS
(2005).
– dans le cas de la tâche CO l’ajout de la structure seule reste plus important que la combinaison.
Nous remarquons en outre que dans le cas de la réinjection d’un nombre limité
de structures pertinentes (les performances se stabilisent en réinjectant une
seule structure), la combinaison avec dépendance contextuelle (Sémantique 1)
Chapitre 4. Evaluations & Expérimentations
162
s’avère légèrement plus intéressante.
Dans le reste des expérimentations nous considérons la reformulation combinée selon la méthode flexible.
4.7
Autres études qualitatives
Dans cette section nous allons étudier d’une part l’impact des jugements de
pertinence et d’autre part celui des résultats de base.
4.7.1
Impact des jugements de pertinence
Durant les différentes expérimentations, nous nous sommes basés sur un
échantillon composé par des éléments jugés strictement pertinents qui traduisent les résultats les plus rigoureux du point de vue de l’utilisateur (éléments
très spécifiques et très exhaustifs).
Des éléments pertinents selon la fonction d’agrégation généralisée peuvent aussi
répondre à des besoins utilisateurs moins stricts. Nous allons alors tester l’influence d’un échantillon composé d’éléments pertinents d’une manière généralisée
sur les approches de reformulation.
Pour ce faire, nous allons considérer une exhaustivité plus large >= 1 et une
spécificité >= 0.1. Nous observons les impacts pour les différentes tâches de
chaque collection en appliquant la réinjection de pertinence combinée.
Nous présentons dans le tableau 4.29 les nouvelles améliorations (selon le jugement généralisés) ainsi les celles obtenues avec un jugement stricte désignées
par jug − strict. Nous constatons que le jugement généralisé permet d’augmenter les taux d’amélioration dans le cas des tâches de recherche de la collection
2005, notamment au niveau de la MAnxCG[10] généralisée dans le cas de la
tâche VVCAS pour laquelle nous n’avons pas obtenu d’amélioration en se basant sur des éléments strictement pertinents. Nous constatons alors que le choix
des éléments pertinents a un impact net sur les performances de la réinjection
de pertinence.
De plus, même si nous observons des améliorations plus importantes, les résultats
obtenus ne sont pas forcément meilleurs, nous remarquons que les résultats de
base sont en général moins bons que ceux en utilisant le jugement strict.
Dans le cas de la tâche CO+S de la collection 2006, les résultats sont moins
bons puisque tous les éléments pertinents de la collection 2006 sont d’exhaustivité égale à 2, donc la généralisation porte seulement sur la spécificité des
éléments, ce qui peut expliquer le comportement différent de celui dans la col-
Chapitre 4. Evaluations & Expérimentations
163
Tab. 4.29 – Réinjection de pertinence basée sur un jugement de pertinence
généralisé
Choix du nombre de MAnxCG MAep MAnxCG MAep
termes
[10] gen
gen
[10]
stricte
stricte
Base (CO 2005)
0,1890
0,0457
0,1268
0,0254
CO 2005
24%
–
48%
172%
CO 2005 (jug-strict)
27%
31%
–
–
Base (CO+S 2005)
0,2477
0,0500
0,1042
0,0218
CO+S 2005
29%
22%
26%
–
CO+S 2005 (jug-strict) 0%
11%
10%
16%
Base (VVCAS 2005)
0,1890
0,0457
0,1268
0,0254
VVCAS 2005
24%
–
48%
172%
VVCAS 2005 (jug- –
4%
14%
153%
strict)
Base (CO+S 2006)
0,1148
0,0054
0,1017
0,0030
CO+S 2006
9%
–
15%
0%
CO+S 2006 (jug-strict) 32%
–
35%
31%
lection 2005.
Nous pouvons conclure que les amélioration dépendent aussi du type de jugement de pertinence considéré.
4.8
Autres applications de la Réinjection de
pertinence
4.8.1
Application de plusieurs itérations de réinjection
Comme nous l’avons présenté dans le deuxième chapitre, la réinjection de
pertinence peut se faire en une ou plusieurs itérations. Dans ce paragraphe nous
allons tester la réinjection de pertinence combinée flexible en appliquant 2 et
3 itérations. Puisqu’on utilise la réinjection résiduelle, on ne pas aller plus loin
dans le nombre d’itérations sinon, on pourra se retrouver avec des valeurs trop
faibles ou même nulles des MAep. Les tableaux 4.30 et 4.31 présentent respectivement les améliorations relatives obtenues dans la 2eme et 3eme itération.
Nous constatons clairement que les itérations multiples sont souvent intéressantes dans le cas où nous n’obtenons pas d’amélioration au cours de la première
itération. Ceci est net dans le cas de la tâche CO de la collection 2006 et sur
Chapitre 4. Evaluations & Expérimentations
164
Tab. 4.30
Choix
du
nombre
de
termes
Base
(CO
2005)
CO 2005
Base (CO+S
2005)
CO+S 2005
Base (VVCAS
2005)
VVCAS 2005
Base
(CO
2006)
CO 2006
Base (CO+S
2006)
CO+S 2006
– Réinjection de pertinence en 2 itérations
MAnxCG MAep
MAnxCG MAep
[10] gen
gen
[10]
stricte
stricte
0,2001
0,044
0,1089
0,0372
Tab. 4.31
Choix du
nombre
de
termes
Base
(CO
2005)
CO05
Base (CO+S
2005)
COS05
Base (VVCAS
2005)
VVCAS05
Base
(CO
2006)
CO06
Base (CO+S
2006)
CO+S06
– Réinjection de pertinence en 3 itérations
MAnxCG MAep
MAnxCG MAep
[10] gen
gen
[10]
stricte
stricte
0,1481
0,0418
0,0609
0,0183
–
0,1497
1%
0,0479
–
0,0612
9%
0,0191
6%
0,2116
–
0,0487
13%
0,1365
–
0,0264
–
0,1421
–
0,0035
–
0,1346
–
0,003
23%
0,1434
77%
0,0049
20%
0,1304
67%
0,0037
–
14%
–
5%
24%
0,168
8%
0,422
–
0,0795
98%
0,0174
–
0,2497
–
0,0462
–
0,2048
26%
0,0272
–
0,1526
1%
0,0041
–
0,1451
–
0,0038
4%
0,1202
49%
0,0048
0%
0,1089
37%
0,0035
46%
25%
49%
29%
Chapitre 4. Evaluations & Expérimentations
165
Tab. 4.32 – Réinjection de pertinence ”aveugle”
Choix du MAnxCG MAep
MAnxCG MAep
nombre
de [10] gen
gen
[10]
stricte
termes
stricte
CO05-Av
19%
–
68%
–
COS05-Av
–
3%
3%
–
VVCAS0521%
3%
71%
38%
Av
COS06-Av
–
–
1%
–
les MAep stricte de la tâche CO de la collection 2005 où l’amélioration atteint
98% à la troisième itération. On obtient des résultats similaires pour la tâche
CO+S de la collection 2006.
4.8.2
Utilisation de la réinjection de pertinence ”aveugle”
Nous avons montré l’intérêt de nos différentes approches en mode interactif : l’utilisateur intervient pour un jugement de pertinence. Or, parmi les
techniques qui sont souvent utilisées pour améliorer directement les performances d’un système il y a la réinjection ”aveugle” aussi connue sous le nom
de ”blind relevance feedback ”. Dans nos expérimentations nous avons considéré
les 3 premiers éléments comme pertinents et nous avons appliqué la reformulation combinée flexible avec les mêmes nombres de termes et de structures que
précédement. Le résultat après reformulation est comparé directement avec le
résultat de base sans aucun prétraitement (blocage ou résiduel).
Le tableau 4.32 présente les résultats de la réinjection aveugle désignée par
Av.
Dans le cas de la tâche CO de la collection 2005, nous remarquons d’après le
tableau 4.32 que la reformulation aveugle permet une amélioration significative
des MAnxCG[10] notamment en agrégation stricte (AR=68%).
Dans le cas de la tâche CO+S des collections 2005 et 2006 les améliorations
sont rarement observées et restent non significatives quand elles existent.
Des améliorations significatives des mesures strictes sont observées dans le cas
de la tâche VVCAS soit 71% en MAnxCG[10].
La réinjection aveugle peut être bénéfique dans certains cas.
Chapitre 4. Evaluations & Expérimentations
4.9
4.9.1
166
Bilan
Résumé
Dans ce chapitre nous avons étudié différents aspect de la réinjection de
pertinence . Outre l’évaluation de nos différentes approches : orientée contenu,
orientée structure et combinée, nous avons testé d’autres modes d’application
de la réinjection de pertinence à savoir la réinjection en plusieurs itérations et
la réinjection aveugle.
Nous récapitulons ici les stratégies adéquates pour chaque tâche de chaque
collection.
– Dans le cas de la tâche CO de la collection 2005, les meilleures améliorations
sont obtenues en appliquant la réinjection de 1 à 3 structures pertinentes.
En ce qui concerne la tâche CO de la collection 2006, les améliorations
sont obtenues pour toutes les mesures considérées à partir de la deuxième
itération. Notons qu’on obtient 67% d’amélioration pour la MAep stricte
dans le cas de la collection 2006 (en appliquant deux itérations).
– Dans le cas de la tâche CO+S les meilleures améliorations sont obtenue en appliquant l’approche combinée. Quelle que soit la méthode
utilisée, nous obtenons des améliorations significatives notamment en
agrégation stricte. Pendant notre participation officielle dans la campagne
d’INEX 2006, nous avons obtenu la meilleure amélioration de MAep
généralisée (42%) vis-à-vis d’autres participations, en appliquant la combinaison naı̈ve sur les résultats de base fournis par le système XFIRM
officiellement.
– De même pour la tâche VVCAS, les meilleures améliorations sont obtenues grâce à la combinaison des sources d’évidence. Elle est plus bénéfique
en tenant compte de la sémantique des éléments lors de l’extraction des
termes pertinents.
Afin de mettre en relief nos résultats sur la base des indications d’INEX, nous
avons listé dans le tableau 4.33 les résultats obtenus en appliquant pour chaque
tâche la stratégie la plus adéquate en une seule itération. Nous considérons 3
termes pertinents et 3 structures pertinentes à réinjecter à la requête initiale
dans le cas de l’approche combinée. En ce qui concerne l’approche orientée
structure appliquée à la tâche CO de la collection 2005, nous considérons 3
structures pertinentes à réinjecter. Nous utilisons le protocole d’évaluation de
la campagne INEX. Nous gardons les mêmes paramètres de base ( résultats de
Chapitre 4. Evaluations & Expérimentations
167
Tab. 4.33 – Evaluation selon le protocole d’INEX
Choix du MAnxCG MAep
MAnxCG MAep
nombre
de [50] gen
gen
[50]
stricte
termes
stricte
CO05
53%
49%
12%
–
COS05
46%
47%
8%
5%
VVCAS05
8%
–
35%
35%
COS06
6%
–
11%
6%
base, jugement de pertinence et échantillon).
Pour pouvoir observer l’impact de la reformulation, nous présentons la MAnxCG[50] puisque avec la stratégie ”freezing”, on garde les 20 premiers éléments
des résultats de base.
Nous pourrons alors conclure clairement, à partir du tableau 4.33 que nos
approches permettent d’améliorer significativement quelle que soit la tâche,
les performances du système de recherche au niveau des 50 premiers éléments
retournés. La MAep généralisée est nettement améliorée dans le cas des tâches
CO et CO+S de la collection 2005 alors que l’amélioration de la MAep stricte
est très significative dans le cas de la tâche VVCAS 2005, ceci confirme ce que
nous avons conclu pendant nos évaluations avec la stratégie résiduelle.
4.9.2
Étude comparative
L’objectif de cette section est de confronter nos résultats précédemment
obtenus avec ceux obtenus par les participants d’INEX 2005 et 2006. Nous
présentons dans les tableaux 4.34, 4.35 et 4.36, les classifications des participants selon la mesure MAep généralisée (utilisée dans les deux campagne 2005
et 2006). Ces tableaux correspondent respectivement à la tâche CO, la tâche
CO+S de la collection 2005 et la tâche CO de la collection 2006. La tâche VVCAS n’est pas présentée puisque seule notre participation est signalée. Dans la
collection 2006, la tâche CO+S est confondue avec CO.
Nous remarquons dans le cas de la tâche CO 2005, que la réinjection de structures pertinentes permet d’obtenir de meilleurs résultats que les résultats officiels. Les résultats obtenus aux deuxième et troisième rang sont basés sur la
technique de réordonnancement des éléments [169]. La participation de Cirquid Project [132] consiste à réinjecter le nom du journal auquel appartiennent
des éléments pertinents et le nom de leur balise. La deuxième participation
de Max-Planck-Institut fuer Informatik [169] consiste à réinjecter l’ancêtre et
un descendant des éléments pertinents. Quant à la participation de IBM Haifa
Research Lab [128], elle basée sur l’adaptation de l’algorithme de Rocchio.
Nous constatons ainsi l’apport effectif de la structure comme étant une nou-
Chapitre 4. Evaluations & Expérimentations
Rang Participant
1
2
3
4
5
6
7
8
9
10
IRIT
Max-Planck-Institut
Max-Planck-Institut
Cirquid project
Cirquid project
Cirquid project
Max-Planck-Institut
Max-Planck-Institut
IBM Haifa Research
IBM Haifa Research
fuer Informatik
fuer Informatik
fuer Informatik
fuer Informatik
Lab
Lab
168
MAep
généralisée
49%
13%
8%
7%
7%
6%
5%
3%
2%
2%
Tab. 4.34 – Classement de notre système parmi les résultats officiels de la
campagne d’évaluation INEX 2005 dans le cas de la tâche CO
Rang Participant
1
2
3
4
5
6
IRIT (officiel)
IRIT (officiel)
IRIT (officiel)
IRIT
Cirquid project
...
MAep
généralisée
182%
182%
182%
47%
4%
-
Tab. 4.35 – Classement de notre système parmi les résultats officiels de la
campagne d’évaluation INEX 2005 dans le cas de la tâche CO+S
velle source d’évidence par rapport aux autres type de contraintes réinjectées
(ancêtre, descendant, nom du journal, type de balise, ou du contenu extrait
selon Rocchio).
Dans le cas des requêtes CO+S, notre participation officielle dans laquelle
nous avons appliqué la réinjection combinée permet une meilleure amélioration
(182%). Comparée à celle que nous avons obtenue précédemment (47%), la
différence est justifiée par le fait qu’on se base sur des résultats de base différents.
Les deux résultats sont nettement meilleurs que ceux obtenus par les autres participations, où l’amélioration devient négative à partir du sixième rang.
Notre participation officielle dans INEX 2006 correspond à l’amélioration des
requêtes de type CO+S, la première ligne donne les résultats obtenus par
réinjection combinée. L’amélioration est significative et confirme les résultats
précédents. Les deux dernières lignes correspondent à la réinjection du contenu,
elle permet d’obtenir des améliorations significatives (24% et 18%) mais moins
importante que celle obtenue par la participation de Max-Planck-Institut fuer
Informatik (25%) basée sur la réinjection de l’ancêtre et du descendant de
l’élément pertinent. Rappelons que nos expérimentations présentées dans ce
rapport ne permettent pas d’obtenir des améliorations sur cette tâche et ne
Chapitre 4. Evaluations & Expérimentations
Rang Participant
1
2
3
4
5
IRIT(officiel)
Max-Planck-Institut fuer Informatik
IRIT(officiel)
IRIT(officiel)
...
169
MAep
généralisée
42%
25%
24%
18%
-
Tab. 4.36 – Classement de notre système parmi les résultats officiels de la
campagne d’évaluation INEX 2006 dans le cas de la tâche CO+S
sont donc pas présentées dans ce tableau.
D’une manière générale, la réinjection de structure est la meilleure technique
pour améliorer les requêtes non structurées (CO), alors que pour améliorer les
requêtes structurées, la réinjection combinée est plus bénéfique.
4.9.3
Conclusion
Les principales conclusions que l’on peut tirer de toutes les expérimentations
sont les suivantes :
– La réinjection de pertinence orientée contenu par ajout des termes pertinents comme nous l’avons proposée, nous a permis d’observer des améliorations significatives dans toutes les tâches, même quand ces améliorations
ne sont pas significatives sur l’ensemble des requêtes, comme dans le cas
des collections 2006. De plus nous préconisons l’ajout d’un nombre limité
de termes dans le cas où les éléments sont très spécifiques.
– Une autre conclusion concerne l’ajout de la structure. Nous avons montré
qu’il existe bien des structures pertinentes et que la prise en compte de
cette source d’évidence a montré son intérêt quelle que soit la tâche de
recherche et la collection considérée.
– Une troisième conclusion est celle qui concerne la combinaison des sources
d’évidence. Quelles que soient les sources d’évidence, concernant les indicateurs de calcul du degré d’importance de terme (approche orientée
contenu) ou celles liées au type de l’information (textuelle et structurelle
exprimée à travers l’approche combinée), nos expériences ont confirmé la
robustesse de la cohabitation de différentes sources d’évidences.
– Enfin, nous soulignons que ces résultats sont le fruit de dizaine d’expérimentations,
les quelques conclusions que nous avons tirées confirme l’intérêt de la reformulation par réinjection de structure et/ou contenu dans les documents
Chapitre 4. Evaluations & Expérimentations
170
semi-structurés. Ces résultats dépendent des collections des requêtes. En
particulier leur nombre joue un rôle important, si on regarde CO, CO+S,
VVCAS il y a respectivement 15, 12, 6 requêtes ayant des éléments pertinents dans le top 20 dans la collection 2005. En effet, il suffit qu’une
requête améliore ou dégrade les résultats de manière importante, pour que
l’amélioration globale change de manière drastique. Ceci reste difficile à
contrôler.
Conclusion Générale
Synthèse
Notre travail se situe dans le cadre de la reformulation de requêtes en Recherche d’Information dans des documents semi-structurés de type XML. Nous
nous sommes particulièrement intéressés à la réinjection de pertinence (communément appelée Relevance Feedback ).
Plusieurs questions se posent dans ce contexte. Les principales sont : quels
indicateurs pourront être utiles pour l’extraction des termes pertinents à partir des éléments de différentes granularités jugés pertinents ? Comment tenir
compte du fait que les éléments peuvent être imbriqués les uns dans les autres ?
Existe-t-il des structures pertinentes et comment sont-elles définies ? Est-il
intéressant d’enrichir une requête avec des contraintes structurelles ? Comment
peut-on exprimer les relations contextuelles pouvant exister entre un terme et
la balise dans laquelle il apparaı̂t ? Comment intégrer ces deux évidences dans
la requête initiale ? Des questions plus techniques font aussi le sujet de cette
thèse, elles concernent la réécriture des requêtes : Doit-on re-pondérer les termes
originaux ? Comment rajouter des structures à des requêtes déjà structurées ?
A quels groupes de mots-clés doit-on ajouter des conditions structurelles ?
Notre objectif est d’apporter des réponses à certaines de ces questions. Nous
avons alors proposé un mécanisme de reformulation de requêtes par réinjection
de pertinence utilisant les deux sources d’évidence : contenu et structure, à
la fois de manière dépendante et indépendante. Plus précisément, nous avons
proposé trois approches de reformulation : une première orientée contenu, une
seconde orientée structure et une troisième approche combinant le contenu et
la structure.
Au niveau de l’approche orientée contenu, la réinjection de pertinence se
fait par ajout de termes pertinents extraits des éléments jugés pertinents.
Conclusion Générale
172
Nous avons proposé une approche permettant de sélectionner les termes pertinents selon leur distribution dans les éléments pertinents et non pertinents
ainsi que leur proximité vis-à-vis des termes de la requête initiale. Nous avons
en outre proposé de prendre en compte la pertinence négative traduite par le
facteur bruit.
Nous avons montré à travers les expérimentations l’intérêt de la prise en compte
de plus d’un indicateur pour la sélection des termes pertinents. Nous avons
montré en outre que les nombre de termes à ajouter dépend principalement de
la requête, mais il semble que l’ajout de peu de termes est préconisé. De plus
la pondération des termes doit être faite ; comme en RI classique, en tenant
compte de la présence/absence des termes dans les éléments pertinents.
Concernant l’approche orientée structure, Nous avons montré de manière
empirique l’existence de la notion de structure pertinente. En effet, nous avons
proposé un algorithme qui permet d’extraire une structure pertinente à partir des éléments pertinents. Les résultats de l’évaluation de notre approche
montrent de manière claire que l’ajout de structures pertinentes entre 1 et 3
a un effet positif en termes de performances. Nous obtenons des améliorations
significatives dans la majorité des tâches considérés.
Les travaux réalisés dans le cadre de la réinjection de pertinence consistent à
enrichir les requêtes initiales par le contexte des éléments pertinents qui traduit les caractéristiques d’un élément recherché sans spécifier exactement sa
structure. La spécificité de notre approche vis-à vis l’état de l’art, réside tout
d’abord dans son aspect générique, elle est indépendante de toute DTD. Ensuite, la prise en compte explicite de la structure pertinente dans la requête
reformulée.
Nous avons en outre proposé une approche qui combine les deux sources
d’évidence de différentes façons : naı̈ve, avec dépendance contextuelle et flexible.
Nous avons conclu à travers les expérimentations que la cohabitation des deux
sources d’évidences permet de mieux exprimer les besoins de l’utilisateur, et
ainsi d’améliorer les performances du système. Cette combinaison est spécifique
à nos travaux. En effet, les approches déjà développées en littératures ne considère
pas les deux sources d’évidences. La combinaison nous a permis de prouver des
relations de dépendances qui peuvent exister entre termes et structures, c’est
le cas de la combinaison flexible, ainsi que la combinaison avec dépendance
contextuelle.
Il est également à noter que nos approches sont applicables sans avoir de
restrictions ni sur des collections de documents précises, ni sur des types de
requêtes ni sur un type de DTD particulier.
Conclusion Générale
173
Perspectives
Nous proposons dans ce qui suit quelques perspectives à ces travaux.
1. Une première perspective est de mieux comprendre la pondération de
termes pertinents. Les résultats sont variables selon les collections, ceci
ne corrobore pas souvent avec ce qui est fait en RI classique. Nous pensons
que la taille des éléments jugés pertinents doit avoir un impact important
dans toutes les phases de la réinjection. Les éléments strictement pertinents sont souvent de taille réduite, ceci peut avoir un impact évident sur
les phases d’extraction et pondération des termes.
2. La diversité des sources documentaires rend la prise en compte de l’aspect hétérogène inévitable. Une première application qu’on n’a pas pu
tester est celle qui concerne la réinjection de pertinence en considérant
des corpus hétérogènes ayant différentes DTD. Nous avons déjà proposé
une solution en ce qui concerne l’approche orientée structure, il reste à la
tester sur une collection de documents hétérogènes.
En ce qui concerne l’approche orientée contenu le problème d’extraction
des termes pertinents est le même que celui dans le cas des documents
homogène. En revanche, la prise en compte de la dépendance contextuelle
entre termes et éléments doit être repenser en s’appuyant par exemple sur
des méthodes de classification.
3. Dans cette thèse, nous avons proposé la reformulation de requêtes par
réinjection de pertinence en considérant des sources d’évidence extraites
des éléments jugés par l’utilisateur. Nous remarquons qu’en général les
jugements sont subjectifs et dépendent essentiellement du profil de l’utilisateur. Une de nos perspective est d’enrichir nos sources d’évidence en
utilisant par exemple le profil. Ce dernier peut être construit à partir de
l’historique des recherches de l’utilisateur ou par des informations fournies explicitement par l’utilisateur. Plus précisément, ces informations
peuvent nous servir de deux manières différentes :
– soit au niveau de la sélection des termes, de l’extraction des structures
pertinentes ou aussi au niveau des relations entre la sémantique des
éléments et leurs contenus selon la perception de l’utilisateur.
– soit au niveau de jugement de pertinence. En effet on pourra modéliser
l’utilisateur en se basant sur son profil, cette modélisation nous permettra de ne plus faire intervenir l’utilisateur d’une manière interactive,
mais plutôt, il interviendra pour le jugement à travers son profil.
4. Une perspective envisagée concerne la prise en compte de l’information
Conclusion Générale
174
multimédia dans les documents semi-structurés. Une question en lien avec
nos travaux concerne la prise en compte de ce type d’information lors de
la réinjection de pertinence. Ceci peut être pris en compte à 2 niveaux.
Le premier concerne la réécriture de la requête. Dans ce cas, la réinjection
de pertinence ne portera pas seulement sur la description des besoins de
l’utilisateur par des mots clés et des contraintes structurelles mais aussi
des contraintes décrivant les caractéristiques de bas niveau du document
multimédia recherché. Le second, plus complexe, consiste à à extraire à
partir des éléments de type image de l’information textuelle ou structurelle à réinjecter dans la requête.
Annexe A
Les Documents XML
A.1
Structure du document XML
Un document XML est structuré en 3 parties :
1. un prologue, situé dans l’entête des documents XML, permet d’indiquer la
version de la norme XML utilisée pour créer le document (cette indication est
obligatoire) ainsi que le jeu de caractères (en anglais encoding) utilisé dans le
document (attribut facultatif).
Dans l’exemple de la figure A.1, on spécifie qu’il s’agit du jeu ISO-8859-1, jeu
LATIN, pour permettre de prendre en compte les accents français.
Le prologue se poursuit avec des informations facultatives sur des instructions
de traitement à destination d’applications particulières. Leur syntaxe est la suivante :
< ?instruction de traitement ?>.
2. XML fournit un moyen de vérifier la syntaxe d’un document grâce aux
DTD (Document Type Definition).
Il s’agit d’un fichier décrivant la structure des documents. Un document XML
doit suivre scrupuleusement les conventions de notation XML et peut éventuellement faire référence à une DTD décrivant l’imbrication des éléments possibles.
Un document suivant les règles de XML est appelé document bien formé. Un
document XML possédant une DTD et étant conforme à celle-ci est appelé
document valide. Une DTD peut être définie de 2 façons :
– sous forme interne, c’est-à-dire en incluant la grammaire au sein même
du document,
– sous forme externe, soit en appelant un fichier contenant la grammaire à
partir d’un fichier local ou bien en y accédant par son URL.
Annexe A. Document XML
Fig. A.1 – Exemple d’un document XML
176
Annexe A. Document XML
177
Un autre outil pour décrire la grammaire de document XML est le langage
de schéma XML [55]. Celui-ci apporte une grande souplesse dans la définition
des documents XML en permettant la prise en charge des types de données
garantissant le contenu à affecter à un élément XML et apportant une validation plus efficace, non seulement sur la structure du document, mais aussi sur
le type de son contenu.
Dans la figure A.1, la deuxième partie représente une DTD décrivant les composants d’un document XML.
La première ligne de la DTD sert à déclarer un élément de type annuaire composé d’éléments de type personne. D’après cette DTD, un élément de type personne doit avoir les éléments imbriqués de types : nom, prénom, ...et adresse.
L’expression ATTLIST de la troisième ligne de la DTD permet de déclarer un
attribut (exemple l’attribut type qui peut avoir soit une valeur =”étudiant” ou
”professeur”).
3. l’ensemble des éléments composant le document XML comme représenté
dans la troisième partie de la figure A.1.
Un élément est limité par une balise ouvrante dans laquelle on retrouve éventuellement la valeur de l’attribut (exemple l’attribut type de l’élément personne)
et une balise fermante. Il peut contenir directement l’information textuelle
(exemple l’élément nom) et/ou d’autres éléments qui sont imbriqués (exemple
l’élément adresse).
L’ensemble des éléments peut être représenté sous forme d’arbre décrivant d’une
manière plus simple les relations entre les différents éléments représentés par
des nœuds.
XML, outre le fait d’être particulièrement adapté à l’échange de données et
de documents, présente principalement les avantages suivants :
– La lisibilité : aucune connaissance ne doit théoriquement être nécessaire
pour comprendre le contenu d’un document XML
– Son caractère auto-descriptif et extensible
– Une structure arborescente : permettant de modéliser la majorité des
problèmes informatiques
– Universalité et portabilité : il peut être facilement distribué par n’importe
quel protocole et même de transporter du texte, comme HTTP. En outre,
les différents jeux de caractères sont pris en compte.
– Intégrabilité : un document XML est utilisable par toute application pourvue d’un parser (c’est-à-dire un logiciel permettant d’analyser un code
XML)
– Extensibilité : un document XML doit pouvoir être utilisable dans tous
les domaines d’applications.
Annexe A. Document XML
178
Fig. A.2 – L’arbre DOM d’un document XML
A.2
Les DOMs
Le Modèle d’Objet de Document (DOM) [195], développé par le W3C,
présente une interface de programmation d’applications (API : Applications
Programming Interface) qui définit la structure logique, les modes de gestion et
d’accès des documents XML, HTML et CSS (Cascading StyleSheet). Il permet
donc un accès dynamique aux documents et la mise à jour de leur contenu, de
leur structure et de leur style par l’intermédiaire de programmes ou de scripts.
On trouvera sur la figure A.2 un exemple d’arbre DOM associé au document
XML de la figure A.1 :
Dans l’arbre, les nœuds feuilles sont les nœuds comportant l’information
textuelle et qui ne possèdent pas de descendants (par exemple ”Pillou” est
un noeud feuille). La racine représente le document entier et ne possède pas
d’ancêtres (sur la figure, l’élément annuaire est la racine). Les nœuds intermédiaires (ou internes) sont des nœuds qui ont à la fois des ancêtres et
des descendants (sur la figure, les éléments personne, adresse et email sont des
nœuds intermédiaires).
Annexe A. Document XML
179
Fig. A.3 – Axes de navigation XPath
A.3
XPath
XPath [37] est un langage d’expression s’appliquant à XML ; il s’agit d’un
langage permettant de sélectionner des sous-arbres d’un document XML. Il
possède une syntaxe simple et non ambiguë et implémente des types usuels
(chaı̂nes, nombres, booléens, variables, fonctions). Il permet aussi de manipuler
des nœuds et des ensembles de nœuds. XPath est utilisé par Xpointer [74] et
XSLT [49].
Une expression XPath est un chemin de localisation constitué par une suite
d’élements ou d’attributs séparés par une barre de fraction (« / »). XPath
fournit des fonctions intégrées, permet d’utiliser des variables, de définir des
filtres et de spécifier des axes comme décrit dans la figure A.3.
Ces axes sont :
– child : : enfants du noeud contextuel
– descendant : : descendant du noeud contextuel
– parent : : parent du noeud contextuel
– ancestor : : ancêtre du noeud contextuel
– following-sibling : : tous les nœuds suivant le noeud contextuel et ayant
le même noeud parent
– preceding-sibling : : tous les nœuds précédant le noeud contextuel et
ayant le même noeud parent
– following : : tous les nœuds dans le même document que le noeud contextuel et étant après lui dans l’ordre du document (lecture séquentielle)
– preceding : : tous les nœuds dans le même document que le noeud
contextuel et étant avant lui dans l’ordre du document
– attribute : : attributs du noeud contextuel
– namespace : : nœuds espaces de nom du noeud contextuel
Annexe A. Document XML
180
– self : : le noeud contextuel lui-même
– descendant-or-self : : le noeud contextuel ou ses descendants
– ancestor-or-self : : le noeud contextuel ou ses ancêtres
On trouvera ci-dessous des exemples d’expression XPATH appliquées au
document de la figure A.1 :
– / : sélectionne l’élément qui englobe tout le document. Dans l’exemple il
s’agit de tout l’annuaire.
– //personne : sélectionne tous les éléments de type personne.
– /personne/email : sélectionne tous les éléments de type email appartenant à l’élément personne.
– //personne[@type=”étudiant”] : sélectionne tous les éléments de type
personne dont l’attribut type=” étudiant”
Bibliographie
[1] e-XML. Disponible sur http ://wwww.e-xmlmedia.fr.
[2] XQL (Langage d’interrogation de XML).
Disponible sur
http ://wwww.ibilio.org/xql, 1999.
[3] INitiative for the Evaluation of XML Retrieval.
disponible sur
http ://inex.is.informatik.uni-duisburg.de :2004/tracks/rel/, 2004.
[4] INitiative for the Evaluation of XML Retrieval.
disponible sur
http ://inex.is.informatik.uni-duisburg.de :2005/tracks/rel/, 2005.
[5] S. Abiteboul, D. Quass, J. McHugh J. Widom, and J. Wiener. The Lorel
Query Language for Semistructured Data. Disponible sur http ://citeseer.ist.psu.edu/abiteboul97lorel.html, 1997.
[6] M. Abolhassani and N. Fuhr. Applying the divergence from randomness
approach for content-only search in XML documents. In Proceedings of
ECIR 2004, Sunderland, pages 409–419, 2004.
[7] J. Allan, J. Callan, M. Sanderson, J. Xu, and S. Wegmann. INQERY at
TREC-7. In Proceedings of TREC-7, pages 201–216, 1998.
[8] S. Amer-Yahia, C. Botev, and J. Shanmugasundaram. Texquery : A fulltext search extension to Xquery. In Proceedings of WWW 2004, 2004.
[9] V.N. Anh and A. Moffat. Compression and an IR approach to XML
retrieval. In Proceedings of INEX 2002 Workshop, Dagstuhl, Germany,
2002.
[10] R. Attar and A.S. Fraenkel. Local feedback in full-text retrieval systems.
Journal of the ACM, 24(3) :pages 397–417, 1977.
[11] Ricardo Baea-Yates and Berthier Riberto-Neto. Modern Information Retrieval. New-York : ACP Press, Addison-Wesley, 1999.
[12] N. J. Belkin, A. Cabezas, C. Cool, K. Kim, K. B. Ng, S. Park, R. Pressman, S. Rieh, P. Savage, and H. Xie. Rutgers interactive track at trec-5.
In Proceedings of the Sixth Text Retrieval Conference (TREC-5)., pages
257–266, 1997.
[13] N. J. Belkin, J. Perez Carballo, C. Cool, S. Lin, S. Y. Park, S. Y. Rieh,
P. Savage, C. Sikora, H. Xie, and J. Allan. Rutgers’ trec-6 interactive
track experience. In Proceedings of the Sixth Text Retrieval Conference
(TREC-6)., pages 597–610, 1998.
Bibliographie
182
[14] N. J. Belkin, C. Cool, J. Koenemann, K. Bor Ng, and S. Park. Using
relevance feedback and ranking in interactive searching. In Proceedings of
the Fourth Text Retrieval Conference (TREC-4)., pages 181–210, 1996.
[15] N. J. Belkin, P. Kantor, E. A. Fox, and J. A. Shaw. Combining the
evidence of multiple query representations for information retrieval. In
Information Processing and Management., pages 431–448, 1995.
[16] N.J. Belkin, J. Perez Carballo, D. Kelly, S. Lin, S.Y. Park, S.Y. Rieh,
P. Savage-Knepshield, C. Sikora, and C. Cool. Rutgers’ trec-7 interactive
track experience. In Proceedings of the Seventh Text Retrieval Conference
(TREC-7)., pages 275–284, 1999.
[17] N.J. Belkin and W.B. Croft. Information retrieval and information filtering : two sides of the same coin ? Communications of the ACM, 35(12),
December 1992.
[18] S.K. Bhatia. Selection of search terms based on user profile. In
ACM/SIGAPP Symposium on Applied computing (vol I) : technological
challenges of the 1990’s. Proceedings of the 1992, pages 224–233, 1992.
[19] P. Bohannon, J. Freire, P. Roy, and J. Simeon. From XML schema to
relations : A cost-based approach to XML storage. In Proceedings of the
18th International Conference on Data Engineering (ICDE), San Jose,
CA, USA. Morgan Kaufmann, 2002.
[20] M. Boughanem, C. Chrisment, J. Mothe, C. Soulé-Dupuy, and L. Tamine.
Connexionist and genetic approaches to achieve ir. Soft Computing in Information Retrieval Techniques and application Editorial., pages 173,198,
2000.
[21] M. Boughanem, C. Chrisment, and C. Soule-Dupuy. Query modification
based on relevance backpropagation in adhoc environment. Information
Processing and Management, 35 :pages 121–139, 1999.
[22] Mohand Boughanem, Wessel Kraaij, and Jian-Yun Nie. Modèles de
langue pour la recherche d’information. In Les systèmes de recherche
d’informations, pages 163–182. Hermes-Lavoisier, 2004.
[23] C. Buckley. Why current ir engines fail. In SIGIR ’04 : Proceedings
of the 27th annual international ACM SIGIR conference on Research
and development in information retrieval, pages 584–585, New York, NY,
USA, 2004. ACM.
[24] C. Buckley, G. Salton, J. Allan, and A. Singhal. Automatic query expansion using SMART : TREC 3. In Text REtrieval Conference, pages 0–,
1994.
[25] C. Buckley, G. Salton, J. Allan, and A. Singhal. Automatic query expansion using smart : Trec-3. In Proceedings of the Third Text Retrieval
Conference (TREC-3)., pages 69–80, 1995.
[26] J. Callan. Passage-level evidence in document retrieval. In Proceedings
of SIGR 1994, Dublin, Ireland, pages 302–309, 1994.
Bibliographie
183
[27] I. Campbell. Supporting information needs by ostensive definition in
an adaptive information space. In MIRO ’95. electronic Workshops in
Computing, Springer Verlag., 1995.
[28] I. Campbell. Interactive evaluation of the ostensive model, using a new
test-collection of images with multiple relevance assessments. Journal of
Information Retrieval., 2(1) :89–114, 1999.
[29] I. Campbell and C. J. Van Rijsbergen. Ostensive model of information needs. In Proceedings of the Second International Conference on
Conceptions of Library and Information Science : Integration in Perspective (CoLIS 2)., pages 251–268, 1996.
[30] L. De Campos, Juan F. Huete, and Juan M. Fernndez-Luna. Document
instantiation for relevance feedback in the bayesian network retrieval model.
[31] D. Carmel, N. Efraty, G. Landau, Y. Maarek, and Y. Mass. An extension
of the vector space model for quering xml fragments. In ACM SIGIR’2002
Workshop on XML and IR. Finland, August 2002.
[32] S. Ceri, S. Comai, E. Damiani, P. Fraternali, S. Paraboschi, and L. Tanca.
XML-GL : A graphical language for querying and restructuring WWW
data. In Proceedings Of the 8th Int. WWW Conference, WWW8, Toronto, Canada, May 1999.
[33] D. Chamberlin, J. Robie, and D. Florescu. Quilt : An XML query language for heterogeneous data sources. In Proceedings of the 3rd Internation Workshop on World Wide Web and databases, Dallas, USA, pages
1–25, 2000.
[34] Y.K. Chang, C. Cirillo, and J. Razon. Evaluation of feedback retrieval
using modified freezing, residual collection and test and control groups.
The SMART retrieval system- experiments in automatic document processing, pages 355,370, 1971.
[35] J.-P. Chevallet and J.Y. Nie. Intégration des analyses du français dans
la recherche d’informations. In Recherche d’Informations Assistée par
Ordinateur (RIAO’97), Montreal, pages 761–772, jun 1997.
[36] Y. Chiaramella, P. Mulhem, and F. Fourel. A model for multimedia information retrieval. Technical report, Technical report, FERMI ESPRIT
BRA 8134, University of Glasgow, 1996.
[37] J. Clark and S. Derose. XML Path Language (XPath) , version 1.0.
Technical report, World Wide Web Consortium (W3C), W3C Recommendation, Novembre 1999.
[38] V. Claveau and P. Sébillot. Extension de requêtes par lien sémantique
nom-verbe acquis sur corpus. april 2004.
[39] D. Colazzo, C. Sartiani, A. Albano, P. Manghi, G. Ghelli, L. Lini, and
M. Paoli. A typed text retrieval query language for XML documents.
JASIST, 53(6) :pages 647–488, 2002.
Bibliographie
184
[40] B. Croft. Experiments with representations in a document retrieval system. Information Technology : Research and Developement., 35(4) :1,21,
1983.
[41] B. Croft and D. Harper. Using probabilistic models of information without relevance information. Journal of Documentation., 35(4) :285,295,
1979.
[42] W.B. Croft, R. Cook, and D. Wilder. Providing government information
on the internet : Experiences with THOMAS. U. of Mass. Technical
report 95-45, 1995.
[43] C. Crouch, A. Mahajan, and A. Bellamkonda. Flexible XML retrieval
based on the vector space model. In INEX 2004 Workshop Proceedings,
pages 292,302. Germany, December 2004.
[44] C. J. Crouch, S. Apte, and H. Bapat. An approach to structured retrieval based on the extended vector model. In Proceedings of INEX 2003
Workshop, pages 89,93. Germany, December 2003.
[45] C. J. Crouch and B. Yang. Experiments in automatic statistical thesaurus
construction. In Proceedings of the ACM-SIGIR Conference on Research
and Development in Information Retrieval , Copenhage, Denmark, pages
77–88, 1992.
[46] L. Denoyer and P. Gallinari. Bayesian network model for semistructured document classification. Information Processing and Management, 40 :807,827, 2004.
[47] L. Denoyer and P. Gallinari. The wikipedia xml corpus. SIGIR Forum,
40(1) :64–69, 2006.
[48] L. Denoyer, G. Wisniewski, and P. Gallinari. Document structure matching for heterogenous corpora. In Proceedings of the 27th Annual International ACM SIGIR Conference. Sheffield, United Kingdom, July 2004.
[49] S. Derose, E. Maler, and D. Orchard. XML Linking Language (XLink),
version 1.0. Technical report, World Wide Web Consortium (W3C),W3C
Recommendation, juin 2001.
[50] A. Deutsch, M. F. Fernandez, and D. Suciu. Storing semistructured data
with STORED. In A. Delis, C. Faloutsos, and S. Ghandeharizadeh, editors, Proceedings ACM SIGMOD International Conference on Management of Data, Philadelphia, Pennsylvania, USA, pages 431–442, June
1999.
[51] E. Efthimiadis and P. Biron. Ucla-okapi at trec-2 : query expansion
experiments. In Proceedings of the Second Text Retrieval Conference
(TREC-2)., pages 279–290, 1994.
[52] E.N. Efthimiadis. Interactive query expansion : a user based evaluation
in relevance feedback environment. Journal of the American Society for
Information Science, 51(11) :989,1003, 2000.
Bibliographie
185
[53] D. Ellis. A behavioural approach to information system design. Journal
of Documentation., 45(3) :171–212, 1989.
[54] E-XMLMedia
XMLizer.
http
://www.e-xmlmedia.fr/sitefrancais/produits-xmlizer.htm.
[55] D.C. Fallside. XML Schema. Technical report, World Wide Web Consortium (W3C),W3C Recommendation, 2001.
[56] M. Fernandez. XQuery 1.0 and XPath 2.0 Data Model W3C Working
Draft. Disponible sur http ://wwww.w3.org/TR/xpath-datamodel/, October 2004.
[57] D. Florescu and D. Kossmann. Storing and querying XML data using an
RDMBS. IEEE Data Engineering Bulletin, 22(3) :pages 27–34, 1999.
[58] C. Fox. Lexical analysis and stoplists, pages 102–130. Frakes W B, BaezaYates R (eds) Prentice Hall, New jersey, 1992.
[59] W. B. Frakes. Stemming Algorithms, pages 131–160. Frakes W B, BaezaYates R (eds) Prentice Hall, New jersey, 1992.
[60] N. Fuhr, N. Govert, G. Kazai, and M. Lalmas. Proceedings of the first
workshop of the initiative for the evaluation of XML retrieval (INEX
2002), 2002.
[61] N. Fuhr and K. Grossjohann. XIRQL : a query language for information
retrieval in XML documents. In In Proceedings of SIGIR 2001, Toronto,
Canada, 2003.
[62] N. Fuhr, M. Lalmas, and S. Malik. INEX 2003 workshop proceedings,
2003.
[63] N. Fuhr, M. Lalmas, S. Malik, and Z. Szlavik. INEX 2004 workshop
proceedings. Springer, 2004.
[64] N. Fuhr, M. Lalmas, and A. Trotman. INEX 2006 workshop proceedings,
2006.
[65] N. Fuhr, Mounia Lalmas, S. Malik, and G. Kazai. INEX 2005 workshop
proceedings, 2005.
[66] N. Gövert, M. Abolhassani, N. Fuhr, and K. Grossjohann. Contentoriented XML retrieval with hyrex. In Proceedings INEX 2002, Dagstuhl,
Germany, 2002.
[67] N. Gövert, M. Abolhassani, N. Fuhr, and K. Grossjohann. Contentoriented XML retrieval with hyrex. In Proceedings INEX 2002, Dagstuhl,
Germany, 2002.
[68] S. Geva. Gpx-gardens point xml information retrieval at inex 2004. In
INEX 2004 Workshop Proceedings, pages 211,223. Dagsthul, Germany,
December 2004.
[69] S. Geva, M. Hassler, and X. Tannier. XOR - XML Oriented Retrieval
Language. In Proceedings of ACM SIGIR 2006 Workshop on XML Element Retrieval Methodology, Seattle, WA, USA. ACM Press, New York
City, NY, USA, August 2006.
Bibliographie
186
[70] C. Goldfarb. The SGML Handbook. Oxford University Press, Oxford,
1990.
[71] T. Grabs and H.-J. Scheck. Flexible information retrieval from xml with
PowerDB XML. In Proceedings of INEX 2002, Dagstuhl, Germany, pages
26–32, December 2002.
[72] T. Grabs and H. Schek. Eth zurich at inex, flexible information retrieval
from xml with powerdb-xml. In Proceedings of the First Workshop of
the INiative for the Evaluation of XML REtrieval(INEX), pages 141,148.
Dagsthul, Germany, December 2002.
[73] Torsten Grabs. Storage and Retrieval of XML Documents within a Cluster of Database Systems. PhD thesis, Ecole Polytechnique Fédérale de
Zürich, 2003.
[74] P. Grosso, E. Maler, J. Marsh, and N. Walsh. XML Pointer Language
(XPointer). Technical report, World Wide Web Consortium (W3C),W3C
Recommendation, march 2003.
[75] T. Grust. Accelerating xpath location steps. In SIGMOD ’02 : Proceedings of the 2002 ACM SIGMOD international conference on Management of data, pages 109–120, New York, NY, USA, 2002. ACM Press.
[76] A. Gutierrez, R. Motz, and D. Viera. Building databases with information extracted from web documents. In Proceedings XX international
conference of the Chilean computer sciences society, pages 41–49, 2000.
[77] D. Haines and W.B. Croft. Relevance feedback and inference network.
In 16t h Annual International ACM SIGIR Conference on Research and
developement in Information Retrieval, pages 2,11, 1993.
[78] D. Harman. Towards interactive query expansion. In 11t h Annual International ACM SIGIR Conference on Research and developement in
Information Retrieval, pages 321,331, 1988.
[79] D. Harman. Relevance feedback revisited. In 15t h Annual International
ACM SIGIR Conference on Research and developement in Information
Retrieval, pages 1,10, 1992.
[80] K. Hatano, H. Kinutani, and M. Watanabe. An appropriate unit of retrieval results for xml document retrieval. In Proceedings of the First
Workshop of the INiative for the Evaluation of XML REtrieval (INEX).
Dagsthul, Germany, Decemder 2002.
[81] D. Hiemstra. A linguistically motivated probabilistic model of information retrieval. In Proceedings of the 2nd European Conference on Research
and Advanced Technology for Digital Libraries (ECDL), pages 569–584,
1998.
[82] L. Hlaoua, , M. Torjmen, K. Pinel-Sauvagnat, and M. Boughanem.
XFIRM at INEX 2006. Ad-hoc, Relevance Feedback and MultiMedia
tracks. In International Workshop of the Initiative for the Evaluation of
XML Retrieval (INEX), Dagstuhl, Allemagne, 18/12/2006-20/12/2006,
2006.
Bibliographie
187
[83] L. Hlaoua. Recherche d’Information dans des Documents XML : Utilisation d’une Technique de Propagation de la Pertinence. rapport dea,
Université Paul Sabatier de Toulouse, 2004.
[84] L. Hlaoua. Reformulation de Requêtes par Structure en RI dans
les Documents XML. In Conférence francophone en Recherche d’Information et Applications, Lyon, 15/03/06-17/03/06, pages 395–400,
http ://www.irit.fr/ARIA, mars 2006. Association Francophone de Recherche d’Information et Applications (ARIA).
[85] L. Hlaoua and K. Pinel-Sauvagnatand M. Boughanem. Relevance Feedback for XML Retrieval : using structure and content to expand queries.
In Colette Rolland, Oscar Pastor, and Jean-Louis Cavarero, editors, International Conference on Research Challenges in Information Science
(RCIS), Ouarzazate- Maroc, 23/04/2007-26/04/2007, pages 195–202,
http ://www.emsi.ma/, avril 2007. EMSI - Ecole MArocaine des Sciences
de l’Ingénieur.
[86] L. Hlaoua and M. Boughanem. Towards Contextual and Structural Relevance Feedback in XML Retrieval. In Michel Beigbeder and Wai Gen Yee,
editors, workshop on Open Source Web Information Retrieval, compiègne,
19/09/05, pages 35–38. ISBN :2-913923-19-4, septembre 2005.
[87] L. Hlaoua, M. Boughanem, and K. Pinel-Sauvagnat. Combination of
Evidences in Relevance Feedback for XML Retrieval. In Conference on
Information and Knowledge Management (CIKM), Lisbonne, Portugal,
novembre 2007.
[88] L. Hlaoua, M. Boughanem, and K. Pinel-Sauvagnat. Using a Contentand-Structure Oriented Method for Relevance Feedback in XML Retrieval. In Large-Scale Semantic Access to Content (Text, Image, Video and
Sound) (RIAO), Pittsburgh (PA) États-Unis, 30/05/2007-01/06/2007,
page (electronic medium), http ://www.le-cid.org, juin 2007.
[89] L. Hlaoua, M. Boughanem, and K. Sauvagnat. Combinaison des caractéristiques des termes pour l’extension des requêtes en recherche d’information dans les documents xml. In CORIA 2007, pages 77,92. Saint
Etienne, Mars 2007.
[90] L. Hlaoua and K. Sauvagnat. Structure-oriented relevance feedback in
xml retrieval. In InSciT2006. , Merida, Espagna, October 2006.
[91] L. Hlaoua, K. Sauvagnat, and M. Boughanem. Réinjection de structures
pour la reformulation de requêtes en ri structurée. In INFORSID 2006,
pages 435,450. Hammet, Tunisie, Juin 2006.
[92] L. Hlaoua, K. Sauvagnat, and M. Boughanem. A structure-oriented relevance feedback method for xml retrieval. In Proceedings of the 15t h
ACM Annual Conference on Information and Knowlege Management
CIKM’06. Arlington, Virginia, USA., November 2006.
[93] G. Hubert. A voting method for XML retrieval . In Norbert Fuhr, Mounia Lalmas, and Saadia Malik, editors, Advances in XML Information
Bibliographie
188
Retrieval : Third International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2004, LNCS 3493 / 2005 , Dagstuhl,
Germany, , pages 183–196. Springer-Verlag GmbH, mai 2005. Dates de
conférence : mai 2005 2005.
[94] G. Huck, I. Macherius, and P. Fankhauser. PDOM : Lightweigt persistency support for the document object model. In Succeeding with Object
Databases,John Wiley, 2000.
[95] E Ide. New experiments in relevance feedback. In The SMART retrieval
system - experiments in automatic document processing., pages 337–354,
1971.
[96] P. Ingwersen. Polyrepresentation of information needs and semantic entities : elements of a cognitive theory for information retrieval interaction. In Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.,
pages 101–110, 1994.
[97] P. Ingwersen. Cognitive perspectives of information retrieval interaction :
elements of a cognitive ir theory. Journal of Documentation., 52(1) :3–50,
1996.
[98] H.C. Jang, Y.I. Kim, and D.W. Shin. An effective mechanism for index
update in structured documents. In Proceedings ACML CIKM, Kansas
City, pages 383–390, 1999.
[99] K.S. Jones. Further reflections on trec. Inf. Process. Manage., 36(1) :37–
85, 2000.
[100] Y.Choy K. Lee and S. Cho. An efficient algorithme to compute differences
between structured documents. IEEE Transaction On Knowledge and
Data Engineering, 16(8), August 2004.
[101] V. Kakade and P. Raghavan. Encoding XML in vector spaces. In Proceedings of ECIR 2005, Saint Jacques de Compostelle, Spain, 2005.
[102] J. Kamps, M. de Rijke, and B. Sigurbjornsson. Length normalization in
XML retrieval. In Proceedings of SIGIR 2004, Sheffield, England, pages
80–87, 2004.
[103] C.-C. Kanne and G. Moerkotte. Efficient storage of XML data. In In
Proceedings of the 16th International Conference on Data Engineering,
San Diego, California, USA, page 198, 2000.
[104] M. Kaszkiel and J. Zobel. Passage retrieval revisited. In Proceedings of
SIGIR 1997, Philadelphia, USA, pages 178–185, 1997.
[105] G. Kazai and M. Lalmas. Inex 2005 evaluation metrics. In INEX 2005
Workshop Pre-Proceedings, pages 401,406. Germany, November 2005.
[106] G. Kazai, M. Lalmas, and T. Roelleke. A model for the representation
and focused retrievel of structured documents based on fuzzy aggregation.
In SPIRE’2001, pages 123,135. Lagune de San Rafaël, Chile, 2001.
Bibliographie
189
[107] G. Kazai, M. Lalmas, and T. Roelleke. Focused document retrieval,.
In 9th International Symposium on string processing and information
retrieval, Lisbon, Portugal, September 2002.
[108] C.C. Kuhlthau. Principle for uncertainty for information seeking. Journal
of Documentation., 49(4) :339–355, 1993.
[109] J. Fernandez-Luna L. Compos and J. Huete. Using context information in
structured document retrieval : An approch based on influence diagrams.
Information Processing and Management, 40 :829,847, 2004.
[110] M. Lalmas. Dempster shafer s theory of evidence applied to structured
documents : modelling uncertainty. In Proceedings of annual international
ACM SIGIR’97 Conference, pages 110–118. Philadelphia PA, USA, 1997.
[111] R.R. Larson. Cheshire ii at inex : Using a hybrid logistic regression and
boolean model for xml retrieval. In Proceedings of the First Workshop of
the INiative for the Evaluation of XML REtrieval(INEX), pages 18,25.
Dagsthul, Germany, December 2002.
[112] R.R. Larson. Cheshire ii at inex’04 : Fusion and feedback for the adhoc
and heterogenous tracks. In INEX 2004 Workshop Proceedings, pages
322,336. Dagsthul, Germany, December 2004.
[113] O. Lassila and R.R. Swick. Resource Description Framework (RDF) model and syntax specification. Technical report, World Wide Web Consortium (W3C),W3C Recommendation, Februar 1999.
[114] J. H. Lee. Combining the evidence of different relevance feedback methods for information retrieval. Information Processing and Management., 34(6) :681–691, 1998.
[115] Y.K. Lee, S.J. Yoo, and K. Yoon. Index structures for structured documents. In In Proc. ACM Workshop on XML and IR, Bethesda, pages
91–99, 1996.
[116] M. Lehtonen. Extirp 2004 : Towards heterogeneity. In INEX 2004 Workshop Proceedings, pages 372,381. Dagsthul, Germany, December 2004.
[117] A. Levy, M. Fernandez, D. Suciu, D. Florescu, and A. Deutsch. XMLQL : A query language for XML. Technical report, World Wide Web
Consortium technical report, Number NOTE- xml-ql-19980819, 1998.
[118] Q. Li and B. Moon. Indexing and querying XML data for regular path
expressions. In Proceedings of the 27th VLDB Conference, Roma, Italy,
2001.
[119] Y. Li, C. Yu, and H.V. Jagadish. Schema-free xquery. In VLDB, 2004.
[120] W. Lian and D. Cheung. An efficient and scalable algorithme for clustering xml documents by structure. IEEE Transaction And Data Engineering, 16(1), 2004.
[121] J. A. List, V. Mihajlovic, A. P. de Vries, and G. Ramirez. The TIJAH
XML-IR system at INEX 2003. In Proceedings of INEX 2003 Workshop,
pages 102,109. Dagsthul, Germany, December 2003.
Bibliographie
190
[122] R.W.P. Luk, H.V. Leong, T.S. Dillon, A.T.S. Shan, W.B Croft, and J. Allan. A survey in indexing and searching XML documents. Journal of the
American Society for Information Science and Technology, 53(3) :pages
415–435, 2002.
[123] C. Lundquist, D. Grossman, and O. Frieder. Improving relevance feedback in the vector space model. In Proceedings of the 6t h ACM Annual Conference on Information and Knowlege Management (CIKM’97),
1997.
[124] M. Maron and J. Kuhns. On relevance, probabilistic indexing and information retrieval. Journal of the Association for Computing Machinery,
7 :pages 216–244, 1960.
[125] M. Marx, J. Kamps, M. Rijke, and B. Sigurbjornsson. The importance of
morphological normalization for xml retrieval. In Proceedings of the First
Workshop of the INiative for the Evaluation of XML REtrieval(INEX),
pages 41,48. Dagsthul, Germany, December 2002.
[126] Y. Mass and M. Mandelbrod. Retrieving the most relevant xml components. In Proceedings of INEX 2003 Workshop, pages 53,58. Dagsthul,
Germany, December 2003.
[127] Y. Mass and M. Mandelbrod. Component ranking and automatic query
refinement for XML retrieval. In INEX 2004 Workshop Proceedings, pages
73,84. Dagsthul, Germany, December 2004.
[128] Y. Mass and M. Mandelbrod. Relevance feedback for XML retrieval. In
INEX 2004 Workshop Proceedings, pages 303,310. Germany, December
2004.
[129] Y. Mass, M. Mandelbrod, E. Amitay, Y. Maarek, and A. Soffer.
JuruXML-an XML retrieval system at INEX’02. In Proceedings of
the First Workshop of the INiative for the Evaluation of XML REtrieval(INEX), pages 73,80. Dagsthul, Germany, Decemder 2002.
[130] M.I. M.Azevedo, L.P. Amorim, and N. Ziviani. A universal model for
xml information retrieval. In INEX 2004 Workshop Proceedings, pages
311,321. Dagsthul, Germany, December 2004.
[131] V. Mihajlovic, G. Ramirez, A.P de Vries, D. Hiemstra, and H.E. Blok.
TIJAH at INEX 2004 modeling phrases and relevance feedback. In INEX
2004 Workshop Proceedings, pages 276,291. Germany, December 2004.
[132] V. Mihajlovic, G. Ramirez, T. Westerveld, H.E. Block, A.P de Vries, and
D. Hiemstra. TIJAH scratches INEX 2005 vague element selection, overlap, image search, relevance feedback, and users. In INEX 2005 Workshop
Pre-Proceedings, pages 54,71. Dagsthul, Germany, November 2005.
[133] G.A. Miller. Wordnet : A lexical database for english. In HLT, 1994.
[134] M. Mitra, A. Singhal, and C. Buckley. Improving automatic query expansion. In Proceedings of the Twenty-First Annual International ACM
SIGIR Conference on Research and Development in Information Retrieval., pages 206–214. Melbourne, 1998.
Bibliographie
191
[135] P. Ogilvie and J. Callan. Combining document representations of knownitem search. In Proceedings of annual international ACM SIGIR Conference. Toronto, Canada, 2003.
[136] P. Ogilvie and J. Callan. Combining document representations of knownitem search. In Proceedings of the 26st Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval, pages
143–150. Tronoto, Canada, July,28-August,1 2003.
[137] J. Parikh and S. Kapur. Unity : relevance feedback using user query logs.
In SIGIR ’06 : Proceedings of the 29th annual international ACM SIGIR
conference on Research and development in information retrieval, pages
689–690, New York, NY, USA, 2006. ACM Press.
[138] H. J. Peat and P. Willett. The limitations of term co-occurrence data for
query expansion in document retrieval systems. Journal of the American
Society for Information Science., 42(5) :pages 378–383, 1991.
[139] K. Pinel-Sauvagnat, L. Hlaoua, and M. Boughanem. XML retrieval :
what about using contextual relevance ? In Annual ACM Symposium on
Applied Computing (SAC), Dijon, 23/04/2006-27/04/2006, pages 1114–
1120, http ://www.acm.org/, avril 2006. ACM Press.
[140] B. Piwowarski. Working group report : the assessment tool. In Proceedings of INEX 2003, Dagstuhl, Germany, pages 181–183, December
2003.
[141] B. Piwowarski. Eprum metrics and inex 2005. In Norbert Fuhr, Mounia
Lalmas, Saadia Malik, and Gabriella Kazai, editors, INEX, volume 3977
of Lecture Notes in Computer Science, pages 30–42. Springer, 2005.
[142] B. Piwowarski, G. Faure, and P. Gallinari. Bayesian networks and inex.
In Proceedings of the First Workshop of the INiative for the Evaluation
of XML REtrieval(INEX), pages 149,154. Dagsthul, Germany, December
2002.
[143] J.M. Ponte and W.B. Croft. A language modelling appraoch to information retrieval. In Proceedings of the 21st Annual International ACM
SIGIR Conference on Research and Development in Information Retrieval, pages 40–48, 1998.
[144] M. F. Porter. An algorithm for suffix stripping. Program 14, 1980.
[145] Y. Qiu and H.P. Frei. Concept based query expansion. In Proceedings
of the 16th ACM SIGIR Conference on Research and Development in
Information Retrieval, Pittsburgh, PAA, USA, pages 160–169, 1993.
[146] B. A. Ribeiro-Neto and R. Muntz. A belief network model for IR. In
Proceedings Of the 19th annual International ACM SIGIR Conference
on Research and Development in Information Retrieval, Zurich, Suisse,
pages 253–260, 1996.
[147] C. J. Van Rijsbergen. Information retrieval. Butterworths. 2nd edition.,
1979.
Bibliographie
192
[148] C.J. Van Rijsbergen, D. Harper, and M. Porter. The selection of good
search terms. Information Processing and Management., 17(2) :pages
77–91, 1981.
[149] S. Robertson, S. Walker, S. Jones, M. Hancock-Beaulieu, and M. Gatford.
Okapi at TREC 3. In Proceedings of the 3rd Text REtrieval Conference
(TREC-3), pages 109–126, 1994.
[150] S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu, and
M. Gatford. Okapi at trec-3. In Proceedings of the Third Text Retrieval
Conference (TREC-3)., pages 109–126, 1995.
[151] S.E. Robertson. The probability ranking principle in IR. Journal of
Documentation, 33(4) :pages 294–304, 1977.
[152] S.E. Robertson and J.K.Sparck-Jones. Relevance weighting of search
terms. Journal of the American Siciety for Information Science,
27(3) :129, 146, 1976.
[153] S.E. Robertson, S.E. Walker, and M.M. Beaulieu. Large test collection
experiments on an operational interactive system : Okapi at trec. Information Processing & Management Journal, 31 :260,345, 1995.
[154] J.J. Rocchio. Relevance feedback in information retrieval. In The SMART
retrieval system-experiments in automatic document processing, pages
313,323. Prentice Hall Inc, 1971.
[155] T. Roelleke, M. Lalmas, G. Kazai, J. Ruthven, and S. Quicker. The
accessibility dimension for structured document retrieval. In Proceedings
of ECIR 2002, 2002.
[156] I. Ruthven and M. Lalmas. Selective relevance feedback using term characteristics. CoLIS 3, Proceedings of the Third International Conference
on Conceptions of Library and Information Science., 1999.
[157] I. Ruthven and M. Lalmas. A survey on the use of relevance feedback for
information access systems. Knowl. Eng. Rev., 18(2) :95–145, 2003.
[158] I. Ruthven, M. Lalmas, and C.J. Van Rijsbergen. Ranking expansion
terms using partial and ostensive evidence. In Proceedings of the 4th
International Conference on Conceptions of Library and Information
Science. CoLIS 4., pages 109–126. Seattle, 2002.
[159] I. Ruthven, M. Lalmas, and K. Rijsbergen. Combining and selecting
characteristics of information use. JASIST, 53(5) :378,396, 2002.
[160] G. Salton. A comparison between manual and automatic indexing methods. Journal of the American Documentation, 20(1) :61,71, 1971.
[161] G. Salton. Automatic text processing : The transformation, analysis and
retrieval of information by computer. Addison-Wesley publishing, MA,
1989.
[162] G. Salton and C Buckley. Improving retrieval performance by relevance feedback. Journal of the Jmerican Society of Information Science,
41(4) :288,297, 1990.
Bibliographie
193
[163] G. Salton, E.A. Fox, and H. Wu. Extended boolean information retrieval.
Communications of the ACM, 31(2) :1002–1036, November 1983.
[164] G. Salton and M. McGill. Introduction to modern information retrieval.
McGraw-Hill Book Company, page 1, 1983.
[165] K. Sauvagnat. Xfirm, un modèle flexible de recherche d’information pour
le stockage et l’indexation de documents xml. In Actes de CORIA’04,
pages 121,142. Toulouse, France, Mars 2004.
[166] K. Sauvagnat. Modèle flexible pour la recherche d’information dans des
corpus de documents semi-structurés . Thèse de doctorat, Université Paul
Sabatier, Toulouse, France, juin 2005.
[167] K. Sauvagnat and M. Boughanem. Recherche d’Information dans les
documents XML. rapport interne, Université Paul Sabatier de Toulouse,
2004.
[168] K. Sauvagnat, L. Hlaoua, and M. Boughanem. Xfirm at inex 2005 : ad-hoc
and relevance feedback track. In INEX 2005 Workshop Pre-Proceedings,
pages 72,83. Germany, November 2005.
[169] R. Schenkel and M. Theobald. Relevance feedback for structural query
expansion. In INEX 2005 Workshop Pre-Proceedings, pages 260,272. Germany, November 2005.
[170] T. Schileder and H. Meuss. Querying and ranking XML documents.
Journal of the American Society for Information Science and Technology,
53(6) :pages 489–503, 2002.
[171] A. Schmidt, M. Kersten, and M. Windhouwer. Querying xml documents
made easy : nearest concept queries. In Data Engineering, 2001. Proceedings. 17th International Conference, pages 321–329, 2001.
[172] G. Shafer. A mathematical theory of evidence. Princeton, NJ : Princeton
University Press, 1976.
[173] D.W. Shin, H.C. Jang, and H.L Jin. BUS : an effective indexing and retrieval scheme in structured documents. In Proceedings of digital libraries,
Pittsburgh, pages 235–243, 1998.
[174] B. Sigurbjörnsson, J. Kamps, and M. de Rijke. An element-based approach to XML retrieval. In Proceedings of INEX 2003 workshop, Dagstuhl, Germany, dec. 2003.
[175] B. Simonnot. Modélisation multi-agents d’un système de recherche d’information multimédia à forte composante vidéo, (Multi-Agent Modelling
of a multimedia information retrieval system for still images and videos
collections). Phd thesis, Henri Poincaré University, 1996.
[176] A. Singhal, J. Choi, D. Hindle, and F. C. N.Pereira. ATT at TREC-6 :
SDR track. In Text REtrieval Conference, pages 227–232, 1997.
[177] A. Singhal, M. Mitra, and C. Buckley. Learning routing queries in a query
zone. In 20t h Annual International ACM SIGIR Conference on Research
and developement in Information Retrieval, pages 25,32, 1997.
Bibliographie
194
[178] A. Smeaton and C.J. Van Rijsbergen. The retrieval effects of query expansion on a feedback document retrieval system. The Computer Journal.,
26(3) :239,246, 1983.
[179] K. Sparck-Jones and R. Needham. Automatic theme classification and
retrieval. Information Processing and Management, 4 :91,100, 1972.
[180] J. Spiegel and E. Bennett. A modified statistical association procedure
for automatic document content analysis and retrieval. In Statistical
Association Methods For Mechanized Documentation. National Bureau of
Standards Miscellaneous Publications 269., pages 47–60. M. E. Stevens,
V. E. Guiliano and L. B. Heilprin. eds, 1964.
[181] A. Spink and T. D. Wilson. Toward a theoretical framework for information retrieval (ir) evaluation in an information seeking context. In Mira
’99 : Evaluating Information Retrieval., 1999.
[182] R. G. Sumner, K. Yang, R. Akers, and W. M. Shaw. Interactive retrieval
using iris : Trec-6 experiments. In Proceedings of the Sixth Text Retrieval
Conference (TREC-6)., pages 711–734, 1998.
[183] C. Sun, C. Chan, and A.K. Goenka. Multiway slca-based keyword search
in xml data. In WWW ’07 : Proceedings of the 16th international conference on World Wide Web, pages 1043–1052, New York, NY, USA, 2007.
ACM Press.
[184] L. Tamine. Optimisation de requêtes dans un système de recherche d’information. Phd, Université Paul Sabatier de Toulouse, December 2000.
[185] A. Theobald and G. Weikum. The index-based XXL search engine for
querying XML data with relevance ranking. In EDBT 2002, 8th International Conference on Extending Database Technology, Prague, Czech
Republic, pages 477–495, 2002.
[186] A. Trotman. Choosing document structure weights. Information Processing and Management, 41 :243,265, 2005.
[187] A. Trotman and M. Lalmas. Why structural hints in queries do not help
xml-retrieval. In SIGIR, pages 711–712, 2006.
[188] A. Trotman and R. A. O’Keefe. Identifing and ranking relevant document element. In Proceedings of INEX 2003 Workshop, pages 149,154.
Dagsthul, Germany, December 2003.
[189] A. Trotman and R. A. O’Keefe. The simplest query language that could
possibly work. In Proceedings of INEX 2003 Workshop, pages 167,174.
Dagsthul, Germany, December 2003.
[190] A. Trotman and B. Sigurbjornsson. Narrowed extended xpath i(nexi).
In INEX 2004 Workshop Proceedings, pages 16,40. Germany, December
2004.
[191] H. Turtle. Inference Networks for Document Retrieval. Phd thesis, University of Massachusetts, 1991.
Bibliographie
195
[192] H. Turtle and W.B. Croft. Inference networks for document retrieval.
In A. Bookstein, Y. Chiarmella, G. Salton, and V. Raghavan, editors,
Proceedings of ACM SIGIR, pages 1,24, 1990.
[193] C. Vogt. Adaptive combination of evidence for information retrieval. PhD
thesis, University of California, San Diego, 1999.
[194] Ellen M. Voorhees. The trec robust retrieval track. SIGIR Forum,
39(1) :11–20, 2005.
[195] W3C. DOM Level 1 (Document Object Model). Technical report, World
Wide Web Consortium (W3C), W3C standard, october 1998.
[196] W3C.
Extensible markup language (XML).
Disponible sur
http ://www.w3.org/TR/1998/REC-xml-19980210, 1998.
[197] S. Walker, S.E. Robertson, M. Boughanem, G.J.F. Jones, and K. Sparck
Jones. Okapi at trec-6 : Automatic ad hoc, vlc, routing, filtering and
qsdr.
[198] F. Weigel, H. Meuss, F. Bry, and K.U. Schulz. Content-aware dataguides :
Interleaving IR and DB indexing techniques for efficient retrieval of textual XML data. In Proceedings of ECIR 2004, Sunderland, UK, pages
378–393, 2004.
[199] Z. Wen. New algorithms for the lca problem and the binary tree reconstruction problem. Information Processing. Lett, 51(1) :11, 16, 1994.
[200] R. Wilkinson. Effective retrieval of structured documents. In Proceedings
of SIGIR 1994, Dublin, Ireland, pages 311–317, 1994.
[201] J.E. Wolff, H. Florke, and A.B. Cremers. Searching and browsing collections of structural information. In Proceedings of IEEE advances in
digital libraries, Washington, 2000, pages 141–150, 2000.
[202] H. Wu and G. Salton. The estimation of term relevance weights using
relevance feedback. Journal of Documentation, 37(4) :194,214, 1981.
[203] Y. Xu and Y. Papakonstantinou. Efficient keyword search for smallest
lcas in xml databases. In SIGMOD ’05 : Proceedings of the 2005 ACM
SIGMOD international conference on Management of data, pages 527–
538, New York, NY, USA, 2005. ACM Press.
[204] R.R. Yager. On ordered weighted averaging aggregation operators in
multi-criteria decision making. IEEE Transactions on Systems, Man and
Cybernetics, 18 :pages 183–190, 1988.
[205] M. Yoshikawa, T. Amagasa, T. Shimura, and S. Uemura. XRel : A pathbased approach to storage and retrieval of XML documents using relational databases. ACM Transactions on Internet Technology, 1(1) :pages
110–141, 2001.
[206] H. Zargayouna. Contexte et sémantique pour une indexation de documents semi-structurés. In Actes de CORIA 04, Toulouse, France, pages
161–178, 2004.
Bibliographie
196
[207] G. Zipf. Human Behaviour and the Principle of Least Effort. AddisonWesley, 1949.
[208] J. Zobel, A. Moffat, R. Wilkinson, and R. Sacks-Davis. Efficient retrieval of partial documents. Information Processing and Management,
31(3) :pages 361–377, 1995.