TALN 2004, Fès, 19-22 avril 2004
@GEWEB : Agents personnels d’aide à la recherche sur le Web
Mohamed Yassine El Amrani (1), Sylvain Delisle (2) et Ismaïl Biskri (2)
(1) Département de mathématiques et d’informatique – Université de
Sherbrooke
2500, Boul. de l’Université, Sherbrooke (Québec), J1K 2R1, Canada
elamrani@dmi.usherb.ca
(2) Département de mathématiques et d’informatique – Université du Québec à
Trois-Rivières
3351, Boul. Des Forges CP 500, Trois-Rivières (Québec) G9A 5H7, Canada
{delisle, biskri}@uqtr.ca
Résumé – Abstract
Nous présentons dans cet article un logiciel permettant d’assister l’usager, de manière
personnalisée lors de la recherche documentaire sur le Web. L’architecture du logiciel est
basée sur l’intégration d’outils numériques de traitements des langues naturelles (TLN). Le
système utilise une stratégie de traitement semi-automatique où la contribution de l’utilisateur
assure la concordance entre ses attentes et les résultats obtenus.
We here present a new software that can help the user to formulate his web search queries and
customize the information retrieval tasks to her individual and subjective needs. The
software’s architecture is based on numeric natural language processing tools. The software
involves a semi-automatic processing strategy in which the user’s contribution ensures that the
results are useful and meaningful to her.
Mots-clés – Keywords
Reformulation de requêtes, Extraction de l’information, Personnalisation.
Text mining, Web customization, Query reformulation, Information retrieval.
1 Introduction
De part sa nature, Internet est alimenté en informations diverses dont la quantité colossale et
la fiabilité peu vérifiable rendent la tâche des outils de recherche très problématique. Dans la
continuité de nos recherches précédentes (El Amrani et al., 2001; El Amrani, 2001), notre
objectif principal est d’offrir une aide personnalisée aux utilisateurs des outils de recherche
Mohamed Yassine El Amrani, Sylvain Delisle et Ismaïl Biskri
documentaire sur le Web, durant les phases critiques de leurs recherches : la formulation de la
requête et l’évaluation des résultats. Il est important que l'utilisateur puisse contrôler tous les
traitements effectués durant ces différentes phases pour rendre les recherches
informationnelles sur le Web plus adaptées. Notre contribution consiste (1) à permettre aux
usagers de personnaliser l’assistance proposée lors de la phase de reformulation de la requête
et (2) à utiliser la classification pour regrouper les documents similaires obtenus par les
moteurs de recherche pour un meilleur filtrage des résultats. Pour ce faire, nous allons utiliser
les systèmes de recherche conventionnels et y greffer des outils permettant d’assister les
usagers à paramétrer les différents traitements selon leurs besoins.
2 La recherche informationnelle sur le Web
Le processus de recherche peut être subdivisé en deux phases principales : la formulation de la
requête et l’évaluation des résultats de la recherche. Ces phases sont itérées jusqu’à
l’obtention de documents satisfaisants ou l’abandon de la recherche par l’usager. Pour ce qui
est de cette première phase du processus de recherche, des techniques variées peuvent être
appliquées pour faciliter la recherche documentaire sur le Web (Hust, 2004; Tamine,
Boughanem, 2001). Utilisant l’approche automatique pour la reformulation des requêtes pour
les préciser de manière itérative, Carpineto et al. (2002) appliquent des fonctions de mise à
jour des poids des termes des requêtes. La sélection des termes à ajouter est effectuée de
manière automatique en fonction de leurs apparitions dans les documents obtenus grâce à la
requête initiale en se limitant seulement aux documents présents au début de la liste des
résultats de la requête précédente. C’est ainsi que McArthur et Bruza (2000) proposent le
système HiB (Hyper-index Browser) qui permet aux usagers de choisir les termes à inclure
dans leur requête pour la raffiner. HiB utilise les moteurs de recherche pour extraire et
associer à la requête initiale des termes ou expressions issus des documents résultants de cette
première requête. Il construit de manière automatique un « index », tableau de requêtes
potentielles, mais se limite à l’ajout de nouveaux termes en conservant la requête initiale. La
seconde phase du processus de recherche consiste à évaluer les résultats obtenus grâce aux
systèmes de recherche. Pour faciliter cette étape, les techniques de classifications numériques
(Turenne, 2000), permettent de regrouper des documents présentant certaines similarités dans
leur contenu. L’usager évalue les classes de documents et non chaque document. Nous
utiliserons ces techniques de classification (Salvatierra et al. (1999) et Serradura et al. (2002))
pour améliorer la phase d’évaluation des résultats de recherche par l’usager. En conclusion,
les techniques automatiques actuelles sont inadaptées pour proposer des termes adéquats si
ceux de la requête initiale ne concordent pas avec l’objectif de recherche de l’usager. Ce qui
est le cas des requêtes de recherche dans un domaine peu ou pas connu de l’usager. Aider
l’usager consisterait alors à lui proposer des termes non présents dans sa requête initiale
(Anick, 2003). D’où notre intérêt pour une approche semi-automatique qui permet d’adapter
l’aide proposée, selon les besoins variables des usagers.
3 Un outil personnel d'aide à la recherche sur le Web
L'objectif principal d'@GEWEB est la personnalisation de l'assistance des usagers lors du
processus de recherche sur le Web. Cette assistance s’applique (1) lors de la formulation des
requêtes en proposant des termes pour améliorer la requête initiale et (2) lors de la
@geWeb : Agents personnels d’aide à la recherche sur le Web
catégorisation des documents obtenus. Ainsi, pour les besoins d'assistance aux usagers, il est
nécessaire de poser des hypothèses intuitives et faciles à comprendre : (1) Le classement des
résultats des moteurs de recherche est imparfait. Certains liens vers des pages Web pertinentes
peuvent ne pas figurer au début de la liste des résultats ou ne pas y figurer du tout; (2) Une
approche aléatoire de sélection des éléments des résultats obtenus par les outils de recherche
permettrait de faire ressortir des documents qui ne figuraient pas au début de la liste classée
par « pertinence » mais qui pourraient être utiles aux usagers; (3) Les utilisateurs des
différents outils de recherche ne savent pas toujours comment formuler leurs requêtes de
manière à accéder à l’information recherchée. La concordance des concepts et idées des
utilisateurs avec ceux présents sur le Web ne s’effectue pas toujours et une reformulation de la
requête est souvent requise.
@GEWEB permet à l’usager de gérer et regrouper des moteurs de recherche qui seront
sollicités par une même requête. Pour une description détaillée de ses fonctionnalités nous
invitons le lecteur à consulter (El Amrani, 2003). Les usagers des moteurs de recherche sont
confrontés au choix des termes sur lesquels sera basée leur recherche. Ils utilisent très peu de
termes pour définir les informations recherchées : un, deux ou trois termes par requête (Bellot,
El-Bèze, 2000). Lorsque l’usager saisit une requête, celle-ci est transmise à un groupe de
moteurs de recherche déterminé par l’usager. Des résultats obtenus, le système ne garde que le
nombre de documents précisé par l’usager. Les documents sont ensuite regroupés pour former
un corpus. Pour regrouper les documents similaires en des classes d’équivalence et de
construire des classes de cooccurrence de mots, nous avons opté pour GRAMEXCO (Biskri &
Delisle, 2002). Son fonctionnement est semi-automatique et il permet à l’usager de varier
plusieurs paramètres en fonction de ses objectifs. Le choix de ce classificateur est motivé par
son approche semi-automatique, sa capacité de paramétrage et de personnalisation, son
indépendance de la langue, sa capacité à traiter de gros corpus et la disponibilité de son code
source. L’usager évalue maintenant les résultats de sa requête qui sont regroupés en classes
distinctes selon le contenu des documents. Ceci permet un filtrage plus facile des documents
non pertinents. Si l’usager n’est pas satisfait des résultats de sa requête initiale, le système lui
propose de nouveaux termes regroupés par ordre alphabétique, par occurrences ou par classe
d’appartenance, selon ses préférences. Ce processus est itératif et c’est l'usager qui décide
quand l'arrêter. De cette manière, l’usager possède un contrôle total des traitements effectués
tout au long du processus de recherche. Pour évaluer le taux de satisfaction de l’utilisateur,
nous insisterons sur l’évaluation de l’aide apportée. Le gain est palpable mais nécessite d’être
quantifié. C’est le sujet de la section suivante.
4 Évaluation de l’aide procurée par @GEWEB
Ce document permettra de donner une idée globale, non statistique, de l’apport de l’assistance
des utilisateurs lors du processus de recherche documentaire sur le Web. Durant l’évaluation
des résultats de recherche, la subjectivité de l'usager sera sollicitée pour vérifier l’adéquation
de l’aide apportée. Pour ce qui est de l’évaluation de l’aide à la reformulation des requêtes,
elle sera focalisée sur la « qualité » des termes extraits et l’évaluation de la pertinence des
documents obtenus déterminera la qualité de l’aide offerte pour la vérification des résultats
des recherches. La pertinence des termes est quantifiée en fonction de son utilité. Aussi, pour
évaluer la classification des résultats de recherche d’@GEWEB, l’usager aura à juger la
pertinence des classes produites après chaque recherche. Dans ce cas, une classe est pertinente
Mohamed Yassine El Amrani, Sylvain Delisle et Ismaïl Biskri
lorsqu’elle regroupe des documents pertinents. La perception des usagers de l’assistance
proposée sera captée grâce à des questionnaires (El Amrani, 2003) laissant la liberté
d’expression à la subjectivité de l’usager.
Les évaluateurs avaient à répondre à 12 questions sans qu'ils n'aient besoin de connaissances
particulières. « Quelle est la mer la plus agitée au monde ? » et « Quel est le taux moyen
d’inflation annuel de l’or et de l’argent au siècle dernier (20e siècle) ?» constituent un sousensemble des questions soumises aux évaluateurs. Les réponses devaient être trouvées en
utilisant les moteurs de recherche GOOGLE (http://www.google.com) et ALLTHEWEB
(http://www.alltheweb.com) et le logiciel COPERNIC AGENT 2003 (http://www.copernic.com). C’est
ainsi qu’une équipe de cinq étudiants à la maîtrise en mathématiques et informatique
appliquées de l’Université du Québec à Trois-Rivières a eu pour tâche de répondre à une
combinaison de douze questions en utilisant les mêmes outils de recherche. Les séquences de
questions ont été assignées à chaque membre de l’équipe pour éviter que la recherche sur une
même question soit effectuée par le même outil de recherche par tous les membres de
l’équipe. Comme la pertinence des documents reste fortement liée à la subjectivité de chacun,
nous avons privilégié les métriques permettant de l’estimer. Rappelons que cette expérience
n’a nullement la prétention d’apporter des réponses statistiques étant donné le nombre
relativement limité d’évaluateurs. Toutefois, les gains apportés par l’assistance de l’utilisateur
lors de la reformulation de sa requête ont été, nous allons le voir, appréciables. La majorité du
temps, les évaluateurs ont eu à reformuler leur requête au moins une fois avant d’aboutir à des
résultats satisfaisants. En moyenne, 60% des recherches effectuées ont nécessité une
reformulation de la requête. Le choix des mots-clés devient alors un facteur très influent sur la
vitesse de convergence de la recherche documentaire vers les informations pertinentes. Aussi,
lors de la comparaison de l’évolution des requêtes des utilisateurs pour répondre à une
question donnée, une certaine répétition de mots-clés peut être remarquée. Étant donné que les
utilisateurs avaient à répondre à des questions biens précises, leurs stratégies de recherche
étaient très souvent verticales. Concrètement, 97% des reformulations de requête ont adoptés
le modèle de recherche vertical. Or lorsque l’utilisateur ne possède pas une connaissance
précise du domaine d’application de sa requête, la variation des mots-clés devient très faible.
Cette maigre variation engendre une répétition d’un sous-ensemble de mots-clés lors des
reformulations des requêtes. Cette répétition ne peut être supprimée car certains mots-clés
véhiculent l’information recherchée par l’utilisateur et doivent faire partie de la requête.
Cependant, plus le nombre de mots-clés issus de la requête précédente est important, plus la
variation des résultats est faible. Il y a donc une augmentation du risque d’exclure des résultats
certains documents potentiellement pertinents, ce qui diminue de la justesse de ces résultats.
Par contre, @GEWEB permet de limiter cette redondance. En moyenne, seulement 15% des
termes utilisés pour reformuler la requête de recherche proviennent de la requête précédente.
La moyenne des trois autres outils de recherche s’élève à 28,3%. Ceci nous amène à penser
qu’@GEWEB permet à l’usager de choisir des termes plus variés évitant ainsi une trop grande
répétition de certains mots-clés. D’ailleurs, le nombre moyen de termes proposés et jugés
pertinent par l’utilisateur, à la suite de chaque recherche, s’élève à 4,39. En conséquence, la
proposition de termes aura une incidence directe sur le nombre de reformulations de requête
qui seront effectuées. Ainsi, en moyenne, les utilisateurs d’@GEWEB ont effectué 1,5
reformulations de requêtes avant d’aboutir à des documents pertinents. La moyenne des
reformulations des autres outils de recherche s’élève à 4,2, ce qui est nettement plus élevé. Ce
qui permet de suggérer qu’un gain a été obtenu grâce, en partie du moins, à la proposition de
@geWeb : Agents personnels d’aide à la recherche sur le Web
mots-clés pour aider les usagers lors de la reformulation de leurs requêtes. De plus, le nombre
moyen de classes générées s’élève à 6,34 avec une moyenne de 1,5 classes qui sont
pertinentes pour l’utilisateur. De ce fait, l’utilisateur se concentre essentiellement sur les
classes qui sont pertinentes lui évitant ainsi d’avoir à inspecter le contenu de tous les
documents qui figurent dans une même classe non pertinente. En combinant tous ces résultats
nous obtenons une amélioration sensible du processus de recherche documentaire sur le Web.
Toutefois, ces résultats sont accompagnés d’un coût en terme de temps de traitement. Chaque
recherche effectuée avec @GEWEB qui a permis de répondre à la question posée aux
évaluateurs a duré, en moyenne, 50,33 minutes. La durée moyenne des recherches effectuées
par les autres outils de recherche ayant permis d’aboutir vers un résultat est de 16 minutes. La
différence est donc importante mais non problématique. En effet, notre outil n’étant encore
qu’un premier prototype, tous les téléchargements de documents qui sont effectués par les
différents agents sont séquentiels. Ce temps pourrait facilement être amélioré
significativement en téléchargeant en parallèle les différents documents obtenus. Ce temps
peut être réduit également en sollicitant simultanément tous les moteurs de recherche pour
répondre à la requête de l’utilisateur. De plus, l’interaction avec le classificateur numérique
GRAMEXCO, qui nécessite beaucoup de supervision de la part de l’utilisateur, peut être
améliorée, ouvrant ainsi la voie à une autre réduction importante du temps de traitement.
Néanmoins, les traitements d’analyse des langues naturelles utilisés engendrent un coût
incontestable mais non problématique. Par conséquent, nous pensons que l’aide fournie aux
usagers a permis d’améliorer leur expérience de recherche documentaire sur le Web. Bien que
l’évaluation d’@GEWEB ne constitue pas une « preuve statistique », il est néanmoins
possible d’affirmer que l’aide fournie aux utilisateurs améliore l’expérience de recherche
documentaire sur le Web.
5 Conclusion
Les utilisateurs ne devraient pas s’attendre à un développement généralisé d’outils permettant
une amélioration significative de l’adaptabilité du Web à leurs besoins personnels.
L’utilisation d’outils Web automatisés uniquement empêchera les utilisateurs d’atteindre
plusieurs de leurs buts lors des recherches sur le Web en écartant leur subjectivité. Ceci
justifie l’approche utilisée dans notre travail : fournissons aux utilisateurs du Web des outils
personnalisés qui vont les aider lors de leurs recherches sur le Web en utilisant leur
subjectivité. L’évaluation d’@GEWEB a suggéré que des gains notables étaient perceptibles
augmentant ainsi la qualité des recherches documentaires sur le Web. Notre contribution a
consisté (1) à permettre aux usagers de personnaliser l’aide offerte lors de la reformulation de
la requête et (2) à utiliser la classification pour regrouper les documents similaires obtenus
pour un meilleur filtrage des résultats de recherche.
Références
ANICK P., (2003), Using terminological feedback for web search refinement: a log-based
study, Proceedings of the 26th annual international ACM SIGIR conference on Research and
development in information retrieval, Toronto, Canada, 88–95.
Mohamed Yassine El Amrani, Sylvain Delisle et Ismaïl Biskri
BELLOT P., EL-BÈZE M. (2000), Clustering by means of Unsupervised Decision Trees or
Hierarchical and K-means-like Algorithm, Conférence sur la Recherche d'Informations
Assistée par Ordinateur, 344−363.
BISKRI I., DELISLE S., (2002), Text Classification and Multilinguism: Getting at Words via Ngrams of Characters, 6th World Multiconference on Systemics, (SCI-2002), 110−115.
CARPINETO C., ROMANO G., GIANNINI V., (2002), Improving Retrieval Feedback with
Multiple Term-Ranking Function Combination, ACM Transactions on Information Systems
(TOIS), Volume 20, Issue 3 (July 2002), 259−290.
EL AMRANI M.Y., (2001), Outils d'assistance à la construction de Webs personnels :
Utilisation des traitements des langues naturelles dans l'aide à la reformulation de requêtes,
Actes de la 5e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement
Automatique des Langues, Tours, France, 497−502.
EL AMRANI M.Y., (2003), AgeWeb : Les agents personnels d’aide à la recherche
documentaire sur le Web, Mémoire de maîtrise en mathématiques et informatique appliquées,
Université du Québec à Trois-Rivières, Trois-Rivières, Canada.
EL AMRANI M.Y., DELISLE S., BISKRI I., (2001). Coping with Information Retrieval Problems
on the Web: Towards Personal Web Weaver Agents, International Conference on Artificial
Intelligence (IC-AI'2001), Las Vegas, USA, 1225−1231.
HUST A., (2004). Introducing Query Expansion Methods for Collaborative Information
Retrieval. Lecture Notes in Computer Science. À paraître. (http://www.dfki.uni-kl.de/~hust/publications.html)
MCARTHUR R., BRUZA P.D., (2000), The Ranking of Query Refinements in Interactive Webbased Retrieval, Proceedings of the Information Doors Workshop (held in conjunction with
the ACM Hypertext and Digital Libraries Conferences).
SALVATIERRA S.M. (1999), Statistical models for classification and discrimination with
application to classifying web documents, Ph.D. Thesis Proposal, Department of Statistics,
Carnegie Mellon University, http://citeseer.nj.nec.com/306657.html
SERRADURA L., SLIMANE M., VINCENT N., (2002), Classification semi-automatique de
documents Web à l'aide des Chaînes de Markov Cachées, Publication de l’équipe RFAI,
Colloque Inforsid 2002, Nantes, France, 215-228.
TAMINE L., BOUGHANEM M. (2001), Un Algorithme génétique spécifique à une reformulation
multi-requêtes dans un système de recherche d’information, Revue Information – Interaction –
Intelligence, Volume 1, numéro 1, http://www.revue-i3.org.
TURENNE N., (2000), Apprentissage statistique pour l’extraction de concepts à partir de textes
(Application au filtrage d’informations textuelles), Thèse de doctorat en informatique,
Université Louis-Pasteur, Strasbourg, France.