Cours

Recherche d’information
Indexation
Les données d’entrée
1. Les requêtes
– C’est la partie où l’utilisateur fait face à un «
problème de vocabulaire » quand il tente de traduire
son besoin d’information en une requête.
– La requête est créée par l’utilisateur, c’est elle qui
initie le processus de recherche.
– Elle traduit un besoin d’information de l’utilisateur.
– Elle représente une situation problématique qui amène
l’utilisateur à formuler une requête
1. Les requêtes
• Une fois formulée la requête peut avoir la forme
d’une expression en langue naturelle, ou encore
d’une liste de concepts avec éventuellement un
degré d’importance associé, ou encore une
formule logique de concepts coordonnés par des
opérateurs logiques.
• Une fois la requête exprimée, il est nécessaire de
lui donner une forme utilisable par un SRI pour
entamer le processus de recherche.
2. Les documents
• Avec l’apparition des ordinateurs, le document quitte
son support matériel natif (le papier) et devient
numérique. Il est alors stockable sous la forme d’une
représentation binaire dans les mémoires des
ordinateurs.
• Le document peut être directement pensé et créé sous
forme numérique ou bien numérisé à partir de son
support original (papier).
• Dans la suite du cours nous entendrons par le mot
«document»; un document textuel numérique.
L’indexation
• Afin de réduire la complexité des documents et les rendre
plus faciles à manipuler, le document doit être transformé.
• L’indexation des documents est une étape primordiale car
elle détermine de quelle manière les connaissances
contenues dans les documents fournis sont représentées.
Elle a lieu à chaque ajout
• d’un document dans l’ensemble des documents étudiés.
• La recherche implique une méthode de tri et la
comparaison de contenu implique une analyse à défaut de
pouvoir directement comparer les concepts véhiculés dans
le document à ceux présents dans la requête.
• Les mots « représentants » ces concepts sont comparés.
• Pour avoir un système de recherche de qualité, il est
important que son index reflète au mieux le contenu de la
collection originale.
L’indexation
• L’indexation automatique implique une analyse automatique
du contenu de chaque document de la collection. Cette
analyse comprend plusieurs étapes, le but étant d’extraire
les termes représentatifs du contenu et d’évaluer leur
pouvoir de représentation du contenu ainsi que leur pouvoir
de caractérisation du document dans lequel ils apparaissent.
• Concernant le choix des termes, plusieurs possibilités

existent : choisir des groupes de mots ou des mots seuls,
retenir des mots ayant certaines propriétés. Bien que l’idée
de choisir un groupe de mots comme représentant de
concept semble bonne, l’expérience a montré que
l’utilisation de représentations complexes améliorait de
façon marginale le processus de recherche.
L’indexation
• Ils existes plusieurs opérations effectuées sur
les données textuelles lors de l’indexation :
1. L’analyse lexicale
L’analyse lexicale est l’étape qui permet de
transformer un document textuel en un
ensemble de termes (« lexème » est parfois
employé). Pendant cette phase, la ponctuation,
la casse, et la mise en page sont supprimées.
L’indexation
2. La sélection
Afin de ne garder que les termes importants,
plusieurs techniques peuvent être mises en
œuvre parmi celles-ci, on utilise souvent un
anti-dictionnaire (stoplist) qui permet de ne pas
conserver les mots vides de sens c'est-à-dire ne
reflétant pas le contenu informationnel des
documents.
L’indexation
2. La sélection
Un anti-dictionnaire est une liste de mots vides
qui contient généralement les articles,
pronoms, prépositions, les mots outils, ainsi
que les mots athématiques c'est-à-dire présents
dans le document pour l’introduire ou le
présenter mais n’ayant pas de réels rapports
avec le sujet traité.
L’indexation
2. La sélection
– Le traitement lié à un anti-dictionnaire est très
simple. Quand un mo
– t est rencontré dans un texte à indexer, s'il apparaît
dans l’anti-dictionnaire, il n’est pas considéré
comme un index.
– La suppression des mots vides doit être contrôlée
car elle influence la qualité de la recherche.
– Un anti-dictionnaire peut être enrichi avec d’autres
termes ou mots vides.
L’indexation
3. L’utilisation de radicaux
• Il est intéressant de représenter plusieurs variantes d’un
mot sous une forme unique appelée racine ou radical.
La racine est la forme abstraite servant de base de
représentation à tous les radicaux qui en sont les
manifestations. En effet le radical d’un mot est une
simple réduction du nombre de lettres de ce mot, et
celui-ci peut différer (avoir plus ou moins de lettres)
que la racine morphologique correcte. Par exemple, le
mot « transmission» peut être représenté par plusieurs
radicaux « transmis», « transmet», « transmettra»,
« transmetteur » sa racine linguistiquement correcte
étant « transmettre».
• Les algorithmes qui permettent de ramener un mot à un
radical sont appelés des algorithmes de radicalisation
L’indexation
4. La pondération
• La pondération d’un terme d’indexation est
l’association de valeurs numériques à ce terme de
manière à représenter son pouvoir de discrimination
pour chaque document de la collection.
• La célèbre loi de distribution de Zipf qui dit que la
fréquence d’un mot est inversement proportionnelle à
son rang dans la liste des termes classés par fréquence
décroissante ou encore que le produit de la fréquence
de n’importe quel mot par son rang est constant. Cette
loi est écrite sous la forme :
Rang * fréquence = constante
L’indexation
4. La pondération
• La relation entre fréquence et rang permet de choisir les
termes représentatifs. Luhn a montré que la fréquence
d’apparition d’un terme dans un texte en langue
naturelle est caractéristique de son pouvoir de
représentation du contenu de ce texte. Le pouvoir de
représentation d’un terme est parfois nommé
l’informativité du terme. Cette notion fait référence à la
quantité de sens qu’un mot porte.
• Un terme très fréquent dans la collection (fréquence
absolue) est peu discriminant car il est restitué dans de
nombreux documents et inversement un terme très peu
fréquent dans un texte a peu d’influence sur le
processus de recherche car il n’est pas représentatif du
contenu sémantique de ce texte.
L’indexation
4. La pondération
• La fréquence relative d’un terme dans un
document est représentative du pouvoir de
représentation du terme pour le document, dans le
même temps, la fréquence absolue d’un terme
dans la collection est caractéristique du pouvoir
de discrimination du terme pour les documents. Il
est donc important de prendre en compte la
fréquence relative et la fréquence absolue d’un
terme lors de sa pondération. La pondération c’est
l’association d’une valeur appelée poids à un
terme.
L’indexation
4. La pondération
• Pour associer un poids à un terme on peut
procéder de différentes manières :
– 0 ou 1 : exprime la présence (1) ou l’absence (0) d’un
terme dans le document.
– tf : term-frequency est la fréquence du terme dans le
document c’est-à-dire le nombre d’occurrences d’un
terme dans le document.
– idf : Inverse of Document Frequency est la fréquence
absolue inverse. C’est un facteur qui varie inversement
proportionnel au nombre n de documents où un terme
apparaît dans une collection de N documents.
L’indexation
4. La pondération
• La fréquence absolue inverse est égale à
[Salton et al., 1987] :
idf = log (N/n)
• Avec N le nombre total de documents dans la

collection et n le nombre de documents où le
terme apparaît.
L’indexation
4. La pondération
• Le poids d’un terme j dans le document i
s’écrit alors généralement [Sparck Jones,
1972] :
poidsi(j) = tfij×idfj (4)
• Où tfij est la fréquence d’apparition du terme j
dans le document i et idfj est la fréquence
absolue inverse du terme j dans la collection.
• Ainsi le poids d’un terme augmente si celui-ci
est fréquent dans le document et décroît si
celuici est fréquent dans la collection.
L’indexation
• Le résultat de l’indexation :
Le résultat d'une indexation donne un ensemble de termes et
leurs pondérations pour chaque document comme suit :
dj → {…(ti, aij)…}
• Avec t le terme d’indice i dans le vocabulaire et aij son
poids dans le document dj.
ti → {…(dj, aij)…}
L’entrée de l’index correspondant au document avec une
pondération tf×idf est :
d1 →{(edit , 0.090) ; (dewey, 0.25); (decim, 0.125); (classif,
0.019); (present, 0.003); (studi, 0.002); (histori, 0.039);
(publish, 0.008); (ddc, 0.4); (eighteenth, 1.0); (futur, 0.010);
(continu, 0.014); (need, 0.022)}
L’appariement document / requête
• La comparaison entre le document et la requête
revient à calculer un score représentatif de la
ressemblance entre le document et la requête.
• Il est donné par une fonction nommée Retrieval
Status Value. Elle est notée RSV(d,q).
• Cette fonction est fondamentale pour la RI car
c’est elle qui détermine comment comparer la
requête aux documents indexés.
• Traditionnellement le système de recherche
retourne à l’utilisateur une liste de documents
classés par RSV.
La reformulation de requête
• La reformulation de requête consiste, à partir
d’une requête initiale formulée par
l’utilisateur, à construire une requête qui
répond mieux à son besoin informationnel.
• Elle peut être manuelle (avec intervention de

l’utilisateur) ou automatique.
• Les techniques de reformulation de requête se
classifient en méthodes locales et méthodes globales.
– Les méthodes locales ajustent une requête relativement
aux documents qui sont retournés comme documents
pertinents pour la requête initiale. Elles se basent sur la
technique dite de réinjection de pertinence.
– Les méthodes globales se basent sur l’expansion de
requête en s’appuyant sur des ressources linguistiques
(thésaurus ou ontologies), ou sur des techniques
d’associations de termes telles que les règles
d’association.
Méthodes locales
• Les méthodes locales s’appuient sur la technique de réinjection de
pertinence. L'idée de la réinjection de pertinence est de faire participer
l'utilisateur dans le processus de recherche de sorte à améliorer l'ensemble
final de résultats. Le procédé de base est le suivant :
– l'utilisateur formule sa requête,
– le système renvoie un premier ensemble de résultats de recherche,
– l'utilisateur marque quelques documents retournés comme pertinents
ou non pertinents,
– le système calcule une meilleure représentation du besoin en
l'information sur la base de la rétroaction utilisateur,
– le système visualise un ensemble révisé de résultats de la recherche.
• La réinjection de pertinence peut passer par une ou plusieurs itérations de
ce type. Le système utilise l’information sur la pertinence utilisateur pour
reconstruire la requête.
Méthodes globales
• Les méthodes globales se basent sur l’expansion de requête en
utilisant un thesaurus ou une ontologie. Pour chaque terme t, la
requête peut être automatiquement étendue avec des mots
synonymes ou liés au terme t. Le système peut ainsi apparier
(associer) la requête à des documents pertinents qui ne
contiennent aucun des mots de la requête originale.
• Outre les relations sémantiques, les termes de la requête
peuvent être étendus par des termes qui leur sont autrement
liés par des relations de co-occurrence ou des relations
contextuelles qu’un thesaurus ne peut exhiber. Parmi les
techniques d’extraction des relations contextuelles entre
termes, les règles d’association on été largement utilisées en
RI pour l’expansion de requêtes.

Cours

Transféré par

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Cours

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours

Transféré par

Droits d'auteur :

Formats disponibles

Recherche d’information

• Concernant le choix des termes, plusieurs possibilités

• Avec N le nombre total de documents dans la

• Elle peut être manuelle (avec intervention de

Vous aimerez peut-être aussi