Cours
Cours
Cours
Indexation
Les données d’entrée
1. Les requêtes
– C’est la partie où l’utilisateur fait face à un «
problème de vocabulaire » quand il tente de traduire
son besoin d’information en une requête.
– La requête est créée par l’utilisateur, c’est elle qui
initie le processus de recherche.
– Elle traduit un besoin d’information de l’utilisateur.
– Elle représente une situation problématique qui amène
l’utilisateur à formuler une requête
Les données d’entrée
1. Les requêtes
• Une fois formulée la requête peut avoir la forme
d’une expression en langue naturelle, ou encore
d’une liste de concepts avec éventuellement un
degré d’importance associé, ou encore une
formule logique de concepts coordonnés par des
opérateurs logiques.
• Une fois la requête exprimée, il est nécessaire de
lui donner une forme utilisable par un SRI pour
entamer le processus de recherche.
Les données d’entrée
2. Les documents
• Avec l’apparition des ordinateurs, le document quitte
son support matériel natif (le papier) et devient
numérique. Il est alors stockable sous la forme d’une
représentation binaire dans les mémoires des
ordinateurs.
• Le document peut être directement pensé et créé sous
forme numérique ou bien numérisé à partir de son
support original (papier).
• Dans la suite du cours nous entendrons par le mot
«document»; un document textuel numérique.
L’indexation
• Afin de réduire la complexité des documents et les rendre
plus faciles à manipuler, le document doit être transformé.
• L’indexation des documents est une étape primordiale car
elle détermine de quelle manière les connaissances
contenues dans les documents fournis sont représentées.
Elle a lieu à chaque ajout
• d’un document dans l’ensemble des documents étudiés.
• La recherche implique une méthode de tri et la
comparaison de contenu implique une analyse à défaut de
pouvoir directement comparer les concepts véhiculés dans
le document à ceux présents dans la requête.
• Les mots « représentants » ces concepts sont comparés.
• Pour avoir un système de recherche de qualité, il est
important que son index reflète au mieux le contenu de la
collection originale.
L’indexation
• L’indexation automatique implique une analyse automatique
du contenu de chaque document de la collection. Cette
analyse comprend plusieurs étapes, le but étant d’extraire
les termes représentatifs du contenu et d’évaluer leur
pouvoir de représentation du contenu ainsi que leur pouvoir
de caractérisation du document dans lequel ils apparaissent.