Recherche D Information
Recherche D Information
Recherche D Information
Recherched’information
Recherche d’information
2
INTRODUCTION
INTRODUCTION
INDEXATION
INDEXATION POUR
POUR LA
LA RI
RI
MODELES
MODELES DE
DE RI
RI
REFORMULATION
REFORMULATION DE
DE REQUETES
REQUETES
3
INTRODUCTION
INTRODUCTION
INTRODUCTION
Définitions
Définitions
5
INTRODUCTION
INTRODUCTION
Définitions
Définitions
6
INTRODUCTION
INTRODUCTION
Définitions
Définitions
7
INTRODUCTION
INTRODUCTION
Informationet
Information etbesoin
besoinen
eninformation
information
8
INTRODUCTION
INTRODUCTION
Objectif
Objectif
9
INTRODUCTION
INTRODUCTION
Approchesde
Approches dela
laRI
RI
10
INTRODUCTION
INTRODUCTION
Historiquede
Historique dela
laRI
RI
11
INTRODUCTION
INTRODUCTION
Historiquede
Historique dela
laRI
RI
• 1970 : Développement du système SMART. Les travaux sur ce système ont été
dirigés par G. Salton. Certaines nouvelles techniques ont été implantées et
expérimentées pour la première fois dans ce système (par exemple, le modèle
vectoriel et la technique de relevance feedback et le modèle probabiliste).
• 1980 : Les travaux sur la RI ont été influencés par l’avènement de l'intelligence
artificielle. Ainsi, une tentative d'intégrer des techniques de l'IA en RI, par exemple,
système expert pour la RI, etc.
• 1990 : La venue de l'Internet a aussi modifié la RI. Beaucoup d’applications on
étés utilisées. La problématique est élargie.
Par exemple, on traite maintenant plus souvent des documents multimédia
qu'avant. Cependant, les techniques de base utilisées dans les moteurs de
recherche sur le web restent identiques.
12
INTRODUCTION
INTRODUCTION
Architecturegénérale
Architecture généraled’un
d’unSRI
SRI
13
INTRODUCTION
INTRODUCTION
Indexation
Indexation
L’étape d’indexation permet de réaliser le passage d'un document textuel (ou une
requête) à une représentation exploitable par un modèle de RI par la construction
de mots clés appelé langage d’indexation.
14
INTRODUCTION
INTRODUCTION
Indexation
Indexation
15
INTRODUCTION
INTRODUCTION
Rechercheou
Recherche ouappariement
appariement
• L'approche ensembliste
• L'approche algébrique (ou vectorielle)
• L'approche probabiliste
16
INTRODUCTION
INTRODUCTION
Lareformulation
La reformulation
17
INTRODUCTION
INTRODUCTION
Lapertinence
La pertinence
18
INTRODUCTION
INTRODUCTION
Précisionet
Précision etrappel
rappel
La précision ou le rappel est un moyen permettant de mesurer la
pertinence car la notion de valeur de plausibilité demeure assez vague.
19
INTRODUCTION
INTRODUCTION
Précisionet
Précision etrappel
rappel
20
INTRODUCTION
INTRODUCTION
Précisionet
Précision etrappel
rappel
a) Précision : Un système de RI sera très précis si presque tous les
documents renvoyés sont pertinents. En fait c’est la proportion des
documents pertinents parmi l'ensemble de ceux renvoyés (rapportés)
par le système.
21
INTRODUCTION
INTRODUCTION
Précisionet
Précision etrappel
rappel
Solution:
Précision = Nrp/Nr
Rappel = Nrp/Np
22
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision
La précision est une fonction décroissante du rappel. Précision et rappel
sont dans l'intervalle [0..1].
23
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision
24
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision
Document Pertinent Précision Rappel
D1 P 1.00 0.20
D2 0.50 0.20
D3 P 0.67 0.40
D4 P 0.75 0.60
D5 0.60 0.60
D6 P 0.67 0.80
D7 P 0.71 1.00
D8 0.63 1.00
D9 0.56 1.00
D10 0.50 1.00
D11 0.45 1.00
25
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision
26
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision
27
INTRODUCTION
INTRODUCTION
Lacourbe
La courbeRappel
Rappel//Précision
Précision
Précision
1.0
* (0.2,1.0)
0.8
* (0.6,0.75)
0.6 *(0.4,0.67)
* (0.2,0.5)
0.4
0.2
29
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Définition
Définition
30
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Techniquesd’indexation
Techniques d’indexation
Manuelle
Semi automatique
Automatique
31
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Indexationmanuelle
Indexation manuelle
32
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
IndexationAutomatique
Indexation Automatique
33
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
IndexationSemi
Indexation SemiAutomatique
Automatique
34
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation
35
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation
36
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation
Niveaux léxical et morphologique :
a) Le lemme
Le lemme s'obtient par une flexion (paradigme flexionnel). Exemple: Je travaille,
tu travailles, il/elle travaille …. Le lemme est travailler. La catégorie grammaticale
rattaché à ce lemme est un verbe.
b) La racine
La racine s'obtient par une dérivation ( paradigme dérivationnel ). Exemple:
nation, nationalité, nationaliser…. La racine est nation . La catégorie rattachée
est un substantif.
c) Le mot composé
Mots non obligatoirement successifs qui doivent être reconnus comme formant
une seule entité.
37
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation
Niveaux léxical et morphologique :
1) Racinisation
Cette première opération est indispensable pour pouvoir retrouver tous les
documents dans lesquels apparaissent différentes formes du même mot ».
Exemple : écologie, écologiste, écologique sont "racinisés" par un seul mot :
écologie.
2) Etiquetage ou tagging
Ce second traitement consiste à comparer chaque mot du texte (susceptibles
d’être ambiguë), avec les termes du dictionnaire intégré (référentiel ou
glossaire métier). Ceci, afin de leur attribuer une ou plusieurs étiquettes en
fonction du sens qu’ils sont susceptibles d’avoir dans le contexte où ils sont
utilisés. Cette opération permet aussi d’ « identifier » les mots composés et les
expressions toutes faites.
38
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation
Niveaux léxical et morphologique :
39
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation
Cette étape arrive à la constitution d'un index des termes non éliminés,
considérés comme des index.
La recherche se fait selon logique booléenne par exemple : dans la phrase
"Prolétaires de tous les pays : unissez-vous", seuls les mots "prolétaires",
"pays" et "unissez" sont gardés.
A la recherche, il suffira de taper l'un de ces termes, ou une combinaison des
termes, pour retrouver la phrase.
40
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Etapesdu
Etapes duprocessus
processusd’indexation
d’indexation
Difficultés :
tous les mots gardés sont d’égale importance, et il n'y a pas d'ordre des
mots.
l'analyse porte seulement sur des mots isolés (des unitermes), et délaisse
toutes les expressions (les syntagmes), souvent porteurs de sens. Ex : «
pomme de terre » donnera deux mots "pomme" et "terre", analysés
séparément
la synonymie n’est pas prise en compte (Ex : vol = aussi bien vol d’avion
que vol à la tire l'analyse morphologique peut générer beaucoup de « bruit
ou de silence ». A noter aussi que certains moteurs de recherches
n’éliminent même pas les mots vides pour une recherche. Les mots vides
sont appelés une stoplist ou une stopword.
41
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation
42
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation
Etape 1:
sses ss ( caresses caress)
ies i (ponies poni)
s NULL (cats cat)
Etape 3:
ATIONAL > ATE RELATIONAL > RELATE
TIONAL > TION CONDITIONAL > CONDITION
43
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation
3) La Troncature.
Il s’agit de Tronquer les mots à X caractères (tronquer
plutôt les suffixes).
Un exemple de troncature à 7 caractères est :
économiquement : écomoni
La principale difficulté est comment déterminer la valeur
optimale de X ?
44
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation
Niveau syntaxique
45
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation
Niveau sémantique
46
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation
Autres niveaux
Indexation fondée sur le calcul statistique des
occurrences, cad de la fréquence d'apparition de mots
dans un texte. Tous les mots significatifs d'un texte sont
relevés (les occurrences) et leur fréquence est calculée,
Fichier inverse
• Après analyse de documents d’un corpus, on obtient un
tableau : document x termes
• Utilisation en tableau direct « document -> terme »
t1 t2 t3 … tn
D1
… … …
Dm
48
INDEXATION POUR
INDEXATION POUR LA
LA RI
RI
Processusde
Processus denormalisation
normalisation
Fichier inverse
• Génération d’un tableau inverse « terme -> document »
(appelé fichier inverse)
D1 D2 D3 … Dm
t1
… … …
tn
Avantage :
rapidité lors du traitement de requête, car pas de
traitement séquentiel des documents.
49