Fournier RI TDclassement2 - Correction
Fournier RI TDclassement2 - Correction
Fournier RI TDclassement2 - Correction
Correction : On peut effectuer un calcul simplifié de la distance, tant que l’ordre est respecté. Ce qui nous intéresse en fait,
ce n’est pas le score proprement dit, mais l’ordre des scores.
1
3 Critique de la distance euclidienne
La distance que nous avons utilisée mesure la différence entre la requête et un document, par comparaison des termes
un à un. Cela induit des inconvénients qu’il est assez facile de mettre en évidence.
Supposons maintenant que le vocabulaire a une taille très grande. On fait une recherche avec 1 mot-clé.
Questions :
3.1) Quel est le score pour un document qui ne contient 99 termes et pas ce mot-clé ?
3.2) Quel est le score pour un document qui contient 101 termes et le mot-clé ?
Conclusion ? Le classement obtenu sera-t-il satisfaisant ? Trouvez un cas où un document est bien classé même s’il ne
contient pas le mot-clé !
Correction : Distance de 100 dans le premier cas ; de 100 dans le second également. Ils seront classés au même niveau, ce
qui ne va pas du tout ! Il suffit de prendre un document avec 50 termes : il sera mieux classé que n’importe quel document
de 100 termes contenant ou non le mot-clé.
terme d1 d2 d3
voiture (1,65) 27 4 24
marais (2,08) 3 33 0
serpent (1,62) 0 33 29
baleine (1,05) 14 0 17
Quelques calculs :
5.1) Normaliser les vecteurs des tf pour chaque document.
5.2) Normaliser les vecteurs des tf pour chaque document, mais sur le sous-espace (“voiture”, “baleine”).
5.3) Normaliser les vecteurs des tf.idf pour chaque document.
Calculer le classement des requêtes suivantes, sans tenir compte de l’idf (donc, seul le tf entre en compte). Interprétez
le résultat.
— voiture
— baleine
— voiture et baleine.
— voiture et baleine et marais et serpent
Correction : Dans les deux premier cas, on pourrait croire qu’il suffit de prendre le classement des tf du terme concerné,
sans se lancer dans des calculs compliqués. Erreur ! Ce qui compte ce n’est pas la fréquence d’un terme, mais sa proportion
par rapport aux autres.
2
— “voiture” : la requête est (1, 0, 0, 0) qui est un vecteur normalisé.
27
— Pour d1, le cosinus vaut : 30,56 = 0, 88
4
— Pour d2, le cosinus vaut : 46,84 = 0, 085
24
— Pour d3, le cosinus vaut : 41,30 = 0, 58
Le classement est d1, d3, d2. Interprétation : on note que d1 et d3 parlent de voiture et de baleine en proportions à peu
près équivalentes. Mais d1 ne parle que de voiture et de baleine, alors que d3 parle aussi de serpent, d’où la différence
de classement.
— “baleine” : calcul identique, que vous devriez savoir faire.
— “voiture et baleine’‘ : là√
il faut se lancer dans le calcul du cosinus. Remarquons d’abord que les coefficients de la requête
sont (1, 1) et sa norme 1 + 1 = 1, 41.
27+14
— Pour d1, le cosinus vaut : 1,41×30,56 = 0, 95
4
— Pour d2, le cosinus vaut : 1,41×46,84 = 0, 06
24+17
— Pour d3, le cosinus vaut : 1,41×41,30 = 0, 70
L’ordre est donc d1, d3, d2. Le document d3 présente un meilleur équilibre entre les composantes “voiture” et “baleine”,
mais, contrairement à d1, il a une autre composante forte pour “serpent” ce qui diminue sa similarité.
— “voiture et baleine et marais et serpent”
On reprend les calculs de la même manière, en partant des normes calculés précédemment. La norme de la requête est
2 (mais on remarque que l’on pourrait l’ignorer pour le classement).
27+3+14
— Pour d1, le cosinus vaut : 2×30,56 = 0, 72
4+33+33
— Pour d2, le cosinus vaut : 2×46,84 = 0, 74
24+29+17
— Pour d3, le cosinus vaut : 2×41,30 = 0, 84
d3 l’emporte car (intuitivement) il présente un meilleur équilibre entre les termes que les autres documents (la requête
elle-même a la caractéristique d’être parfaitement équilibrée sur les termes du vocabulaire).
Et si au lieu de prendre la norme complète on ne prenait que celle du sous-espace ( “voiture“, “baleine”) ? À quoi
correspondrait un tel calcul ?
3
7 Interrogeons et classons
Reprendre les requêtes de l’exercice 1.
— “loup et pré”
— “loup et mouton”
— “bergerie”
— “gueule du loup”
7.1) Calculer le classement avec la distance cosinus, en ne prenant en compte que le vecteur des tf, comme dans l’exercice 5.