Cours Ingénierie Des Applications Web 03 - 121052
Cours Ingénierie Des Applications Web 03 - 121052
Cours Ingénierie Des Applications Web 03 - 121052
Département de Maths/Info
Faculté des Sciences (MI/FS)
Université de Maroua (FS/UY1)
yannick.samen@imsp-uac.org
18 février 2024
Plan 2
1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Plan 3
1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Le Web aujourd’hui et demain 1/2
Et au-delà ?
À quoi pourrait ressembler le Web 5.0 ? → Vos avis sont
attendus ! ! !
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 éfévrier
de Maroua
2024 (FS/UY1)
5 / 45 ya
Web social, sémantique et de service
1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Émergence du Web social
Confiance
Tout le monde peut créer des contenus corrects ou incorrects, par
exemple ”Edit Wars” sur Wikipédia.
De faux comptes sous de faux noms peuvent être créés.
Fiabilité
Les services peuvent être bloqués par les pays pour limiter l’accès
aux informations.
Discussions critiques sur les médias sociaux
Vie privée
Les fournisseurs de réseaux sociaux revendiquent souvent des
droits d’utilisation étendus sur le contenu apporté par les
utilisateurs.
Les informations personnelles peuvent être utilisées pour la
publicité personnalisée et vendues aux annonceurs pour le
ciblage.
Confiance
Tout le monde peut créer des contenus corrects ou incorrects, par
exemple ”Edit Wars” sur Wikipédia.
De faux comptes sous de faux noms peuvent être créés.
Fiabilité
Les services peuvent être bloqués par les pays pour limiter l’accès
aux informations.
Plan 23
1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Trouver l’aiguille dans une botte de foin 1/2
1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Moteurs de recherche basés sur des index
Quand ?
Les données et documents dans l’espace de connaissance du
Web...
n’ont généralement qu’une ”courte” durée de vie.
sont soumis à des changements constants.
sont reliés à d’autres documents par des liens et dépendent d’eux.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
22 / 45 ya
Moteurs de recherche basés sur des index : Collecte
de données
Quoi ?
La diversité des données du Web :
Documents HTML statiques
Documents HTML générés dynamiquement
Données multimédia (images, fichiers audio, vidéo)
Documents Postscript, PDF, Word, PowerPoint, etc.
Code source de logiciels
Quand ?
Les données et documents dans l’espace de connaissance du
Web...
n’ont généralement qu’une ”courte” durée de vie.
sont soumis à des changements constants.
sont reliés à d’autres documents par des liens et dépendent d’eux.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
22 / 45 ya
Moteurs de recherche basés sur des index : Collecte
des données - Comment ?
Les documents trouvés par les crawlers sont stockés dans une
base de données.
1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Traitement et analyse des données 1/3
Après avoir été collectés par des robots d’exploration du Web, les
documents doivent être transformés en un ensemble de données
consultables efficacement.
Indexation du contenu des documents textuels :
Tout d’abord, divers types de documents (HTML, Postscript, PDF,
Doc,...) doivent être convertis en type de document uniforme.
Ensuite, le contenu doit être extrait par analyse sémantique.
Idée de base : Trouver toutes les chaı̂nes de caractères pertinentes
dans le fichier texte :
mots clés
en-têtes
puces
Attribuer des ”descripteurs” (mots clés) décrivant le document.
Collecter les informations de classement dues aux critères
d’évaluation donnés.
Après avoir été collectés par des robots d’exploration du Web, les
documents doivent être transformés en un ensemble de données
consultables efficacement.
Indexation du contenu des documents textuels :
Tout d’abord, divers types de documents (HTML, Postscript, PDF,
Doc,...) doivent être convertis en type de document uniforme.
Ensuite, le contenu doit être extrait par analyse sémantique.
Idée de base : Trouver toutes les chaı̂nes de caractères pertinentes
dans le fichier texte :
mots clés
en-têtes
puces
Attribuer des ”descripteurs” (mots clés) décrivant le document.
Collecter les informations de classement dues aux critères
d’évaluation donnés.
Après avoir été collectés par des robots d’exploration du Web, les
documents doivent être transformés en un ensemble de données
consultables efficacement.
Indexation du contenu des documents textuels :
Tout d’abord, divers types de documents (HTML, Postscript, PDF,
Doc,...) doivent être convertis en type de document uniforme.
Ensuite, le contenu doit être extrait par analyse sémantique.
Idée de base : Trouver toutes les chaı̂nes de caractères pertinentes
dans le fichier texte :
mots clés
en-têtes
puces
Attribuer des ”descripteurs” (mots clés) décrivant le document.
Collecter les informations de classement dues aux critères
d’évaluation donnés.
But
Le document doit être représenté aussi complètement que
possible au niveau du contenu en utilisant seulement quelques
mots clés.
Utiliser le filtrage de pertinence des mots clés pour une analyse
partielle du contexte, par ex.
balises HTML <Hx>, mise en évidence du texte, etc.
omission des mots de remplissage, des mots de liaison, des
pronoms, etc...
Analyse de la fréquence des mots-clés → pertinence
La loi de Zipf : Il est toujours plus facile pour l’auteur d’un texte de
répéter certains mots pour décrire un sujet que de chercher
constamment de nouveaux termes.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
31 / 45 ya
Vecteurs de documents
Idée
Le document est considéré comme un vecteur dans un espace
vectoriel n dimensions, n ←− nombre de descripteurs.
Chaque vecteur de base représente un autre descripteur.
Le vecteur du document est obtenu comme une combinaison
linéaire de tous ses vecteurs de base, chaque vecteur de base
étant multiplié par le nombre d’occurrences d’un mot.
→ L’analyse des documents peut alors être effectuée au moyen
d’opérations mathématiques et de calculs issus de l’algèbre linéaire.
Détermination de la similarité
La requête Q est également représentée comme un vecteur de
documents : → Les mots de recherche sont ici les descripteurs.
Calcul de la similarité du vecteur de documents de Q avec tous
les vecteurs de documents D.
La similarité entre Q et D est calculée comme le cosinus de
l’angle entre les deux vecteurs de documents Q et D.
sim(Q, D) = cos(θ)
Pondération de la pertinence
Google fait la distinction entre les documents ”importants” et les
documents ”sans importance” :
1 Un document est d’autant plus ”important” que d’autres
documents y font référence via des liens.
2 Un document qui fait référence à un document ”important” est
également considéré comme ”important”.
3 Plus un document contient de liens renvoyant à d’autres
documents, moins chaque lien est ”important”.
1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Le Web audjourd’hui
Example
Difficulté de distinguer le sens du verbe jouer :
elle joue des cymbales
elle joue des coudes
elle joue de son influence
Definition
The Semantic Web is an extension of the current web in which
information is given well-defined meaning, better enabling
computers and people to work in cooperation.
Rendre sémantique le web, c’est compléter les balises HTML par des
balises porteuses de sens (XML) ; c’est multiplier et organiser les
mots-clés dans le document même (sans que le lecteur ne voit de
différence)