Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Cours Ingénierie Des Applications Web 03 - 121052

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 59

Le Web d’aujourd’hui et de demain: Social, Sémantique et Service Web

Dr TCHANTCHOU S. Yannick Ulrich

Département de Maths/Info
Faculté des Sciences (MI/FS)
Université de Maroua (FS/UY1)
yannick.samen@imsp-uac.org

18 février 2024
Plan 2

1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Plan 3

1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Le Web aujourd’hui et demain 1/2

Évolution du Web au cours des 25 dernières années a façonné le Web


d’aujourd’hui à travers de nombreuses transformations.
Web 1.0 : Web en lecture seule ou statique (avant 2000)
Seuls quelques auteurs (experts) ont pu publier du contenu
Les ressources Web étaient pour la plupart statiques

Web 2.0 : Read-Write ou Web Participation (jusqu’à présent)


Les utilisateurs sont devenus capables de publier leur propre
contenu via le Web social applications → le Web Social
Des sites Web (dynamiques) apparaissent et deviennent de plus en
plus complexes
Les nouvelles technologies permettent aux développeurs de créer
des applications Web

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 éfévrier
de Maroua
2024 (FS/UY1)
4 / 45 ya
Le Web aujourd’hui et demain 1/2

Évolution du Web au cours des 25 dernières années a façonné le Web


d’aujourd’hui à travers de nombreuses transformations.
Web 1.0 : Web en lecture seule ou statique (avant 2000)
Seuls quelques auteurs (experts) ont pu publier du contenu
Les ressources Web étaient pour la plupart statiques

Web 2.0 : Read-Write ou Web Participation (jusqu’à présent)


Les utilisateurs sont devenus capables de publier leur propre
contenu via le Web social applications → le Web Social
Des sites Web (dynamiques) apparaissent et deviennent de plus en
plus complexes
Les nouvelles technologies permettent aux développeurs de créer
des applications Web

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 éfévrier
de Maroua
2024 (FS/UY1)
4 / 45 ya
Le Web aujourd’hui et demain 2/2
Web 3.0 : Web sémantique et d’exécution (encore émergent)
Les informations deviennent lisibles et compréhensibles par une
machine
Le Web sémantique n’est plus constitué que de documents, mais
des ressources (c’est-à-dire des personnes, des lieux, des
événements,...) et leur relation.
Les applications Web deviennent interconnectables grâce à des
services Web → Le Web des services

Web 4.0 : Web mobile (aujourd’hui)


Parallèle, version alternative du Web existant
Ajoute une plus grande importance au contexte de localisation
Utilise largement le → Service Web (c’est-à-dire pour la partie côté
serveur des applications)

Et au-delà ?
À quoi pourrait ressembler le Web 5.0 ? → Vos avis sont
attendus ! ! !
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 éfévrier
de Maroua
2024 (FS/UY1)
5 / 45 ya
Web social, sémantique et de service

On se concentrera sur trois aspects du Web d’aujourd’hui et de


demain.
Réseaux sociaux
Quelles sont les applications Web sociales ?
Comment ont-ils vu le jour ?
Web sémantique
Comment les moteurs de recherche d’aujourd’hui fonctionnent et
quelles sont leurs limites ?
Quelles sont la sémantique et les principes de Web sémantique ?
Web de services
Comment les services Web (la technologie habilitante pour les
services Web) fonctionnent-t-ils ?

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 éfévrier
de Maroua
2024 (FS/UY1)
6 / 45 ya
Plan 8

1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Émergence du Web social

L’usage et la perception des utilisateurs d’Internet ont évolué depuis


les années 2005
Principe de participation du Web 2.0
Les utilisateurs sont des éditeurs et non seulement les lecteurs de
l’information Web statique.
Les utilisateurs partagent leurs ressources de données sur le Web,
par exemple des signets, photos, informations professionnelles,
vidéos,...
Ils appartiennent à une communauté.

Le Web est devenu de plus en plus utilisé comme plateforme de


communication et la frontière s’estompe entre les applications
Web et les applications s’exécutant sur le périphérique
informatique local (PC).
des applications Internet dites ”Riches” sont développées

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 éfévrier
de Maroua
2024 (FS/UY1)
8 / 45 ya
Wikis

Les wikis sont une forme précoce d’applications Web sociales


Wiki est hawaı̈en et signifie ”rapide”
Réaliser l’idée de l’édition de texte collaboratif et commenter les
contributions des autres sur le Web.

Les premières installations de wiki ont déjà été publiées en 1995


En 2001, l’encyclopédie en ligne Wikipédia a été lancé et a
contribué à faire progresser la popularité du concept.
Les wikis sont également devenus populaires en tant que bases
de connaissances d’entreprise
Les employés pourraient partager leurs connaissances et les faire
perdurer.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 éfévrier
de Maroua
2024 (FS/UY1)
9 / 45 ya
Le Blogging
Les Web-blogs ou, plus brièvement, les blogs sont une autre
application du Web social. Ils sont apparus à la fin des années
1990.
Les blogs sont des journaux personnels ou des revues publiés sur
le Web. Un ou plusieurs auteurs - le(s) Web-Logger(s) ou, en
bref, le(s) blogueur(s), publient des billets (posts) sur leur vie ou
un sujet dédié.
Les lecteurs du blog peuvent participer activement en ajoutant
des réactions sous forme de commentaires, évaluations,...
Les utilisateurs peuvent s’abonner aux blogs par des flux (par
exemple RSS, Atom).
Techniquement, les blogs sont réalisés par :
des services d’hébergement de blogs, par exemple Blogger,
tumblr.,...
l’hébergement sur un serveur propre, par exemple WordPress.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
10 / 45 ya
Le Blogging
Les Web-blogs ou, plus brièvement, les blogs sont une autre
application du Web social. Ils sont apparus à la fin des années
1990.
Les blogs sont des journaux personnels ou des revues publiés sur
le Web. Un ou plusieurs auteurs - le(s) Web-Logger(s) ou, en
bref, le(s) blogueur(s), publient des billets (posts) sur leur vie ou
un sujet dédié.
Les lecteurs du blog peuvent participer activement en ajoutant
des réactions sous forme de commentaires, évaluations,...
Les utilisateurs peuvent s’abonner aux blogs par des flux (par
exemple RSS, Atom).
Techniquement, les blogs sont réalisés par :
des services d’hébergement de blogs, par exemple Blogger,
tumblr.,...
l’hébergement sur un serveur propre, par exemple WordPress.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
10 / 45 ya
Le Microblogging
Le microblogging a été introduit pour les mises à jour
occasionnelles de statuts personnels ou d’entreprise. Ici, les posts
ont une taille de 200 caractères ou moins.
Les posts peuvent être créés publiquement ou en privé au moyen
d’un navigateur, d’une application, d’un courriel ou d’une
messagerie instantanée.
Pour les microblogs, le concept de followers asynchrones a été
introduit : Les suiveurs reçoivent les mises à jour de statut du
microblogueur, qu’ils suivent, mais pas l’inverse.
Actuellement, le service de microblogage le plus populaire est
Twitter (dévenu X).
Twitter a débuté en 2006 et est entre-temps un important canal
médiatique pour les personnes publiques, les activistes
politiques,...
Pour identifier les sujets tendances dans le Web social, les
Hashtags sont utilisés.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
11 / 45 ya
Le Microblogging
Le microblogging a été introduit pour les mises à jour
occasionnelles de statuts personnels ou d’entreprise. Ici, les posts
ont une taille de 200 caractères ou moins.
Les posts peuvent être créés publiquement ou en privé au moyen
d’un navigateur, d’une application, d’un courriel ou d’une
messagerie instantanée.
Pour les microblogs, le concept de followers asynchrones a été
introduit : Les suiveurs reçoivent les mises à jour de statut du
microblogueur, qu’ils suivent, mais pas l’inverse.
Actuellement, le service de microblogage le plus populaire est
Twitter (dévenu X).
Twitter a débuté en 2006 et est entre-temps un important canal
médiatique pour les personnes publiques, les activistes
politiques,...
Pour identifier les sujets tendances dans le Web social, les
Hashtags sont utilisés.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
11 / 45 ya
Le Microblogging
Le microblogging a été introduit pour les mises à jour
occasionnelles de statuts personnels ou d’entreprise. Ici, les posts
ont une taille de 200 caractères ou moins.
Les posts peuvent être créés publiquement ou en privé au moyen
d’un navigateur, d’une application, d’un courriel ou d’une
messagerie instantanée.
Pour les microblogs, le concept de followers asynchrones a été
introduit : Les suiveurs reçoivent les mises à jour de statut du
microblogueur, qu’ils suivent, mais pas l’inverse.
Actuellement, le service de microblogage le plus populaire est
Twitter (dévenu X).
Twitter a débuté en 2006 et est entre-temps un important canal
médiatique pour les personnes publiques, les activistes
politiques,...
Pour identifier les sujets tendances dans le Web social, les
Hashtags sont utilisés.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
11 / 45 ya
Réseaux sociaux

Les services de réseautage social ou, plus brièvement, les réseaux


sociaux ont été créés en même temps que le microblogging.
Les réseaux sociaux combinent le blogging/microblogging et
ajoutent une liste de caractéristiques communes
supplémentaires :
Profil personnel
Liste d’amis (contrairement au concept de suiveur, les réseaux
sociaux établissent des relations bidirectionnelles entre les
utilisateurs).
Flux d’activité (combine les mises à jour de statut des amis d’un
utilisateur et permet les commentaires).
Messagerie privée avec d’autres utilisateurs ou groupes
d’utilisateurs.
Exprimer ses intérêts personnels, par exemple les ”likes”.
Applications sociales (par exemple, des jeux) → Les réseaux
sociaux deviennent des plateformes pour des applications propres.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
12 / 45 ya
Réseaux sociaux

Les services de réseautage social ou, plus brièvement, les réseaux


sociaux ont été créés en même temps que le microblogging.
Les réseaux sociaux combinent le blogging/microblogging et
ajoutent une liste de caractéristiques communes
supplémentaires :
Profil personnel
Liste d’amis (contrairement au concept de suiveur, les réseaux
sociaux établissent des relations bidirectionnelles entre les
utilisateurs).
Flux d’activité (combine les mises à jour de statut des amis d’un
utilisateur et permet les commentaires).
Messagerie privée avec d’autres utilisateurs ou groupes
d’utilisateurs.
Exprimer ses intérêts personnels, par exemple les ”likes”.
Applications sociales (par exemple, des jeux) → Les réseaux
sociaux deviennent des plateformes pour des applications propres.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
12 / 45 ya
Réseaux sociaux

Les services de réseautage social ou, plus brièvement, les réseaux


sociaux ont été créés en même temps que le microblogging.
Les réseaux sociaux combinent le blogging/microblogging et
ajoutent une liste de caractéristiques communes
supplémentaires :
Profil personnel
Liste d’amis (contrairement au concept de suiveur, les réseaux
sociaux établissent des relations bidirectionnelles entre les
utilisateurs).
Flux d’activité (combine les mises à jour de statut des amis d’un
utilisateur et permet les commentaires).
Messagerie privée avec d’autres utilisateurs ou groupes
d’utilisateurs.
Exprimer ses intérêts personnels, par exemple les ”likes”.
Applications sociales (par exemple, des jeux) → Les réseaux
sociaux deviennent des plateformes pour des applications propres.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
12 / 45 ya
Média social

En raison de la baisse des prix du stockage et de la bande


passante à haut débit, divers portails de médias sociaux ont été
introduits depuis 2005.
Pour les utilisateurs, les médias sociaux offrent la possibilité de
partager leurs ressources médiatiques telles que images, audios
ou vidéos avec des amis ou le public.
Les auteurs peuvent obtenir des commentaires sur leurs médias.
Les auteurs peuvent stocker leurs médias pour les inclure dans leur
site Web personnel sans tenir compte des problèmes de stockage.
Les services de médias sociaux populaires d’aujourd’hui sont :
Images - Instagram, flickr,...
Audio - Soundcloud,...
Vidéo - YouTube, Vimeo,...

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
13 / 45 ya
Média social

En raison de la baisse des prix du stockage et de la bande


passante à haut débit, divers portails de médias sociaux ont été
introduits depuis 2005.
Pour les utilisateurs, les médias sociaux offrent la possibilité de
partager leurs ressources médiatiques telles que images, audios
ou vidéos avec des amis ou le public.
Les auteurs peuvent obtenir des commentaires sur leurs médias.
Les auteurs peuvent stocker leurs médias pour les inclure dans leur
site Web personnel sans tenir compte des problèmes de stockage.
Les services de médias sociaux populaires d’aujourd’hui sont :
Images - Instagram, flickr,...
Audio - Soundcloud,...
Vidéo - YouTube, Vimeo,...

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
13 / 45 ya
Discussions critiques sur les médias sociaux
Vie privée
Les fournisseurs de réseaux sociaux revendiquent souvent des
droits d’utilisation étendus sur le contenu apporté par les
utilisateurs.
Les informations personnelles peuvent être utilisées pour la
publicité personnalisée et vendues aux annonceurs pour le
ciblage.

Confiance
Tout le monde peut créer des contenus corrects ou incorrects, par
exemple ”Edit Wars” sur Wikipédia.
De faux comptes sous de faux noms peuvent être créés.

Fiabilité
Les services peuvent être bloqués par les pays pour limiter l’accès
aux informations.
Discussions critiques sur les médias sociaux
Vie privée
Les fournisseurs de réseaux sociaux revendiquent souvent des
droits d’utilisation étendus sur le contenu apporté par les
utilisateurs.
Les informations personnelles peuvent être utilisées pour la
publicité personnalisée et vendues aux annonceurs pour le
ciblage.

Confiance
Tout le monde peut créer des contenus corrects ou incorrects, par
exemple ”Edit Wars” sur Wikipédia.
De faux comptes sous de faux noms peuvent être créés.

Fiabilité
Les services peuvent être bloqués par les pays pour limiter l’accès
aux informations.
Plan 23

1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Trouver l’aiguille dans une botte de foin 1/2

Le Web permet d’accéder à une quantité énorme d’informations.


Jusqu’en juillet 2008, Google a trouvé à lui seul un billion de
mots-clés.
(1012 = 1.000.000.000.000 URLs liés ...)
Depuis lors, Google ne publie plus ce nombre.
Il est quasiment impossible d’estimer le nombre actuel de documents.
La collection de documents dans le Web double environ tous les 6
mois
Il est peu probable que cette tendance s’arrête bientôt
Les moteurs de recherche aident à trouver l’information pertinente

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
16 / 45 ya
Trouver l’aiguille dans une botte de foin 2/2
Il existe de nombreux moteurs de recherche différents sur le marché
qui offrent différentes manières de rechercher sur le Web :

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
17 / 45 ya
Services de recherche sur le Web
Les services de recherche doivent répondre aux exigences
suivantes :
Soutenir les utilisateurs dans la recherche d’informations dans le
Web.
Construire une collection de données la plus étendue possible,
incluant idéalement tous les documents du Web.
Attribuer des termes clés spécifiques aux différents documents du
Web.
Trouver rapidement tous les fournisseurs d’informations - même
les nouveaux qui n’ont pas été répertoriés jusqu’à présent.
Les critères les plus importants pour les utilisateurs :
Complétude (rappel) : Trouver tous les documents pertinents.
Exactitude (Précision) : Trouver uniquement les documents
pertinents

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
18 / 45 ya
Services de recherche sur le Web
Les services de recherche doivent répondre aux exigences
suivantes :
Soutenir les utilisateurs dans la recherche d’informations dans le
Web.
Construire une collection de données la plus étendue possible,
incluant idéalement tous les documents du Web.
Attribuer des termes clés spécifiques aux différents documents du
Web.
Trouver rapidement tous les fournisseurs d’informations - même
les nouveaux qui n’ont pas été répertoriés jusqu’à présent.
Les critères les plus importants pour les utilisateurs :
Complétude (rappel) : Trouver tous les documents pertinents.
Exactitude (Précision) : Trouver uniquement les documents
pertinents

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
18 / 45 ya
Les différents types de moteurs de recherche
Catalogues Web (moteurs de recherche basés sur des
catalogues) ex dmoz
Les documents Web sont organisés en catégories par des éditeurs
humains.
Moteurs de recherche basés sur des index (Google)
Des agents automatisés (crawlers) visitent les sites Web en suivant
les hyperliens.
Le contenu du site Web est analysé, les termes importants sont
stockés en tant que mots-clés.
Méta-moteurs de recherche (ixquick)
Recherche dans différents moteurs de recherche
Combiner leurs meilleurs résultats
Moteurs de recherche à placement payant
Le fournisseur d’informations paie pour être listé
(https ://admarketplace.com/)
Moteurs de recherche orientés thème (Shopping, Actualités,
Personnes, Divertissement, Affaires, Sciences)
Moteurs de recherche régionaux
Moteurs de recherche de blogs et de flux RSS
Les différents types de moteurs de recherche
Catalogues Web (moteurs de recherche basés sur des
catalogues) ex dmoz
Les documents Web sont organisés en catégories par des éditeurs
humains.
Moteurs de recherche basés sur des index (Google)
Des agents automatisés (crawlers) visitent les sites Web en suivant
les hyperliens.
Le contenu du site Web est analysé, les termes importants sont
stockés en tant que mots-clés.
Méta-moteurs de recherche (ixquick)
Recherche dans différents moteurs de recherche
Combiner leurs meilleurs résultats
Moteurs de recherche à placement payant
Le fournisseur d’informations paie pour être listé
(https ://admarketplace.com/)
Moteurs de recherche orientés thème (Shopping, Actualités,
Personnes, Divertissement, Affaires, Sciences)
Moteurs de recherche régionaux
Moteurs de recherche de blogs et de flux RSS
Plan 30

1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Moteurs de recherche basés sur des index

Aujourd’hui, les moteurs de recherche les plus populaires sont basés


sur des index, comme Google ou Bing. L’index est une structure de
données permettant de mettre en correspondance des descripteurs
(par exemple, des mots-clés, des termes pertinents) aux documents.
Fonctions de base des moteurs de recherche basés sur des
index :
Collecte de données
Analyse des documents et examen des documents
Génération et administration des structures de données d’index
Réponse aux requêtes impliquant des valeurs de pertinence

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
21 / 45 ya
Moteurs de recherche basés sur des index : Collecte
de données
Quoi ?
La diversité des données du Web :
Documents HTML statiques
Documents HTML générés dynamiquement
Données multimédia (images, fichiers audio, vidéo)
Documents Postscript, PDF, Word, PowerPoint, etc.
Code source de logiciels

Quand ?
Les données et documents dans l’espace de connaissance du
Web...
n’ont généralement qu’une ”courte” durée de vie.
sont soumis à des changements constants.
sont reliés à d’autres documents par des liens et dépendent d’eux.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
22 / 45 ya
Moteurs de recherche basés sur des index : Collecte
de données
Quoi ?
La diversité des données du Web :
Documents HTML statiques
Documents HTML générés dynamiquement
Données multimédia (images, fichiers audio, vidéo)
Documents Postscript, PDF, Word, PowerPoint, etc.
Code source de logiciels

Quand ?
Les données et documents dans l’espace de connaissance du
Web...
n’ont généralement qu’une ”courte” durée de vie.
sont soumis à des changements constants.
sont reliés à d’autres documents par des liens et dépendent d’eux.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
22 / 45 ya
Moteurs de recherche basés sur des index : Collecte
des données - Comment ?

Les données du Web sont collectées au moyen d’outils logiciels


spéciaux, fonctionnant de manière autonome : robots Web ou
robots ou crawler Web ou crawler.

Le crawler peut trouver automatiquement des pages Web et des


documents dans le Web en suivant les URL derrière les liens (par
exemple dans d’autres documents).

Les documents trouvés par les crawlers sont stockés dans une
base de données.

Les documents déjà stockés dans la base de données doivent


être périodiquement contrôlés pour vérifier leur
cohérence/modifications/suppression.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
23 / 45 ya
Principe de fonctionnement d’un robot d’exploration du
Web 1/2

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
24 / 45 ya
Principe de fonctionnement d’un robot d’exploration du
Web 2/2
Les crawlers Web fonctionnent de manière distribuée selon le principe
client/serveur :

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
25 / 45 ya
Analyse et évaluation de documents

L’analyse et l’évaluation du contenu d’un document sont effectuées de


manière entièrement automatique par des outils logiciels → Systèmes
de recherche d’information
Les systèmes de recherche d’informations identifient les contenus
clés dans les documents examinés.
Les documents analysés sont stockés dans une base de données
en fonction des contenus clés identifiés (par exemple, des
mots-clés).
Les documents individuels sont pondérés en fonction de leur
pertinence.
Les méthodes permettant de créer une base de données
consultable sont appelées indexation.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
26 / 45 ya
Système de Questions - Réponses

La recherche se fait en saisissant un ou plusieurs termes de


recherche (requête).
Une comparaison automatique de similarité avec chaque
document de la base de données conduit à une sélection de
documents résultants correspondant à la requête saisie.
La sélection des documents résultants est effectuée par le
processeur de requête (qui est en fait le ”moteur de recherche”).
Les documents trouvés sont affichés dans un ordre correspondant
à leur pertinence.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
27 / 45 ya
Plan 39

1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Traitement et analyse des données 1/3

Après avoir été collectés par des robots d’exploration du Web, les
documents doivent être transformés en un ensemble de données
consultables efficacement.
Indexation du contenu des documents textuels :
Tout d’abord, divers types de documents (HTML, Postscript, PDF,
Doc,...) doivent être convertis en type de document uniforme.
Ensuite, le contenu doit être extrait par analyse sémantique.
Idée de base : Trouver toutes les chaı̂nes de caractères pertinentes
dans le fichier texte :
mots clés
en-têtes
puces
Attribuer des ”descripteurs” (mots clés) décrivant le document.
Collecter les informations de classement dues aux critères
d’évaluation donnés.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
29 / 45 ya
Traitement et analyse des données 1/3

Après avoir été collectés par des robots d’exploration du Web, les
documents doivent être transformés en un ensemble de données
consultables efficacement.
Indexation du contenu des documents textuels :
Tout d’abord, divers types de documents (HTML, Postscript, PDF,
Doc,...) doivent être convertis en type de document uniforme.
Ensuite, le contenu doit être extrait par analyse sémantique.
Idée de base : Trouver toutes les chaı̂nes de caractères pertinentes
dans le fichier texte :
mots clés
en-têtes
puces
Attribuer des ”descripteurs” (mots clés) décrivant le document.
Collecter les informations de classement dues aux critères
d’évaluation donnés.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
29 / 45 ya
Traitement et analyse des données 1/3

Après avoir été collectés par des robots d’exploration du Web, les
documents doivent être transformés en un ensemble de données
consultables efficacement.
Indexation du contenu des documents textuels :
Tout d’abord, divers types de documents (HTML, Postscript, PDF,
Doc,...) doivent être convertis en type de document uniforme.
Ensuite, le contenu doit être extrait par analyse sémantique.
Idée de base : Trouver toutes les chaı̂nes de caractères pertinentes
dans le fichier texte :
mots clés
en-têtes
puces
Attribuer des ”descripteurs” (mots clés) décrivant le document.
Collecter les informations de classement dues aux critères
d’évaluation donnés.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
29 / 45 ya
Traitement et analyse des données 2/3

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
30 / 45 ya
Traitement et analyse des données 3/3
Obtention de mots clés : Descripteurs

But
Le document doit être représenté aussi complètement que
possible au niveau du contenu en utilisant seulement quelques
mots clés.
Utiliser le filtrage de pertinence des mots clés pour une analyse
partielle du contexte, par ex.
balises HTML <Hx>, mise en évidence du texte, etc.
omission des mots de remplissage, des mots de liaison, des
pronoms, etc...
Analyse de la fréquence des mots-clés → pertinence

La loi de Zipf : Il est toujours plus facile pour l’auteur d’un texte de
répéter certains mots pour décrire un sujet que de chercher
constamment de nouveaux termes.
Dr TCHANTCHOU S. Yannick Ulrich ( Département
Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
31 / 45 ya
Vecteurs de documents

Vector Space Model (Modèle d’espace vectoriel)


Utilisation de méthodes mathématiques éprouvées à partir de la
recherche d’informations

Idée
Le document est considéré comme un vecteur dans un espace
vectoriel n dimensions, n ←− nombre de descripteurs.
Chaque vecteur de base représente un autre descripteur.
Le vecteur du document est obtenu comme une combinaison
linéaire de tous ses vecteurs de base, chaque vecteur de base
étant multiplié par le nombre d’occurrences d’un mot.
→ L’analyse des documents peut alors être effectuée au moyen
d’opérations mathématiques et de calculs issus de l’algèbre linéaire.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
32 / 45 ya
Exemple pour les vecteurs de documents

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
33 / 45 ya
Recherche de documents

Détermination de la similarité
La requête Q est également représentée comme un vecteur de
documents : → Les mots de recherche sont ici les descripteurs.
Calcul de la similarité du vecteur de documents de Q avec tous
les vecteurs de documents D.
La similarité entre Q et D est calculée comme le cosinus de
l’angle entre les deux vecteurs de documents Q et D.

sim(Q, D) = cos(θ)

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
34 / 45 ya
Classement des résultats de recherche

Afin d’obtenir des résultats de recherche de haute qualité, les


documents obtenus à partir de l’index de documents doivent être
pondérés en fonction de leur pertinence.
Qu’est-ce qui est important ?

Algorithme de fréquence des termes (TFA)


La loi de Zipf : Plus un mot clé apparaı̂t souvent dans un texte,
plus il doit être important.
Poids le plus simple : La fréquence absolue des mots.
Autre possibilité : La fréquence relative des mots.

Il existe de nombreux critères de pertinence plus complexes utilisés


par les moteurs de recherche, à savoir le célèbre → PageRank de
Google.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
35 / 45 ya
Exemple : Le modèle de pertinence de Google
PageRank de Google
Afin d’obtenir des résultats de recherche de qualité, les documents
obtenus à partir de l’index inversé doivent être pondérés en fonction de
leur pertinence.

Pondération de la pertinence
Google fait la distinction entre les documents ”importants” et les
documents ”sans importance” :
1 Un document est d’autant plus ”important” que d’autres
documents y font référence via des liens.
2 Un document qui fait référence à un document ”important” est
également considéré comme ”important”.
3 Plus un document contient de liens renvoyant à d’autres
documents, moins chaque lien est ”important”.

L’algorithme PageRank de Google est l’un des principaux actifs de


Plan 50

1 Overview
Web social et média social
Introduction aux moteurs de recherche
Moteurs de recherche basés sur des index et les robots
d’indexation
Traitement et classement des données des résultats de
recherche
Web Sémantique
Le Web audjourd’hui

Les informations sur le Web sont essentiellement prévues pour


être affichées (écran, imprimante) et lues par des humains ;

Il est essentiellement syntaxique : contenu quasi inaccessible aux


traitements machines ;

Seuls les humains peuvent interpréter ces contenus.

Les utilisations courantes du web que font les gens aujourd’hui


vont : de la recherche et l’utilisation des informations à la
recherche et la prise de contact avec d’autres gens, à la
consultation de catalogues de boutiques virtuelles et la
commande de produits en ligne.

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
38 / 45 ya
Le Web audjourd’hui
Le Web actuel
Ce que l’homme voit

F IGURE: Source Temal SEFIR


Le Web audjourd’hui
Le Web actuel
Comment la machine comprends

F IGURE: Source Temal SEFIR


Le Web audjourd’hui

La machine stocke des informations qu’elle ne peut pas interpréter.

F IGURE: Source Temal SEFIR

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
41 / 45 ya
Succès du Web

Le succès du Web actuel vient de la prolifération des moteurs de


recherche (par mots clés)

Problèmes des moteurs de recherche par mots clés


faible précision
résultats très sensibles au vocabulaire
résultats : seulement pages Web
intervention humaine pour interpréter et combiner les résultats
résultats des recherches pas lisibles par d’autres logiciels

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
42 / 45 ya
Succès du Web

Le succès du Web actuel vient de la prolifération des moteurs de


recherche (par mots clés)

Problèmes des moteurs de recherche par mots clés


faible précision
résultats très sensibles au vocabulaire
résultats : seulement pages Web
intervention humaine pour interpréter et combiner les résultats
résultats des recherches pas lisibles par d’autres logiciels

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
42 / 45 ya
Les limites du web actuel

le sens des contenus Web n’est pas accessible aux machines :


manque de sémantique

Example
Difficulté de distinguer le sens du verbe jouer :
elle joue des cymbales
elle joue des coudes
elle joue de son influence

Les informations sont cachées dans le code HTML et il est


presque impossible aux machines de comprendre et raisonner sur
ces informations.
Quel est l’hôpital de génicologie le plus proche de l’Université de
Maroua ?

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
43 / 45 ya
C’est quoi le Web sémantique ?

Definition
The Semantic Web is an extension of the current web in which
information is given well-defined meaning, better enabling
computers and people to work in cooperation.

Le Web sémantique est une extension du Web actuel dans lequel


l’information est munie d’une signification bien définie permettant aux
ordinateurs et aux personnes de mieux travailler en coopération.

Tim Berners-Lee, James Hendler, Ora Lassila// The Semantic Web,


Scientific american, May 2001// http ://www.scienfificamerican.com//

Dr TCHANTCHOU S. Yannick Ulrich ( Département


Ingde
énierie
Maths/Info
des applications
Faculté des
Web
Sciences (MI/FS) Universit
18 février
é de Maroua
2024 (FS/UY1)
44 / 45 ya
Objectif Web sémantique

F IGURE: Source : Tim Bernes-Lee

Rendre sémantique le web, c’est compléter les balises HTML par des
balises porteuses de sens (XML) ; c’est multiplier et organiser les
mots-clés dans le document même (sans que le lecteur ne voit de
différence)

Vous aimerez peut-être aussi