Exercices - Q5
Exercices - Q5
Exercices - Q5
Exercice 1 : la GED
Questions :
1. Documents numériques
Le terme « numérique » vient du latin numerus (nombre, multitude) et signifie « représentation par
nombres ». Le nom « analogique » provient du mot grec analogos signifiant « qui est en rapport avec,
proportionnel ».
Le numérique (digital en anglais) est une représentation de l’information par un nombre fini de valeurs
discrètes (qui sont, au final, codifiables en binaires, à savoir au moyen de deux états, 0 et 1, et donc
traitables par les machines électroniques que sont les ordinateurs).
L’analogique est une représentation d’une grandeur physique par une fonction continue. Pour mesurer
cette grandeur, il faut une interface analogique (caméra, micro, etc.). La mesure peut ensuite être
éventuellement numérisée par un convertisseur analogique/numérique (CAN). Par exemple, pour la
copie d’une image :
• L’analogique consistera à essayer de reproduire à l’identique de ce qui est observé (avec un risque de
déperdition d’information).
• Le numérique consistera à isoler chaque point de l’image (pixeliser) et à le caractériser (position,
couleur) ce qui facilite sa reproduction à l’identique.
Numérique
Document Analogique
Numérisé Création native
Compte rendu saisi sur traitement de texte
Rapport sur traitement de texte issu d’une
reconnaissance vocale
Photographique prise par un appareil numérique
Diaporama créé sous PowerPoint
Photocopie papier d’un cours
PDF issu d’un cours scanné
Captation vidéo en MPEG d’une conférence
Fichier de données d’un capteur sismique sous
tableur
2. Indexation de documents
………………………………………………………………………………………………………………………………………………………………...
………………………………………………………………………………………………………………………………………………………………...
………………………………………………………………………………………………………………………………………………………………...
2.2. Une indexation de tous les mots d’un texte est-elle pertinente ? Proposer une solution alternative.
………………………………………………………………………………………………………………………………………………………………...
………………………………………………………………………………………………………………………………………………………………...
………………………………………………………………………………………………………………………………………………………………...
La recherche de termes dans un document PDF s’effectue par défaut par balayage de l’intégralité du
texte du début à la fin (ce qui peut prendre du temps pour un long document).
Un index peut être constitué au préalable : il recensera les mots pertinents du document et leur
emplacement dans une base de données. Les recherches s’effectueront ensuite dans cet index (plus
court que le document) et seront donc plus rapides.
2.3. A titre d’exemple, on souhaite établir l’index des termes des deux paragraphes ci-dessus. Lister les
termes à indexer.
………………………………………………………………………………………………………………………………………………………………...
………………………………………………………………………………………………………………………………………………………………...
………………………………………………………………………………………………………………………………………………………………...
2.4. Le moteur de recherche Google indexe des images selon différents critères (essayer Google, puis
Images et enfin Outils de recherche). Indiquer pour chacun de ces critères s’il est fondé sur des
métadonnées (indexation textuelle) ou sur le contenu graphique de l’image (analysé automatiquement).
Taille : Couleur :
Type : Période :
Droit d’usage :
3. Conservation de documents
3.1. La corédactrice du site de Madame Tulipe a procédé à des modifications du contenu de certains
articles publiés sur le site en question. Comment appelle-t-on ce type d’opérations ?
………………………………………………………………………………………………………………………………………………………………...
3.2. Madame Tulipe s’aperçoit qu’il advient régulièrement que des erreurs soient introduites au fil des
modifications. Malheureusement, le site internet ne permet aucun « retour en arrière ». Proposer une
solution à Madame Tulipe.
………………………………………………………………………………………………………………………………………………………………...
3.3. En vous servant du site www.service-public.fr, répondre à la question suivante : au sein d’une
entreprise, quelle est la durée d’archivage minimale des documents suivants ?
Exercice 2 : l’indexation
Lorsque la volumétrie d’information augmente, il importe de classer / classifier les informations ou les
documents. Citons quelques procédés de la vie quotidienne :
En matière de web, les internautes ont recours aux moteurs de recherche généralistes (Google
essentiellement, Bing également) ou spécialisés (Youtube par exemple) afin de rechercher les documents
qui les intéressent : pages web, images, vidéos, etc. Dès lors, le rôle d’un moteur de recherche est de
proposer des contenus pertinents au regard des mots saisis par l’utilisateur.
Les métadonnées sont les données connexes d’un document. Elles ne font
directement partie du contenu du document mais viennent apporter des
informations complémentaires telles que :
Métadonnées
• Mots-clefs ou tags facilitant la classification d’un document ;
• Auteur ou copyright ;
• Date de création, version, etc.
L’optimisation pour les moteurs de recherche, communément appelée SEO
Optimisation pour les pour Search Engine Optimization, consiste dans l’ensemble des procédés
moteurs de recherche permettant d’améliorer la visibilité des pages web et autres contenus dans
les résultats de recherche.
Questions :
PageRank
L'algorithme PageRank (PR) évalue la popularité d'un site internet par note de 1 à 10 (en échelle
logarithmique : passer de 1 à 2 n'équivaut pas à passer de 8 à 9). Cette technologie a été développée en
1996-1997 à l'Université de Stanford et a donné lieu à la création de Google en 1998 (par Larry Page et
Sergey Brin), qui en a fait son principal outil de classement des résultats de son moteur de recherche.
………………………………………………………………………………………………………………….
………………………………………………………………………………………………………………….
………………………………………………………………………………………………………………….
Selon le PR, ce sont principalement les liens (directs ou indirects) pointant vers un site qui font sa
popularité.
…………………………………………………………………………………………………………………………………………………………………..
1.3. Identifier une manipulation possible du PageRank, i.e. un moyen de fausser le PageRank d’un site.
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
Trust Rank
L'algorithme Trust Rank (« indice de confiance ») développé par deux chercheurs de l'université de
Stanford et un de Yahoo!, note les sites entre 0 (équivalent à du spam) et 1 (site de confiance, tels que
les sites gouvernementaux, les sites de référence, par exemple le W3C, ... ).
Présenté en 2004, il a aussi été adopté par Google en 2005 (déposant même une marque TrustRank)
pour le combiner avec le Page Rank.
Panda et Pingouin
Le référencement est dit naturel lorsqu'il n'est pas issu d'un accord commercial entre le moteur de
recherche et le site proposé (comme c'est le cas pour les liens commerciaux). Les moteurs de recherche
admettent, voire encouragent, l'optimisation des sites en vue de leur référencement par les moteurs de
recherche (SEO, Search Engine Optimization) car cela doit permettre de faire ressortir des contenus
pertinents et de qualité. Par contre, ils luttent contre les manipulations de leur algorithme de recherche.
À partir de 2010, Google est confronté à des sites qui parviennent à se placer « haut » dans les résultats
sans apporter de réelle valeur ajoutée car il s'agit de « fermes de contenus » qui agrègent, souvent sans
autorisation, d'autres contenus, tout en les agrémentant de publicité : comparateurs de prix, annuaires,
sites d'affiliation pour des bons de réduction ...
En février 2011, la mise à jour Google Panda fait chuter leur trafic jusqu'à 80 %. Là où Panda s'attaque
aux contenus (notamment dupliqués), Google Pingouin traque, à partir d'avril 2012, les backlinks (liens
pointant vers des sites) artificiels et le « bourrage » de mots-clés.
Le référencement étant une « guerre », certains peuvent créer des liens artificiels vers le site d'un
concurrent afin que celui-ci soit présumé coupable et déréférencé (« negative SEO »). Google doit donc
maintenant proposer à un site de désavouer un lien qui pointe vers lui.
1.4. Quel est l'enjeu du référencement par un moteur de recherche pour un site ?
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
Référencement social
En 2009, Google abandonne le Trust Rank au profit d'un nouveau brevet, Search Result Ranking Based
On Trust, qui tient compte des annotations des internautes en tant que vote de confiance, un Person
Rank. C’est une approche en lien avec les réseaux sociaux : le « like » remplace le « link ». Et le « like »
devient un critère de popularité d’un site internet.
1.5. Quel est l’intérêt du référencement social ? Quel est le problème si l’on se cantonne à prendre en
compte les « like » ?
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
Dans le cadre de l’indexation de pages web, les moteurs de recherche ne valorisent pas tous les
contenus textuels de la même manière. En raison de leur situation dans une page web, certains mots
(mots-clefs) sont présumés avoir plus d’importance et être plus pertinents ! C’est au développeur à
placer non seulement les bons mots-clefs mais encore les mots-clefs en bon endroit.
En particulier, les moteurs de recherche valorisent tout particulièrement les trois métadonnées :
La description de la page web <meta name="description" content="La description de la page web" />
1.6. Dans un document PDF comme dans une page web, quels sont les contenus textuels qui ont
logiquement plus d’importance ?
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
Finalement, pour faciliter la vie des systèmes d’indexation des moteurs de recherche, un site doit
normalement posséder un ou plusieurs sitemap. Le sitemap est un document XML.
1.7. Accéder au sitemap de l’Elysée (www.elysee.fr/sitemap.xml). Que contient un sitemap et à quoi cela
peut-il bien servir aux moteurs de recherche ?
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
2. Le référencement payant
AdWords AdSense
Principe : payer pour être référencé sur le moteur Principe : être payé pour afficher des publicités
de recherche Google ou des sites partenaires sur son site.
(AdSense) en achetant des mots-clés.
2.1. Calculer les revenus d'un site en hypothèse basse et en hypothèse haute avec les données suivantes :
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
Exercice 3 : l’interopérabilité
Les logiciels produits en général des fichiers dans un format donné. Un format est
une manière d’organiser et de stocker les données. En informatique,
l’interopérabilité est la capacité qu’ont deux systèmes informatiques à pouvoir
échanger des données entre eux. Afin de faciliter les échanges et donc
Interopérabilité l’interopérabilité des systèmes, des formats standards ont été définis.
En particulier, les langages XML et JSON sont des langages de description de
données destinés à servir de formats intermédiaires dans le cadre d’échanges
entre systèmes.
Le HTML est par exemple un format de XML. En effet, le HTML est bel et bien du XML. Il a son propre
schéma. Et le schéma actuel du HTML est celui du HTML5.
Questions :
RSS signifie « Really Simple Syndication » (souscription vraiment simple) ou « Rich Site Summary »
(sommaire développé de site).
Un flux RSS (ou fil RSS ou canal RSS) informe automatiquement ses abonnés des dernières nouveautés
d'un site sans qu'ils aient besoin de se rendre sur le site. Pour l'éditeur du site, cela doit permettre de
fidéliser les visiteurs et d'augmenter le trafic.
L'internaute s'abonne, de façon anonyme et gratuite, au flux dans son navigateur, courrieleur ou un
agrégateur de flux client lourd (exemple : WebBulle) ou léger (exemple : NetVibes).
Le flux RSS fait appel à un fichier XML qui stocke notamment le titre et un résumé des nouveaux
contenus ainsi que des liens directs vers l'intégralité de ces contenus. Voici le fichier du flux RSS d'un site
de lycée :
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
Une nouveauté est ajoutée aujourd'hui au flux RSS : elle a pour titre « Nouvelle page d'accueil » et sa
description est « Mise en ligne d'une nouvelle photo du lycée ».
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
…………………………………………………………………………………………………………………………………………………………………..
Question complémentaire : au moyen de la table ASCII fournie dans le cours, traduisez le texte
« Animaux fantastiques » en binaire.