Cours L3
Cours L3
Cours L3
B. Premiers jalons
L’une des principales difficultés liées à l’usage d’Internet tient à un certain nombre de termes
dont l’usage est devenu banal, mais dont la signification exacte est diversement maîtrisée.
1
Ils sont difficiles à tenir à jour ;
Exemples d'annuaires généralistes mondiaux :
Open Directory Project – DMOZ Mise à jour par les internautes
ipl2 information you can trust (sélection du web par des
professionnels de l'information)
Ces annuaires généralistes sont peu utilisés car peu connus.
Un moteur de recherche est un outil permettant de retrouver des pages web à partir
d'une requête.
Outil automatisé d'indexation et de recherche des ressources du web visible. 3 composantes :
1. Robot collecteur : parcourt les sites par le biais des liens hypertexte et collecte les données
2. Module d’indexation : construit l’index (chaque mot = 1 mot-clé)
3. Module de requête : gère les recherches et les résultats
Le principe en est simple : le service indexe au préalable, c'est-à-dire stocke et traite sur ses
propres disques durs, un certain nombre de pages web. Cette indexation s'effectue en texte intégral,
tous les mots contenus dans toutes les pages référencées devenant alors des index potentiels de
recherche. L'utilisateur saisit ensuite un ou plusieurs mots clés, reliés entre eux par des opérateurs ET
ou OU.
Le moteur va rechercher les occurrences de ces mots dans les pages sources et affiche ensuite
celles qui lui semblent les plus pertinentes (selon un algorithme de classement qui lui est propre).
Comment les moteurs classent-ils leurs résultats ?
Mieux utiliser les outils de recherche, c'est également mieux comprendre comment ils
fonctionnent. Les moteurs de recherche, qui effectuent leurs investigations dans plusieurs centaines
de millions de pages Web, prennent en compte de nombreux paramètres pour effectuer le calcul.
Citons :
2
La présence du mot demandé dans le titre du document ;
Sa présence dans le texte de la page, mais cela ne suffit pas : une page contenant le mot demandé
en haut du document sera mieux "notée" qu'une autre le présentant en bas de page. De nombreux
critères sur la façon dont le texte est affiché sont ainsi pris en compte, comme la proximité, la
mise en exergue (gras, taille des caractères, etc.) ;
La présence du mot demandé dans certains champs qui n'apparaissent pas sur la page mais qui
sont fournis aux outils de recherche. On appelle ces champs les "balises Meta" ;
Sa présence dans l'adresse de la page (exemple : www.bidule.fr/dossier/france2.html ) ;
L’indice de popularité du document (le nombre de liens " pointant " vers cette page sur le Web).
Quels sont les principaux moteurs de recherche
Google http://www.google.com/ Plus de 8 milliards de pages référencées en avril 2006
scholar http://scholar.google.com Indexe le web scientifique (y compris pages personnelles
de chercheurs)
Base http://www.base-search.net Indexe des archives ouvertes et des revues en libre accès
- indexe les métadonnées et non le texte intégral
Hotbot http://www.hotbot.com/ Réseau Lycos
3
Les encyclopédies en ligne
Plusieurs sources prestigieuses sont disponibles en ligne, et représentent des milliers de pages
de connaissances.
Encyclopédie http://www.l 150 000 articles, 500 présentations, chronologie de 7000 événements,
Larousse en ligne arousse.fr/ 900 extraits sonores, des possibilités de personnalisation, etc.
Encyclopaedia http://www.u La base de données n'est consultable que pour les abonnés. Le service
Universalis niversalis- contient l'ensemble du fond documentaire de l'encyclopédie, soit 50
edu.com/ millions de mots, 28 000 articles couvrant l'ensemble des domaines de
la connaissance, signés par 4 000 auteurs prestigieux.
On trouve sur le net une quantité immense d’informations : tout le monde peut créer son
site et publier des informations sur tout. Aucun filtrage n’est effectué a priori… Le réseau Internet
ne possède pas de système de contrôle de la qualité de l'information. Si vous ne voulez pas diminuer
la valeur de vos travaux en utilisant des informations de mauvaise qualité ou en citant des
informations douteuses, vous devez évaluer les sites Web que vous rencontrez. Attention donc : il
faut IMPERATIVEMENT se poser un certain nombre de questions à chaque fois que vous
pénétrez sur un site :
« Qui a créé le site ? Qui en est le rédacteur ? Quel est le « degré » d’autorité de la source ? »
« Quelle est la nature des informations que je peux trouver sur tel ou tel site ? »
« Quel est le contenu exact du document ? »
« A quelle fréquence le site est-il mis à jour ? »
Les guillemets
L'utilisation des « » permet de lancer une recherche sur une chaîne de caractères (mêmes mots
dans le même ordre). Elle peut s’avérer utile pour réduire le nombre de résultats ou pour rechercher
une expression précise.
Ex : « Monde diplomatique » éliminera d’éventuelles recherches avec le mot « Monde »
ou le mot « diplomatique », et ne renverra que des résultats en rapport avec ce journal.
Important.
Pour éviter que nos résultats contiennent du « bruit » (pages hors sujet), il est impératif
d'utiliser "les guillemets". Lorsque l'on encadre l'expression recherchée de guillemets (sans espace
entre le symbole et le mot), on lance la requête non plus sur les mots mais sur l'expression telle
qu'elle est écrite. Seules sont sélectionnées les pages qui contiennent tous les termes, côte à côte, dans
le même ordre...
4
Pour de nombreuses recherches, il est nécessaire d'utiliser plusieurs mots-clés pour préciser
sa question et réduire le nombre de réponses non pertinentes. Mais une requête lancée avec deux
termes n'est pas interprétée de la même façon par tous les outils de recherche. Certains moteurs,
comme Google, utilisent l'opérateur ET par défaut. Dans ce cas, si la question comprend plusieurs
mots-clés (traitement "eaux usées" par exemple), le moteur ne sélectionne que les pages qui
contiennent tous les termes.
D'autres outils en revanche emploient un OU implicite. La même recherche sélectionne alors
les pages qui comportent les deux termes, mais aussi celles qui contiennent l'un ou l'autre des mots-
clés.
Une astuce permet heureusement de tirer parti de certaines fonctionnalités du moteur sans
étude préalable de son mode d'emploi. Il suffit pour cela d'utiliser systématiquement le symbole +,
qui est compris par la grande majorité des outils de recherche.
Ce symbole, qui doit être placé immédiatement devant le mot, sans espace entre le signe
et le mot, signifie que l'on demande la présence impérative du terme dans les pages sélectionnées.
Si l'on recherche par exemple des pages concernant le traitement des eaux usées, on saisira le
symbole + devant chacun des mots ou expressions (y compris le premier mot) : +traitement
+"eaux usées". Il ne doit pas y avoir d'espace entre le symbole et le mot qu'il concerne ; il y a
en revanche un espace entre chaque ensemble « +terme ».
5
cancer -horoscope +cancer -horoscope
Deuxième exercice : Quelle est la différence entre ces deux requêtes ?
cancer sein -horoscope +cancer +sein -horoscope
Faites donc attention à la syntaxe de vos questions, car plus vous utiliserez d'opérateurs
comme ET (+) ou SAUF (-) et moins l'erreur sera permise.
6
- factuelles = donnent accès à de l’information primaire, i.e. données numériques,
images..
- bibliographiques = donnent accès à de l’information secondaire, i.e. des références
bibliographiques
- hybrides
Intérêt des bases de données bibliographiques?
- Repérer de l'information récente et à jour
- Essentielles pour la recherche d'articles
- Fonctionnalités de recherche et d’exploitation des résultats avancées
- Fonctionnalités de veille et de sauvegarde des requêtes et des résultats
Qu’est-ce qu’une plateforme d’éditeur ?
- Service en ligne développé par un éditeur pour donner accès à ses publications et à leurs
références bibliographiques
- Fonctionnalités + ou – développées
- Permet la recherche dans le texte intégral des articles et des livres
Limites
- Recherche par sujet pas forcément optimale (mots-clefs des auteurs en général)
- Par définition, contenu limité aux publications d’un seul éditeur
Exemple :
Plateforme spécialisée : IEEE Xplore
http://benhur.teluq.ca/ST/sciences/sci1013/ressources/ref-ress-outils.htm$
7
NOTIONS D’ANALYSE STATISTIQUE AVEC EXCEL
La statistique c’est la science des grands nombres regroupant l'ensemble de
méthodes mathématiques qui, à partir du recueil et de l'analyse de données réelles,
permettent l'élaboration de modèles probabilistes autorisant les prévisions. (Larousse).
On perçoit dans cette première définition plusieurs termes et notions fondamentales
propres à la statistique :
Le recueil sous-entend la collecte qui elle-même suppose dans bien des cas la
réalisation d'une enquête ou d'un sondage.
Enquête et sondage impose l'échantillonnage en vue de l'inférence (Opération
intellectuelle par laquelle on passe d'une vérité à une autre vérité, jugée telle en raison de
son lien avec la première. La déduction est une inférence. ).
L'analyse des données suppose la manipulation de tableaux ou grands
ensembles de données qu'il s'agira de décrire et de résumer tout en accompagnant cette
opération de représentations graphiques et cartographiques.
La notion de modèles probabilistes sous-entend une certaine maîtrise de l'incertitude
dans le but de réaliser des prévisions ou de pratiquer l'inférence.
On voit se dessiner ici les deux principales branches de la statistique :
La statistique descriptive
La statistique mathématique ou différentielle
La statistique descriptive :
Ensemble des méthodes permettant de décrire une population par le biais des
individus qui la composent. Elle s’intéresse donc à décrire et caractériser un ensemble
d’individus représenté la plupart du temps sous la forme de tableaux (tableaux de
données), à résumer et synthétiser ces tableaux par l’intermédiaire de graphiques et de
paramètres appropriés (fréquences, distribution, moyenne, dispersion, etc.). Elle
s’attachera à éventuellement rechercher des corrélations (liaisons statistiques) entre les
éléments de ces tableaux (variables et individus).
Exemple: Les températures moyennes mensuelles à Bouake sur une période
précise.
Le « simple » passage d'un tableau de données plus ou moins important à
un graphique et/ou à quelques indicateurs pertinents telle que la moyenne
constituent une opération relevant de la statistique descriptive.
La statistique mathématique ou inférentielle :
Cette branche des statistiques s’intéresse davantage à extrapoler des résultats issus
d’échantillons en vue de caractériser une population mère inconnue, de faire des prévisions
de comportements basées sur le calcul de probabilités.
Exemple : En période électorale, on interroge 1 000 personnes sur leur intention de
vote. A partir des résultats obtenus sur cet échantillon, on prévoit, avec une certaine
précision, le comportement de l’ensemble des électeurs (population mère) et par là même,
le résultat des élections. C’est ce qu’on appelle l’inférence statistique et c’est le principe
même du sondage d’opinion par exemple.
8
PRESENTATION DES DONNEES
Définition des objectifs :
Ce tableau sera inséré dans un rapport d'activité. Il est important d'en soigner la présentation
et de mettre clairement en évidence l'évolution du nombre d'abonnés. Il devra facilement resservir
pour l'année suivante par une simple copie et la modification des données.
Formatez le tableau de départ pour mettre en valeur les différentes zones du tableau, à la
manière du tableau suivant :
9
♦ La zone de calcul et de résultat est entourée par une bordure plus large. La mise en forme
conditionnelle colorie en vert les pourcentages positifs et en rouge les négatifs.
3. Compléter la 1ère colonne en rentrant la valeur "452.5" dans la cellule A2, puis
additionner successivement 5 dans les cellules suivantes.
Cliquer sur la cellule A3 Taper " = "
Cliquer sur la cellule A2 Taper l'opération " + 5 "
Taper la touche "entrée"
Cliquer sur la poignée de recopie en bas à droite de la
cellule A3 (une croix noire) et tirer sans lâcher le bouton
de la souris jusqu'à la cellule A11.
On obtient les deux premières colonnes ci-contre.
4. Compléter la colonne des effectifs cumulés croissant
Entrer la valeur "12" dans la cellule C2
Cliquer sur la cellule C3 Puis Taper " = "
Cliquer sur la cellule C2 Puis Taper " + "
Cliquer sur la cellule B3 Puis Taper sur " entrée "
Attraper la poignée de recopie de la cellule C3 et la
descendre jusqu'à la cellule C11
10
Cliquer sur la cellule D12
Taper " = "
Cliquer sur la flèche de la fenêtre
située au dessus de la colonne A Choisir
dans la liste la fonction " SOMME "
Cliquer sur " SOMME "
11
Tirer la poignée de recopie de la cellule E2 jusqu'à la
cellule E11
2. Compléter la colonne (xi – moy) 2
Cliquer sur la cellule F2 Puis Taper " = "
Cliquer sur la cellule E2 Puis Taper " * "
Cliquer sur la cellule E2
Taper " entrée " puis tirer la poignée de recopie de la
cellule F2 jusqu'à la cellule F11
12
Cliquer sur la case
E 19
Taper " = "
Choisir la fonction
" racine " et se
placer dans la
parenthèse
Cliquer sur la
cellule G12
Taper "/ "
Cliquer sur la
cellule C11
Cliquer sur " OK "
IV. Représentation graphique de la série et interprétation de la moyenne
et de l'écart type σ
1. Construction de l’histogramme et du polygone des effectifs
Sélectionner les cellules A2 à A11 à l'aide du bouton gauche de la souris maintenu appuyé
Cliquer sur le bouton graphique " " ou sur "Insertion – Graphique "
Cliquer sur l'onglet "Type personnalisé"
Cliquer sur "Courbes – Histogramme "
Cliquer sur "Suivant >"
Cliquer sur l'onglet "Série"
Cliquer dans la fenêtre "Nom" et taper "Histogramme"
A l'aide du bouton gauche de la souris sélectionner l'expression dans la fenêtre "Valeurs"
Taper simultanément sur les touches "Ctrl" et "C" (copier)
Cliquer dans la fenêtre " Étiquettes des abscisses (X)"
Taper simultanément sur les touches "Ctrl" et "V" (coller)
Effacer l'expression contenue dans la fenêtre "Valeurs"
Sélectionner les cellules B2 à B11 à l'aide du bouton gauche de la souris maintenu appuyé
Cliquer sur "ajouter"
Cliquer dans la fenêtre "Nom" et taper "Polygone des effectifs"
Effacer le contenu de la fenêtre "Valeurs"
Sélectionner les cellules B2 à B11 à l'aide du bouton gauche de la souris maintenu appuyé
Cliquer sur "Suivant >"
Cliquer sur l'onglet "Titres"
Dans la fenêtre "Titre du graphique" taper "Paquets de céréales"
Dans la fenêtre "Axe des abscisses (X)" taper "Masse en gramme"
Dans la fenêtre "Axe des ordonnées (Y)" taper "Effectif"
Cliquer sur " Suivant >" et puis sur "Terminer"
Double-cliquer sur une des barres du graphique pour faire apparaître "Format de série de données"
Cliquer sur "Options"
Dans la fenêtre "Largeur de l’intervalle" taper la valeur "0"
Agrandir la fenêtre du graphique pour voir apparaître les centres de classes et placer la fenêtre dessous le
tableau.
13
2. Moyenne et écart type
Sur la barre d'outils de dessin choisir "Trait"
Placer un trait vertical sur la valeur de la moyenne 475, 22 g
Choisir la couleur rouge et l'épaisseur 1 point ½
Sur la barre d'outils de dessin choisir "Zone de texte"
Placer le curseur au-dessus du trait et taper "Moyenne (475,22 g)"
Les calculs (moy – σ) et (moy + σ) donnent :
moy – σ = 475,22 – 9,45 soit moy – σ = 465,77 g
et
moy + σ = 475,22 + 9,45 soit moy + σ = 484,67 g
De la même façon que précédemment placer un trait vertical de couleur verte et d'épaisseur 1
point ½ sur chacune de ces valeurs et taper la valeur à côté du trait.
Le résultat final est le suivant.
La largeur de l'intervalle compris entre une barre verte et la barre rouge est égale à σ
Entre les 2 traits verts, on trouve environ 68% des paquets de céréales.
(207 + 223 + 247 + 209 = 886 sur les1287 paquets)
Une série statistique dont 68 % de l’effectif est compris entre (moy – σ) et (moy + σ) peut
être approchée par une loi dite « normale ».
La courbe représentative est une « courbe en cloche » centrée sur la valeur moyenne
LA CORRELATION
Les fonctions d'EXCEL sont accessibles dans la barre blanche en cliquant sur l'icône fx, ou
en commençant à écrire une expression avec "=".
Moyenne Chercher la fonction Moyenne dans la liste des fonctions et sélectionner la plage
des valeurs.
INTERPRETATION ET UTILITE DE CES DIFFERENTS
PARAMETRES ?
14