BigData - Partie1 Et 2 - Sagar Samya
BigData - Partie1 Et 2 - Sagar Samya
BigData - Partie1 Et 2 - Sagar Samya
2 SAGAR Samya
Sujet et problématique
Documents et bases de documents
Comprendre ce qu’une base de données documents et savoir évaluer les
méthodes, outils et systèmes pour les gérer.
Problématiques associées
Notion de document, structuré, semi-structuré, non structuré ;
Représentation et interrogation (Recherche), et aussi mise à jour et
transactions.
Distribution, élasticité pour gérer de très grands volumes de données.
3 SAGAR Samya
Bases Relationnelles
4 SAGAR Samya
Problématique 1 : La notion de "document"
Document = unité d’information autonome ou quasi-
autonome.
Peu ou peu de référence à d’autres documents.
Peu ou pas de structure ; ou une structure très flexible (souple).
Toute paire (i, v) où i est l’identifiant du document et v une valeur
structurée contenant les informations caractérisant le document.
Un contenu souvent à orienté multimédia.
Exemples :
Documents textuels types de documents Web.
Images, documents audios, vidéos : pas de structure explicite,
production de descripteurs synthétiques pour tenter de les indexer.
Jeux en ligne : artefacts graphiques, objets 3D, actions utilisateur.
Tous les fichiers de votre ordinateur …
Impose de repenser à la notion de schéma et de représentation
5 SAGAR Samya
Problématique 1 : bases documentaires
Soit un ensemble important de documents, comment les gérer ?
Dans un système de fichier ? Pourquoi pas, mais
Manipulation laborieuses : aucun contrôle de contenu ; peu sécurisé,
fonction de recherche primitive.
Vraiment pas pratique pour construire des applications.
Dans une base relationnelle ? Pourquoi pas, mais
Sous-utilisation du système (SQL inutilisable, transactions
élémentaires)
Peu de gains.
Dans un système Orienté-document ?
Un système de Gestion Electronique de Documents (GED), type
Alfresco.
Une base documentaire = des fonctionnalités BD, spécialisées
documents
6 SAGAR Samya
Problématique 2 : La Recherche
Soit un ensemble de documents, comment les interroger/accéder ?
Dans les bases documentaires, peu ou pas de structure fixe.
SQL inadapté.
Recherche « exacte » souvent insatisfaisante.
La recherche s’effectue souvent par similarité.
On fournit un document « requête ».
Le système recherche les documents proches du document-
requête.
Implique une notion de distance et donc un classement de
résultat.
Par exemple, quand on recherche sur le Web :
On fournit un ensemble de mots-clés : c’est le document requête
Le moteur de recherche trouve les documents les plus proches.
7 SAGAR Samya
Problématique 3 : données à très grande échelle
On atteint facilement des volumes de données
extrêmement importants.
Les moteurs de recherche qui collectent des documents disponibles sur
le Web.
Les applications utilisées à l’échelle du Web : commence électronique
(Amazon), les réseaux sociaux (Facebook).
Données gérées par les jeux en ligne.
Les collections occupent typiquement des centaines de
Giga-octets, voir des Téraoctets.
Solution : Nouveaux systèmes, dits "NoSQL" pour gérer de
vastes collections de documents de manière scalable
- pour les accès temps réel;
- pour les traitements analytiques (MapReduce et au-delà).
Mots-clés associés : élasticité, prise sur panne
8 SAGAR Samya
Objectifs du cours
Le cours vise à vous transmettre, dans un contexte pratique,
deux types de connaissance.
Connaissances fondamentales
Représentation de documents textuels : les formats XML et JSON; les
langages de manipulation;
Recherche dans les bases documentaires : principes, techniques, moteurs
de recherche, index, algorithmes;
Stockage, gestion et scalabilité par distribution : L’essentiel sur les
systèmes distribués ; cas des systèmes NoSQL.
Connaissances pratiques
Des système "NoSQL" orientés « documents » : Pour JSON (MongoDB),
CouchDB) pour XML (BaseX).
Un moteur de recherche (Solr) basé sur un index inversé (Lucene)
Etude, en pratique, de quelques systèmes NoSQL distribués : MongoDB /
Cassandra (temps réel), ElasticSearch (indexation), Hadoop/ Spark/ Flink
(analytique à grande échelle).
9 SAGAR Samya
Pré-requis du cours
Compréhension des bases relationnelles, soit au moins la conception d’un
schéma, SQL, ce qu’est un index et des notions de base sur les
transactions.
Une connaissance minimale dans un environnement de développement.
Editer un fichier, lancer une commande, savoir résoudre un problème avec
un minimum de tenacité, etc. (Vous devez reproduire les exemples donnés)
La connaissance de langage de programmation
Java
Python
La notion de la programmation concurrente
Les notions :
Cloud,
cluster,
machine virtuelle
10 SAGAR Samya
Partie 2
Généralités sur le Big Data
11 SAGAR Samya
Contexte (1) – Données Massives
Croissance de la quantité des données exponentielle.
Sources de ces données massives :
Mais en plus …
Génomique
Téléphonie
Objets connectés, capteurs/RFID
Open data (Réseaux sociaux, …)
Astrophysique, météo
Observation de la terre (climat,
catastrophes)
Figure : 1 zetta = un film qui dure 745 millions d’années.
12 SAGAR Samya
Contexte (2) – Données Massives
Les volumes à gérer sans précédents impliquent
Données hétérogènes, complexes et souvent
liées
produites par des applications différentes,
produites par des utilisateurs différents,
avec des liens explicites (par exemple citations, ancres url,
etc.) ou implicites (à extraire ou à apprendre)
13 SAGAR Samya
Le phénomène Big Data
Il s’agit de découvrir de nouveaux ordres de
grandeur concernant la capture, le traitement,
la recherche, le partage, le stockage, l’analyse
et la présentation des données.
Ainsi est né le « Big Data ».
Il s’agit d’un concept permettant de stocker un nombre
indicible d’informations sur une base numérique.
appellation apparue en octobre 1997.
concept popularisé en 2012 pour traduire le fait que les
entreprises sont confrontées à des volumes de données à
traiter de plus en plus considérables et présentant un fort
enjeux commercial et marketing.
14 SAGAR Samya
Le Big Data, c’est quoi ?
Littéralement, ces termes signifient méga-données, grosses
données ou encore données massives.
Ils désignent un ensemble très volumineux de données
qu’aucun outil classique de gestion de base de données ou
de gestion de l’information ne peut vraiment travailler.
En effet, nous procréons environ 2,5 trillions d’octets de
données tous les jours.
Ce sont les informations provenant de partout.
Ces données sont baptisées Big Data ou volumes
massifs de données.
Les géants du Web : Yahoo, Facebook et Google ont été les
tous premiers à déployer ce type de technologie.
15 SAGAR Samya
Exemples de données Massives
Data centers de quelques grands acteurs du Big Data
Google DataCenter
70000 servers/data center et 16 data centers
Facebook
5 data centers
Amazon :
7 data centers, 450 000 severs
16 SAGAR Samya
Big Data – une définition
Aucune définition précise ou universelle ne peut être
donnée au Big Data. Etant un objet complexe polymorphe, sa
définition varie selon les communautés.
Définition :
"Le Big Data (ou mégadonnées) se compose de données massives,
dont le Volume augmente en permanence et à une Vitesse toujours
plus élevée, et d’une Variété si grande que leur transformation en
informations pertinentes (Valeur utilisable) requiert l’utilisation de
technologies et de méthodes analytiques spécifiques à un coût
accessible."
C’est pourquoi lorsque nous parlons du Big Data, nous parlons
toujours de ses « grands V » (les règles des 3V)
le concept du Big Data a évolué, et le nombre de ses V aussi !!
17 SAGAR Samya
Big Data – Caractéristiques (1)
Evolution des V du Big Data
3Vs – Gartner (2001)
18 SAGAR Samya
Big Data – Caractéristiques (2)
Evolution des Vs du Big Data
Encore plus de V ;
5Vs – 6Vs – … – 10Vs etc.
19 SAGAR Samya
Big Data – Caractéristiques (3)
Couverture de cinq dimensions - 5Vs
Volume (1/2)
Le volume est la principale caractéristique du Big Data. Le terme est en
effet directement tiré de l’immense masse de données générées à chaque
instant.
Ces volumes sont devenus tellement massifs que nous ne parlons plus en
Téraoctets mais en Zettaoctets pour les quantifier.
Prévision d’une croissance de 800% des quantités de données à traiter d’ici à 5 ans.
Préfixes multiplicatifs
20 SAGAR Samya
Big Data – Caractéristiques (4)
Couverture de cinq dimensions - 5Vs
Volume (2/2)
Selon IBM, une moyenne de 2,5 quintillions de bytes de
données sont créés chaque jour, soit environ 2,3 trillions de
gigabytes. Ces données évoluent à la hausse de jour en jour
avec l’ajout constant de source de données.
L’exemple de l’essor des objets connectés en est la preuve.
23 SAGAR Samya
Big Data – Caractéristiques (7)
Couverture de cinq dimensions - 5Vs
Variété (3/5)
Les données structurées
Ont un format fixe et sont souvent numériques.
Dans la plupart des cas, elles sont traitées par des
machines plutôt que par des humains.
Ce type de données est constitué d’informations déjà gérées
par l’organisation dans
des bases de données
des feuilles de calcul
des data lakes
des data warehouses.
24 SAGAR Samya
Big Data – Caractéristiques (8)
Couverture de cinq dimensions - 5Vs
Variété (4/5)
Les données semi-structurées
Sont des informations qui ne sont pas organisées et qui
n’ont pas de format prédéterminé, car il peut s’agir de
quasiment n’importe quoi.
Elles comprennent les données recueillies à partir des
réseaux sociaux et elles peuvent être placées dans des
fichiers texte conservés dans:
des clusters de type Hadoop
des systèmes NoSQL
25 SAGAR Samya
Big Data – Caractéristiques (9)
Couverture de cinq dimensions - 5Vs
Variété (5/5)
Les données non structurées.
peuvent contenir les deux types de données, comme
c’est le cas
des journaux de serveur Web
des données provenant de capteurs mis en place.
Il s’agit des données qui, bien qu’elles n’aient pas été
classées dans un dépôt (base de données) particulier,
contiennent des informations essentielles ou des balises
séparant les différents éléments au sein des données.
26 SAGAR Samya
Big Data – Caractéristiques (10)
Couverture de cinq dimensions - 5Vs
Vitesse (Vélocité)
Correspond à la rapidité à laquelle les data sont générées et circulent.
Le Big Data permet
l’analyse d’informations en temps réel détection de fraudes, analyse des données, … )
et leur transmission à un rythme effréné.
Ainsi, les entreprises peuvent faire preuve d’une réactivité et d’une agilité
incomparables.
La technologie nous permet maintenant d'analyser les données pendant
qu’elles sont générées, sans jamais mettre en bases de données.
Exemples
Streaming Data ➢ des centaines par seconde
100 Capteurs ➢ dans chaque voiture moderne pour la surveillance
Plus les données arrivent rapidement et plus les sources sont variées, plus il
est difficile de tirer de la valeur de ces données.
27 SAGAR Samya
Big Data – Caractéristiques (11)
Couverture de cinq dimensions - 5Vs
Véracité
Elle fait référence à l’exactitude et à la fiabilité de la donnée qui est
essentielle pour pouvoir en tirer profit et la transformer en information
utilisable dans l’entreprise.
Indispensable lorsque des décisions clés doivent être prises sur des volumes
aussi importants et collectés aussi rapidement.
Exemples : données à partir de réseaux sociaux ou de sites Web,
Comment peut-on être sûr qu’elles sont exactes et correctes ?
L’élection présidentielle de 2012 au Mexique avec de faux comptes Twitter !!
Les données de mauvaise qualité qui ne sont pas vérifiées peuvent causer des
problèmes.
Faire des analyses inexactes et prendre de mauvaises décisions.
Cette notion des 5V désigne donc le fait nettoyer les données (data
cleansing) et faire en sorte qu’elles soient exactes, prêtes à l’emploi et utilisées
à des fins business dans le processus décisionnel.
28 SAGAR Samya
Big Data – Caractéristiques (12)
Couverture de cinq dimensions - 5Vs
Valeur
désigne le fait que chaque donnée doit apporter une valeur ajoutée à
l’entreprise.
Il est donc crucial que les entreprises, avant de lancer leur projet Big Data,
sachent pourquoi et comment elles vont le mener afin d’évaluer la
future rentabilité.
La démarche Big Data n’a de sens que pour atteindre des objectifs
stratégiques de création de valeur (nouvelles connaissances) pour les
clients et pour l’entreprise;
dans tous les domaines d’activité : commerce, industrie, services …
La Valeur des 5 V rejoint le concept de Business Intelligence
qui consiste à rendre la données exploitable et stratégique dans le processus
décisionnel afin de prioriser les informations essentielles et stratégiques à chaque
équipe de l’organisation.
29 SAGAR Samya
Big Data – Caractéristiques (13)
Couverture de cinq dimensions - 5Vs
En Résumé
30 SAGAR Samya
Comment le Big Data fonctionne-t-il ? (1)
L’idée principale du Big Data:
c’est que plus vous en savez sur quelque chose, plus vous
pouvez en tirer des informations qui vous permettront
de prendre une décision ou de trouver une solution.
Dans la plupart des cas, ce processus est entièrement
automatisé :
d’outils très avancés qui exécutent des millions de simulations
pour donner le meilleur résultat possible.
Mais pour y parvenir à l’aide d’outils d’analyse, de machine
learning ou même d’intelligence artificielle, il faut savoir :
comment fonctionne le Big Data
et comment tout configurer correctement.
31 SAGAR Samya
Comment le Big Data fonctionne-t-il ? (2)
Les trois actions principales
Intégration
De données massives de sources différentes,
Utilisation de nouvelles stratégies et technologies pour les traiter.
Recevoir Traiter Formater les données dans un format adapté aux
besoins de l’entreprise et compréhensible au client.
Gestion
D’un si grand volume d’informations
Besoin d’endroit où les stocker : le cloud, sur site ou les deux.
Choix du format de stockage afin qu’elles soient disponibles en temps réel à la
demande.
Analyse
De données pour pouvoir les explorer et les utiliser afin de prendre des décisions
importantes,
Exemple :
identification les caractéristiques les plus recherchées par les clients de l’entreprise.
32 SAGAR Samya
Comment le Big Data fonctionne-t-il ? (3)
Fondements des outils et Framework de Big Data
La plupart des outils et des frameworks de Big Data
sont construits en gardant à l'esprit les caractéristiques
suivantes :
La distribution des données;
Le traitement en parallèle;
La tolérance aux pannes;
L'utilisation de matériel standard;
Flexibilité, évolutivité et scalabilité.
33 SAGAR Samya
Comment le Big Data fonctionne-t-il ? (4)
Fondements des outils et Framework de Big Data
La distribution des données
Le grand ensemble de données est divisé en morceaux ou en petits
blocs et réparti sur un nombre N de nœuds ou de machines.
Ainsi les données sont réparties sur plusieurs nœuds et sont prêtes au
traitement parallèle.
36 SAGAR Samya
Comment le Big Data fonctionne-t-il ? (7)
Exemple
37 SAGAR Samya
Big Data – Les technologies (1)
Les grands acteurs du web tel que Google,Yahoo, Facebook, Twitter,
LinkedIn … ont été les premiers à être confrontés à des volumétries de
données extrêmement importantes et ont été à l’origine des premières
innovations en la matière.
Les créations technologiques qui ont facilité la venue et la croissance du Big
Data peuvent globalement être catégorisées en deux familles :
Les technologies de stockage, portées particulièrement par le déploiement
du Cloud Computing.
Les technologies de traitement ajustées, spécialement le développement de
nouvelles bases de données adaptées aux données non-structurées et la
mise au point de modes de calcul à haute performance. On en distingue
principalement deux types de technologies :
Les plateformes de développement et de traitement des données (GFS, Hadoop,
Spark, algorithme MapReduce, …)
Les bases de données NoSql (comme MongoDB, Cassandra ou Redis)
38 SAGAR Samya
Big Data – Les technologies (2)
39 SAGAR Samya
Big Data – Les technologies (3)
40 SAGAR Samya
Big Data – Domaines d’utilisation (1)
Les perspectives d’utilisation de ces données sont énormes,
notamment pour
l’analyse d’opinions politiques,
de tendance industrielles,
la génomique,
la lutte contre la criminalité et la fraude,
les méthodes de marketing publicitaire et de vente
etc …
41 SAGAR Samya
Big Data – Domaines d’utilisation (2)
Décodage du génôme humain: le génôme d’une
personne (env. 100Go) décodé en 30mns
Prédiction des résultats des élections US en 2012 à
partie d’analyse de tweets
Découverte d’un effet secondaire dû à la prise de
deux médicaments par analyse des requêtes
d’internautes (Yahoo)
Étude des déplacements de population (migration,
tourisme, circulation urbaine, etc)
42 SAGAR Samya