Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare une entreprise Scribd logo
Copyright Synaltic 2015
CDAP,
la boîte à outil pour concevoir
vos applications Big Data
Simplifier l'approche Big Data
Charly Clairmont
Synaltic
@egwada
cclairmont@synaltic.fr
http://synaltic.fr
Copyright Synaltic 2015
Plus d'une dizaine d'années d'expérience
Co-fondateur d'Altic, maintenant Synaltic
Co-fondateur du Hadoop User Groupe France
Aime faire connaître les technologies open source surtout
celles dédiées à l'entreprise
Charly Clairmont
2
Copyright Synaltic 2015
Société de conseils et de services spécialisée dans la mise
en œuvre de projets de Data Management
Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic
25 spécialistes en Data Management
Filiale en Suisse , à Lausanne
Nos valeurs
Engagement
Expertise
Fidélité
Synaltic
3
R&D
Training
SupportProject
Expertise
Data
Intelligence
Data
Platform
Data
Governance
Data
Exchange
SYNALTIC
Copyright Synaltic 2015
Big Data, un écosystème « hyperactif »
Core Hadoop
HDFS, MR
2006
Hbase
Zookeeper
Core Hadoop
2008
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2009
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2010
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2011
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2012
Nifi
Flink
Atlas
Ranger
Drill
Parquet
Sentry
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
Aujourd'hui
Arun Murthy, founder of Hortonworks : « I think you
are getting a lot more attention to fit and finish rather
than to just getting the new technology in»
Copyright Synaltic 2015
!! Simplifier Hadoop !!
Copyright Synaltic 2015
Le nouveau mot d'ordre : « Le Data Lake »
Data Lake
« Enterprise-wide data
management platforms for
analyzing disparate sources
of data in its native format »
Data Lake
« Collect everything, dive in
anywhere, give flexible
access. Maximum scale
and insight with the lowest
Possible friction and cost. »
Data Hub
« A centralized, unified data
Source that can quickly
provide diverse business
users with the information
they need to do their jobs. »
Gartner Hortonworks Cloudera
Copyright Synaltic 2015
« Le Data Lake », plusieurs architectures
« Étang » « Lac » « Réservoir »
Données Internes Existantes
Traitements / Analyses
Diffusion
Données Externes
PME / Business Units
« Dessilotage »
Startups / IoT
Stockage & Analyse de logs
logs brutes
Traitements & Analyses
Toutes données !!
Audits
Gouvernance
Traitements & Analyses
Grandes Organisations
Passage à l'échelle du DWH
Diffusion
Données Internes Existantes
DiffusionDonnées Externes
Copyright Synaltic 2015
« Le Data Lake », de nombreux challenges
« Étang » « Lac » « Réservoir »
Traitements manuels
Traçabilité (lineage)
Exploitabilité
Découpler ingestion
et traitements
Conserver la donnée d'origine
Partager l'infrastructure
Couvrir plusieurs
architectures
Traçabilité
Agile / réactif
Copyright Synaltic 2015
Attention aux enjeux techniques des projets !
Consistance Intégration Éviter l'inutile
Ré-utilisabilité Simplicité Productivité
Copyright Synaltic 2015
Cask Data Application Platform
L'objectif de Cask Data Application Platform, CDAP, est de
permettre à tout développeur ou toute organisation de
rapidement et facilement créer, déployer, exécuter et
suivre des applications modernes à l'aide de
technologies Big Data telles que Hadoop
Copyright Synaltic
Open Source (Licence Apache V 2.0)
Framework & Plateforme pour développeurs & organisations
Construire, déployer, et gérer vos applications
CDAP
11
Supporte les principales
distributions Hadoop
S'appuie sur les dernières
technologies Big Data
Standards
Copyright Synaltic
CDAP, tout en un !
12
Copyright Synaltic
Architecture hautement disponible
13
Copyright Synaltic
CDAP, tout en un !
14
Copyright Synaltic
Hydrator, un ETL pour le Big Data
15
Copyright Synaltic
Ex : Réputation de pages web, architecture application
16
Programmes
– Injection des paires d'url
– SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat
d'un jeu de données : ranks
– RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce
⇒ résultat d'un jeu de données : rankscount
Workflow
– PageRankWorkflow : Enchaînement des programmes
SparkPageRankProgram et RanksCounter
Service :
– SparkPageRankService : connaître le rang d'une url
Copyright Synaltic
Ex : Réputation de pages web, l'application
17
Copyright Synaltic
Ex : Réputation de pages web, déploiement de l'application
18
Enregistrement et déploiement de l'application
Lancement du service
Exécution d'un flux de l'application
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Liste des applications,
Liste des jeux de
données
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Les programmes
associés
– Traçabilité des
programmes
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Les jeux de
données associés
●
Traçabilité
des jeux de
données
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Paramétrage
– Exécution de
l'application
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Suivi des
exécutions
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Les services sont
disponibles pour
l'intégration aux
applications tierces
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Les jeux de données
peuvent être accédés
via JDBC
Copyright Synaltic
CDAP simplifie les projets Big Data
CDAP apporte une gestion de bout en bout de vos projets Big
Data
CDAP offre une vision complète et unifiée pour l'ensemble de
vos applications Big Data
– Extensibilité
– Metadonnées
– Audit
– Suivi
Ce qu'il faut retenir
26
Copyright Synaltic
CDAP :
– http://cdap.io/
Documentation :
– http://docs.cdap.io/cdap/current/en/index.html
Source :
– https://github.com/caskdata/cdap
Editeur :
– http://cask.co/
Liens
27
Copyright Synaltic 2015
Questions / Réponses

Contenu connexe

CDAP, la boîte à outil pour concevoir vos applications Big Data

  • 1. Copyright Synaltic 2015 CDAP, la boîte à outil pour concevoir vos applications Big Data Simplifier l'approche Big Data Charly Clairmont Synaltic @egwada cclairmont@synaltic.fr http://synaltic.fr
  • 2. Copyright Synaltic 2015 Plus d'une dizaine d'années d'expérience Co-fondateur d'Altic, maintenant Synaltic Co-fondateur du Hadoop User Groupe France Aime faire connaître les technologies open source surtout celles dédiées à l'entreprise Charly Clairmont 2
  • 3. Copyright Synaltic 2015 Société de conseils et de services spécialisée dans la mise en œuvre de projets de Data Management Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic 25 spécialistes en Data Management Filiale en Suisse , à Lausanne Nos valeurs Engagement Expertise Fidélité Synaltic 3 R&D Training SupportProject Expertise Data Intelligence Data Platform Data Governance Data Exchange SYNALTIC
  • 4. Copyright Synaltic 2015 Big Data, un écosystème « hyperactif » Core Hadoop HDFS, MR 2006 Hbase Zookeeper Core Hadoop 2008 Hive Pig Mahout Hbase Zookeeper Core Hadoop 2009 Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop 2010 Flume Bigtop Oozie MRUnit HCatalog Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop 2011 Spark Impala Solr Kafka Flume Bigtop Oozie MRUnit HCatalog Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop 2012 Nifi Flink Atlas Ranger Drill Parquet Sentry Spark Impala Solr Kafka Flume Bigtop Oozie MRUnit HCatalog Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop Aujourd'hui Arun Murthy, founder of Hortonworks : « I think you are getting a lot more attention to fit and finish rather than to just getting the new technology in»
  • 5. Copyright Synaltic 2015 !! Simplifier Hadoop !!
  • 6. Copyright Synaltic 2015 Le nouveau mot d'ordre : « Le Data Lake » Data Lake « Enterprise-wide data management platforms for analyzing disparate sources of data in its native format » Data Lake « Collect everything, dive in anywhere, give flexible access. Maximum scale and insight with the lowest Possible friction and cost. » Data Hub « A centralized, unified data Source that can quickly provide diverse business users with the information they need to do their jobs. » Gartner Hortonworks Cloudera
  • 7. Copyright Synaltic 2015 « Le Data Lake », plusieurs architectures « Étang » « Lac » « Réservoir » Données Internes Existantes Traitements / Analyses Diffusion Données Externes PME / Business Units « Dessilotage » Startups / IoT Stockage & Analyse de logs logs brutes Traitements & Analyses Toutes données !! Audits Gouvernance Traitements & Analyses Grandes Organisations Passage à l'échelle du DWH Diffusion Données Internes Existantes DiffusionDonnées Externes
  • 8. Copyright Synaltic 2015 « Le Data Lake », de nombreux challenges « Étang » « Lac » « Réservoir » Traitements manuels Traçabilité (lineage) Exploitabilité Découpler ingestion et traitements Conserver la donnée d'origine Partager l'infrastructure Couvrir plusieurs architectures Traçabilité Agile / réactif
  • 9. Copyright Synaltic 2015 Attention aux enjeux techniques des projets ! Consistance Intégration Éviter l'inutile Ré-utilisabilité Simplicité Productivité
  • 10. Copyright Synaltic 2015 Cask Data Application Platform L'objectif de Cask Data Application Platform, CDAP, est de permettre à tout développeur ou toute organisation de rapidement et facilement créer, déployer, exécuter et suivre des applications modernes à l'aide de technologies Big Data telles que Hadoop
  • 11. Copyright Synaltic Open Source (Licence Apache V 2.0) Framework & Plateforme pour développeurs & organisations Construire, déployer, et gérer vos applications CDAP 11 Supporte les principales distributions Hadoop S'appuie sur les dernières technologies Big Data Standards
  • 15. Copyright Synaltic Hydrator, un ETL pour le Big Data 15
  • 16. Copyright Synaltic Ex : Réputation de pages web, architecture application 16 Programmes – Injection des paires d'url – SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat d'un jeu de données : ranks – RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce ⇒ résultat d'un jeu de données : rankscount Workflow – PageRankWorkflow : Enchaînement des programmes SparkPageRankProgram et RanksCounter Service : – SparkPageRankService : connaître le rang d'une url
  • 17. Copyright Synaltic Ex : Réputation de pages web, l'application 17
  • 18. Copyright Synaltic Ex : Réputation de pages web, déploiement de l'application 18 Enregistrement et déploiement de l'application Lancement du service Exécution d'un flux de l'application
  • 19. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Liste des applications, Liste des jeux de données
  • 20. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Les programmes associés – Traçabilité des programmes
  • 21. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Les jeux de données associés ● Traçabilité des jeux de données
  • 22. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Paramétrage – Exécution de l'application
  • 23. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Suivi des exécutions
  • 24. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Les services sont disponibles pour l'intégration aux applications tierces
  • 25. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Les jeux de données peuvent être accédés via JDBC
  • 26. Copyright Synaltic CDAP simplifie les projets Big Data CDAP apporte une gestion de bout en bout de vos projets Big Data CDAP offre une vision complète et unifiée pour l'ensemble de vos applications Big Data – Extensibilité – Metadonnées – Audit – Suivi Ce qu'il faut retenir 26
  • 27. Copyright Synaltic CDAP : – http://cdap.io/ Documentation : – http://docs.cdap.io/cdap/current/en/index.html Source : – https://github.com/caskdata/cdap Editeur : – http://cask.co/ Liens 27