Une petite découverte de Cask Data Application Platform par Charly CLAIRMONT Synaltic
1 sur 28
Contenu connexe
CDAP, la boîte à outil pour concevoir vos applications Big Data
1. Copyright Synaltic 2015
CDAP,
la boîte à outil pour concevoir
vos applications Big Data
Simplifier l'approche Big Data
Charly Clairmont
Synaltic
@egwada
cclairmont@synaltic.fr
http://synaltic.fr
2. Copyright Synaltic 2015
Plus d'une dizaine d'années d'expérience
Co-fondateur d'Altic, maintenant Synaltic
Co-fondateur du Hadoop User Groupe France
Aime faire connaître les technologies open source surtout
celles dédiées à l'entreprise
Charly Clairmont
2
3. Copyright Synaltic 2015
Société de conseils et de services spécialisée dans la mise
en œuvre de projets de Data Management
Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic
25 spécialistes en Data Management
Filiale en Suisse , à Lausanne
Nos valeurs
Engagement
Expertise
Fidélité
Synaltic
3
R&D
Training
SupportProject
Expertise
Data
Intelligence
Data
Platform
Data
Governance
Data
Exchange
SYNALTIC
4. Copyright Synaltic 2015
Big Data, un écosystème « hyperactif »
Core Hadoop
HDFS, MR
2006
Hbase
Zookeeper
Core Hadoop
2008
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2009
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2010
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2011
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2012
Nifi
Flink
Atlas
Ranger
Drill
Parquet
Sentry
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
Aujourd'hui
Arun Murthy, founder of Hortonworks : « I think you
are getting a lot more attention to fit and finish rather
than to just getting the new technology in»
6. Copyright Synaltic 2015
Le nouveau mot d'ordre : « Le Data Lake »
Data Lake
« Enterprise-wide data
management platforms for
analyzing disparate sources
of data in its native format »
Data Lake
« Collect everything, dive in
anywhere, give flexible
access. Maximum scale
and insight with the lowest
Possible friction and cost. »
Data Hub
« A centralized, unified data
Source that can quickly
provide diverse business
users with the information
they need to do their jobs. »
Gartner Hortonworks Cloudera
7. Copyright Synaltic 2015
« Le Data Lake », plusieurs architectures
« Étang » « Lac » « Réservoir »
Données Internes Existantes
Traitements / Analyses
Diffusion
Données Externes
PME / Business Units
« Dessilotage »
Startups / IoT
Stockage & Analyse de logs
logs brutes
Traitements & Analyses
Toutes données !!
Audits
Gouvernance
Traitements & Analyses
Grandes Organisations
Passage à l'échelle du DWH
Diffusion
Données Internes Existantes
DiffusionDonnées Externes
8. Copyright Synaltic 2015
« Le Data Lake », de nombreux challenges
« Étang » « Lac » « Réservoir »
Traitements manuels
Traçabilité (lineage)
Exploitabilité
Découpler ingestion
et traitements
Conserver la donnée d'origine
Partager l'infrastructure
Couvrir plusieurs
architectures
Traçabilité
Agile / réactif
9. Copyright Synaltic 2015
Attention aux enjeux techniques des projets !
Consistance Intégration Éviter l'inutile
Ré-utilisabilité Simplicité Productivité
10. Copyright Synaltic 2015
Cask Data Application Platform
L'objectif de Cask Data Application Platform, CDAP, est de
permettre à tout développeur ou toute organisation de
rapidement et facilement créer, déployer, exécuter et
suivre des applications modernes à l'aide de
technologies Big Data telles que Hadoop
11. Copyright Synaltic
Open Source (Licence Apache V 2.0)
Framework & Plateforme pour développeurs & organisations
Construire, déployer, et gérer vos applications
CDAP
11
Supporte les principales
distributions Hadoop
S'appuie sur les dernières
technologies Big Data
Standards
16. Copyright Synaltic
Ex : Réputation de pages web, architecture application
16
Programmes
– Injection des paires d'url
– SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat
d'un jeu de données : ranks
– RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce
⇒ résultat d'un jeu de données : rankscount
Workflow
– PageRankWorkflow : Enchaînement des programmes
SparkPageRankProgram et RanksCounter
Service :
– SparkPageRankService : connaître le rang d'une url
18. Copyright Synaltic
Ex : Réputation de pages web, déploiement de l'application
18
Enregistrement et déploiement de l'application
Lancement du service
Exécution d'un flux de l'application
20. Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Les programmes
associés
– Traçabilité des
programmes
21. Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Les jeux de
données associés
●
Traçabilité
des jeux de
données
22. Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Paramétrage
– Exécution de
l'application
24. Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Les services sont
disponibles pour
l'intégration aux
applications tierces
26. Copyright Synaltic
CDAP simplifie les projets Big Data
CDAP apporte une gestion de bout en bout de vos projets Big
Data
CDAP offre une vision complète et unifiée pour l'ensemble de
vos applications Big Data
– Extensibilité
– Metadonnées
– Audit
– Suivi
Ce qu'il faut retenir
26