[B! Spark] wamanのブックマーク

waman id:waman

Sparkに関するwamanのブックマーク (19)

Facebookによるグラフデータ処理のためのApache GiraphとSpark GraphXの比較
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
waman 2017/01/18
グラフ描画

Spark

SNS
リンク
Hadoopが変えるデータとヒトへのアプローチ ―「Hadoop Summit 2016 Tokyo」レポート | gihyo.jp
Hadoopが変えるデータとヒトへのアプローチ ―「Hadoop Summit 2016 Tokyo」レポート 10月26、27日の2日間、東京・新宿ヒルトンにおいてホートンワークスジャパン主催のカンファレンス「Hadoop Summit 2016 Tokyo」が行われました。Hadoopカンファレンスとしてはグローバルでもっとも規模の大きい「Hadoop Summit（主催: Hortonworks⁠）⁠」の初の東京開催であり、国内ではめずらしい有料のITイベントということもあって、業界関係者からはその成否が注目されていたカンファレンスでもあります。本稿ではこのイベントの全体像を振り返りながら、IT、そしてビジネスの世界におけるHadoopの位置づけをあらためて考えてみたいと思います。 Hadoop Summit Tokyoとは gihyo.jpの読者であればご存知の方も多いでしょうが、
waman 2016/11/02
『2006年に誕生したHadoopにとって，最大のイノベーションは2011年のYARN登場だった』

Hadoop

Spark
リンク
Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など
Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など分散処理フレームワークの「Apache Spark 2.0」正式版のリリースが、開発元のDatabricksから発表されました。これまでApache Sparkはバージョン1.x（直前の最新版は1.6）でしたので、メジャーバージョンアップとなります。 Spark 2.0で最大の新機能は、新しいSQLパーサーを採用したことによるANSI SQL（SQL 2003）への対応です。ビッグデータのベンチマークの1つであるTPC-DSの99種類のクエリがそのまま実行可能と説明されており、プログラマが慣れ親しんだ一般的なSQL文はすべて実行可能になります。また、DataFrameとDatasetは統合されたAPIとなりました。こうしたAPIの変更や改善が行われた一方で、Spark 2.0ではパフ
waman 2016/07/28
『Spark 2.0では前バージョンと比べて10倍の速度向上を目論んでおり』

Spark
リンク
Big Data Processing with Apache Spark - Part 4: Spark Machine Learning
InfoQ Software Architects' Newsletter A monthly overview of things you need to know as an architect or aspiring architect. View an example
waman 2016/07/03
Spark

AI・機械学習
リンク
2016-04-24 - sfchaos blog
技術評論社から近々刊行される「詳解Apache Spark」をご恵贈いただきました．ありがとうございます！詳解 Apache Spark 作者: 下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門出版社/メーカー: 技術評論社発売日: 2016/04/29メディア: 大型本この商品を含むブログ (5件) を見る Amazonの発送は4月29日からのようですが，都内のジュンク堂や紀伊國屋，書泉ブックタワーなどの大型書店では既に先行販売されているようです．是非手に取ってみてください．総評本書は，大規模並列分散基盤のApache Sparkについて，豊富な実践例を交えながら基本的なコンセプトや使用方法が解説された書籍です．この分野の第一線で実際に業務で使用している方々が，わかりやすく執筆されています．Sparkを使う必要があったりどんなものか知ってみたいと思ったりしているエ
waman 2016/04/25
Spark

書籍
リンク
JAXenter - Java Development & Software Architecture
waman 2016/03/15
『Battle for dominance? Not necessarily!』

Hadoop

Spark
リンク
Beyond Hadoop ─Databricks共同創業者に訊くApache Sparkのポテンシャル | gihyo.jp
いまいちばん勢いのあるオープンソースプロダクトとして注目度の高いApache Spark。2月8日、東京・大井町きゅりあんで行われた「Hadoop / Spark Conference Japan 2016」は、国内で開催される初めてのSparkカンファレンスということもあり、1300人を超える登録者を集め、盛況のうちに幕を閉じました。今回、このカンファレンスの基調講演、そしてSparkセッションに登壇した、Databricks創業者のひとりにしてSparkの3代目リリースマスターでもあるレイノルド・シン（Reynold Xin）氏にインタビューする機会を得たので、その内容をご紹介します。 HadoopはSparkの“原点であり越えるべき目標” ─⁠─まずはレイノルドさんご自身の自己紹介をお願いできるでしょうか。Databricksという会社についてもご説明いただければ。シン氏：僕はDa
waman 2016/03/03
『HadoopがSparkの競合になるということはありえません。SparkはHadoopのエコシステムとしてスタートしましたから。ただし最近は「Beyond Hadoop」という位置にあることは認識しています。』

Spark

Hadoop
リンク
IBM Developer
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
waman 2016/02/19
Spark

scala

Hadoop
リンク
Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016
Spark 2.0はフロントエンド APIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016 2月8日に都内で開催された、HadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」の基調講演には、Sparkの開発を進めているDatabricksのReynold Xin氏が登壇。 Xin氏は、現在開発が進んでいるSpark 2.0の概要を紹介しました。セッションの内容をダイジェストで紹介します。 Spark 2.0: What's Next DatabricksのReynold Xin氏（写真左）。
waman 2016/02/09
Spark

Hadoop
リンク
大規模分散データ処理フレームワーク「Apache Spark 1.6」正式リリース。メモリコンフィグレーションの自動化、静的型付けのDataset API、速度の向上も実現
Spark 1.6では、よく使われるデータフォーマットの1つであるParquetの読み込みに、新しいParquet Readerを導入。いくつかの処理のバイパスやコードの最適化を行った結果、ベンチマークでこれまで1秒あたり290万行の読み込み速度だったものを1秒あたり450万行まで、約50％改善したと説明されています。また、1.6ではこれまで設定により固定されていた実行用のメモリ領域とキャッシュ用のメモリ領域の大きさを、新しいメモリマネージャの導入によって自動的に最適化できるように改善。手動での最適化を不要にし、実行速度の向上に貢献しました。昨年導入された「DataFrame」とJavaVMのオーバーヘッドを改善する実行エンジンの「Project Tungsten」は、Sparkの実行速度の改善に寄与しました。Spark 1.6ではDataFrameを拡張したDataset APIが追
waman 2016/01/06
Spark
リンク
Apache Spark 1.5正式版がリリース。JavaVMのオーバーヘッドを改善する「Project Tungsten」で、さらに高速に
Apache Spark 1.5正式版がリリース。JavaVMのオーバーヘッドを改善する「Project Tungsten」で、さらに高速に Apache Sparkは、高いスループットを実現するバッチ処理と小さなレイテンシが求められるリアルタイム性の高い処理のいずれにも対応することを目指して開発された、大規模分散処理基盤です。インメモリ処理や中間データなどをできるだけ生成させない効率的なスケジューラなどを備え、Scala、Java、R、Pythonなどに対応するなどが特長。 Project Tungstenによる高速化 Apache Spark 1.5の最大の特徴は「Project Tungsten」による実行エンジンの高速化です。 Apache SparkはJavaVMを用いて処理を行っていますが、JavaVMが備えるガベージコレクションやメモリ管理などの仕組みは、Apache Sp
waman 2015/09/10
Spark

JVM
リンク
The 7 most common Hadoop and Spark projects
The 7 most common Hadoop and Spark projects Think you're breaking new ground with your Hadoop project? Odds are it fits neatly into one of these seven common types of projects There's an old axiom that goes something like this: If you offer someone your full support and financial backing to do something different and innovative, they’ll end up doing what everyone else is doing. So it goes with Had
waman 2015/08/19
Spark

Hadoop
リンク
IBMが50プロジェクトのオープンソース化ヘ
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
waman 2015/08/11
オープンソース

Spark

Watson
リンク
はじめてのSpark Streaming - CLOVER🍀
今までは、SparkのStandalone ModeとYARN上で動かすといった動作環境的なものを少し試してきたので、もうちょっとSpark自体で遊んでみようと思いまして。まずは、Spark Streamingの初歩的なところからやってみたいと思います。 Spark Streaming Programming Guide http://spark.apache.org/docs/latest/streaming-programming-guide.html とか言いながら、ちょっと寄り道してみたらめっちゃハマりました…。 Spark Streamingとは？こちらを見る限り… Overview http://spark.apache.org/docs/latest/streaming-programming-guide.html#overview Kafka、Flume、Twitter
waman 2015/08/10
Spark
リンク
Apache SparkをYARN上で動かしてみる - CLOVER🍀
先ほど、こんなエントリを書きました。 Apache Sparkで、HDFS上のファイルを読み書きする http://d.hatena.ne.jp/Kazuhira/20150802/1438499631 ここで使ったプログラムを、YARN上で動かしてみたいと思います。 SparkをYARN上で動かす時は、yarn-clientとyarn-clusterという2種類の起動方法があるみたいです。 Running Spark on YARN http://spark.apache.org/docs/latest/running-on-yarn.html 参考） Spark on YARN http://kzky.hatena blog.com/entry/2015/01/12/Spark_on_YARN Apache Spark Resource Management and YARN App M
waman 2015/08/09
【Apache Hadoop】MapReduce has undergone a complete overhaul in hadoop-0.23 and we now have, what we call, MapReduce 2.0 (MRv2) or YARN.

Spark

Hadoop
リンク
Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた（前編）
Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた（前編）最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか？今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク「
waman 2015/08/05
『Sparkでの処理にはMapReduceでのMapやReduceといった区分けはなく、処理の途中で中間データの生成のような無駄なI/Oがなるべく発生しないようにスケジューラが処理を組み立ててくれます。』

Spark

Hadoop
リンク
Apache SparkをScalaTestで動かしたい - CLOVER🍀
このところ、SparkをStandalone ModeやYARNで動かしていましたが、もうちょっと機能的な感覚をつかみたいと思いまして。で、毎度Spark Submitしてもいいのですが、テストコードで動かせないかなぁ、と…。調べた感じ、やれないこともなさそうな雰囲気…。 Testing Spark Streaming Applications http://eng.tapjoy.com/blog-list/testing-spark-streaming-applications https://spark-summit.org/2014/wp-content/uploads/2014/06/Testing-Spark-Best-Practices-Anupama-Shetty-Neil-Marshall.pdf ちょっと、やってみましょう！追記）ドキュメントをよーく見ると、ここに
waman 2015/08/04
Spark

テスト
リンク
Apache SparkのSpark Standalone Modeを動かしてみる - CLOVER🍀
前回SparkでHello World的なことをやりましたが、今回はSpark Standalone Modeを試してみることにします。 Spark Standalone Mode https://spark.apache.org/docs/latest/spark-standalone.html が、そもそもこれってSparkでとりうるDeployment Modeの一種らしく、クラスタについての用語を見ておく必要がありそうです。 Cluster Modeの用語を読む Cluster Mode Overview https://spark.apache.org/docs/latest/cluster-overview.html ここでのGlossaryという項目に着目すると、それぞれこんな感じ…？用語意味 Application ユーザーがビルドした、Spark上に載せられるもの。ク
waman 2015/07/27
Spark
リンク
Apache Sparkことはじめ - CLOVER🍀
だいぶ今更ながらですが、Apache Sparkを試してみることにしました。前々から、興味がちょっとありまして。 Apache Spark http://spark.apache.org/ Apache Spark の紹介（前半：Sparkのキホン） http://www.slideshare.net/hadoopxnttdata/apache-spark-spark Apache Sparkのご紹介（後半：技術トピック） http://www.slideshare.net/hadoopxnttdata/apache-spark が、あんまりSpark自体まだよくわかっていないので、ちょっとずつ触りながら感覚をつかめたらいいなーと思っています。とりあえず、くじけなければ継続テーマにするつもりです（笑）。では、Hello World的に始めてみたいと思います。 Apache Spark
waman 2015/07/25
SparkってHadoop使うんや。

Spark

Hadoop

scala

sbt

統計
リンク
1