Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

Hadoopが変えるデータとヒトへのアプローチ ―「Hadoop Summit 2016 Tokyo」レポート 10月26、27日の2日間、東京・新宿ヒルトンにおいてホートンワークスジャパン主催のカンファレンス「Hadoop Summit 2016 Tokyo」が行われました。Hadoopカンファレンスとしてはグローバルでもっとも規模の大きい「Hadoop Summit(主催: Hortonworks)」の初の東京開催であり、国内ではめずらしい有料のITイベントということもあって、業界関係者からはその成否が注目されていたカンファレンスでもあります。本稿ではこのイベントの全体像を振り返りながら、IT、そしてビジネスの世界におけるHadoopの位置づけをあらためて考えてみたいと思います。 Hadoop Summit Tokyoとは gihyo.jpの読者であればご存知の方も多いでしょうが、
Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など 分散処理フレームワークの「Apache Spark 2.0」正式版のリリースが、開発元のDatabricksから発表されました。これまでApache Sparkはバージョン1.x(直前の最新版は1.6)でしたので、メジャーバージョンアップとなります。 Spark 2.0で最大の新機能は、新しいSQLパーサーを採用したことによるANSI SQL(SQL 2003)への対応です。ビッグデータのベンチマークの1つであるTPC-DSの99種類のクエリがそのまま実行可能と説明されており、プログラマが慣れ親しんだ一般的なSQL文はすべて実行可能になります。 また、DataFrameとDatasetは統合されたAPIとなりました。 こうしたAPIの変更や改善が行われた一方で、Spark 2.0ではパフ
技術評論社から近々刊行される「詳解Apache Spark」をご恵贈いただきました.ありがとうございます! 詳解 Apache Spark 作者: 下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門出版社/メーカー: 技術評論社発売日: 2016/04/29メディア: 大型本この商品を含むブログ (5件) を見る Amazonの発送は4月29日からのようですが,都内のジュンク堂や紀伊國屋,書泉ブックタワーなどの大型書店では既に先行販売されているようです.是非手に取ってみてください. 総評 本書は,大規模並列分散基盤のApache Sparkについて,豊富な実践例を交えながら基本的なコンセプトや使用方法が解説された書籍です.この分野の第一線で実際に業務で使用している方々が,わかりやすく執筆されています.Sparkを使う必要があったりどんなものか知ってみたいと思ったりしているエ
いまいちばん勢いのあるオープンソースプロダクトとして注目度の高いApache Spark。2月8日、東京・大井町きゅりあんで行われた「Hadoop / Spark Conference Japan 2016」は、国内で開催される初めてのSparkカンファレンスということもあり、1300人を超える登録者を集め、盛況のうちに幕を閉じました。今回、このカンファレンスの基調講演、そしてSparkセッションに登壇した、Databricks創業者のひとりにしてSparkの3代目リリースマスターでもあるレイノルド・シン(Reynold Xin)氏にインタビューする機会を得たので、その内容をご紹介します。 HadoopはSparkの“原点であり越えるべき目標” ──まずはレイノルドさんご自身の自己紹介をお願いできるでしょうか。Databricksという会社についてもご説明いただければ。 シン氏:僕はDa
Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016 2月8日に都内で開催された、HadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」の基調講演には、Sparkの開発を進めているDatabricksのReynold Xin氏が登壇。 Xin氏は、現在開発が進んでいるSpark 2.0の概要を紹介しました。セッションの内容をダイジェストで紹介します。 Spark 2.0: What's Next DatabricksのReynold Xin氏(写真左)。
Spark 1.6では、よく使われるデータフォーマットの1つであるParquetの読み込みに、新しいParquet Readerを導入。いくつかの処理のバイパスやコードの最適化を行った結果、ベンチマークでこれまで1秒あたり290万行の読み込み速度だったものを1秒あたり450万行まで、約50%改善したと説明されています。 また、1.6ではこれまで設定により固定されていた実行用のメモリ領域とキャッシュ用のメモリ領域の大きさを、新しいメモリマネージャの導入によって自動的に最適化できるように改善。手動での最適化を不要にし、実行速度の向上に貢献しました。 昨年導入された「DataFrame」とJavaVMのオーバーヘッドを改善する実行エンジンの「Project Tungsten」は、Sparkの実行速度の改善に寄与しました。Spark 1.6ではDataFrameを拡張したDataset APIが追
Apache Spark 1.5正式版がリリース。JavaVMのオーバーヘッドを改善する「Project Tungsten」で、さらに高速に Apache Sparkは、高いスループットを実現するバッチ処理と小さなレイテンシが求められるリアルタイム性の高い処理のいずれにも対応することを目指して開発された、大規模分散処理基盤です。 インメモリ処理や中間データなどをできるだけ生成させない効率的なスケジューラなどを備え、Scala、Java、R、Pythonなどに対応するなどが特長。 Project Tungstenによる高速化 Apache Spark 1.5の最大の特徴は「Project Tungsten」による実行エンジンの高速化です。 Apache SparkはJavaVMを用いて処理を行っていますが、JavaVMが備えるガベージコレクションやメモリ管理などの仕組みは、Apache Sp
The 7 most common Hadoop and Spark projects Think you're breaking new ground with your Hadoop project? Odds are it fits neatly into one of these seven common types of projects There's an old axiom that goes something like this: If you offer someone your full support and financial backing to do something different and innovative, they’ll end up doing what everyone else is doing. So it goes with Had
今までは、SparkのStandalone ModeとYARN上で動かすといった動作環境的なものを少し試してきたので、もうちょっとSpark自体で遊んでみようと思いまして。 まずは、Spark Streamingの初歩的なところからやってみたいと思います。 Spark Streaming Programming Guide http://spark.apache.org/docs/latest/streaming-programming-guide.html とか言いながら、ちょっと寄り道してみたらめっちゃハマりました…。 Spark Streamingとは? こちらを見る限り… Overview http://spark.apache.org/docs/latest/streaming-programming-guide.html#overview Kafka、Flume、Twitter
先ほど、こんなエントリを書きました。 Apache Sparkで、HDFS上のファイルを読み書きする http://d.hatena.ne.jp/Kazuhira/20150802/1438499631 ここで使ったプログラムを、YARN上で動かしてみたいと思います。 SparkをYARN上で動かす時は、yarn-clientとyarn-clusterという2種類の起動方法があるみたいです。 Running Spark on YARN http://spark.apache.org/docs/latest/running-on-yarn.html 参考) Spark on YARN http://kzky.hatenablog.com/entry/2015/01/12/Spark_on_YARN Apache Spark Resource Management and YARN App M
Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編) 最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか? 今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。 以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク「
このところ、SparkをStandalone ModeやYARNで動かしていましたが、もうちょっと機能的な感覚をつかみたいと思いまして。 で、毎度Spark Submitしてもいいのですが、テストコードで動かせないかなぁ、と…。 調べた感じ、やれないこともなさそうな雰囲気…。 Testing Spark Streaming Applications http://eng.tapjoy.com/blog-list/testing-spark-streaming-applications https://spark-summit.org/2014/wp-content/uploads/2014/06/Testing-Spark-Best-Practices-Anupama-Shetty-Neil-Marshall.pdf ちょっと、やってみましょう! 追記) ドキュメントをよーく見ると、ここに
前回SparkでHello World的なことをやりましたが、今回はSpark Standalone Modeを試してみることにします。 Spark Standalone Mode https://spark.apache.org/docs/latest/spark-standalone.html が、そもそもこれってSparkでとりうるDeployment Modeの一種らしく、クラスタについての用語を見ておく必要がありそうです。 Cluster Modeの用語を読む Cluster Mode Overview https://spark.apache.org/docs/latest/cluster-overview.html ここでのGlossaryという項目に着目すると、それぞれこんな感じ…? 用語 意味 Application ユーザーがビルドした、Spark上に載せられるもの。ク
だいぶ今更ながらですが、Apache Sparkを試してみることにしました。前々から、興味がちょっとありまして。 Apache Spark http://spark.apache.org/ Apache Spark の紹介(前半:Sparkのキホン) http://www.slideshare.net/hadoopxnttdata/apache-spark-spark Apache Sparkのご紹介 (後半:技術トピック) http://www.slideshare.net/hadoopxnttdata/apache-spark が、あんまりSpark自体まだよくわかっていないので、ちょっとずつ触りながら感覚をつかめたらいいなーと思っています。 とりあえず、くじけなければ継続テーマにするつもりです(笑)。 では、Hello World的に始めてみたいと思います。 Apache Spark
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く