[B! spark] Hayatoのブックマーク

Hayato id:Hayato

sparkに関するHayatoのブックマーク (8)

Sparkの構成 | Hadoop Advent Calendar 2016 #14 | DevelopersIO
こんにちは、小澤です。この記事はHadoop Advent Calendar 14日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 ｜シリーズ｜ Developers.IO 前回はHadoop上で利用かのなカラムナストレージの紹介をさせていただきました今回はApache Sparkとはどういったものなのかについて解説したいと思います。 Sparkとはよく「Hadoop/Spark」などのようにHadoopと同じ並びで名前が上がることが多いSparkですが、果たしてSparkとは何者なのでしょうか？Hadoopとどのように違うのでしょうか？ということを今回は解説していければと思います。 Hadoopの技術スタックについてのおさらいまずはHadoopの技術スタック
Hayato 2017/04/02
こういうのを絵的に見たい

spark
リンク
Spark SQLとDataFrame API入門 | Hadoop Advent Calendar 2016 #16 | DevelopersIO
こんにちは、小澤です。この記事はHadoop Advent Calendar 16日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 ｜シリーズ｜ Developers.IO 前回はSparkでWord Countの実装して動かす方法を紹介しました。今回はSpark SQLとDataFrame APIについて書かせていただきます。 Spark SQLとDataFrame API SparkはRDDに対して何かしらの処理を行った新しいRDDの生成を繰り返していくことで全体の処理フローを定義するものでした。これに対してDataFrameというものはデータをテーブル構造で定義して、それに対する操作を記述していくものになります。これはRやPythonなどデータ分析によく使
Hayato 2017/04/02
spark
リンク
Spark 2.0 で Spark SQLを試す - astamuse Lab
こんにちは！Spark大好きな朴です。本日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spark 2.0についても先日弊社福田のもう待てない、Spark2.0の導入と実践にも書いてたとおりもう使えるようになりました。ということで少し乗り遅れた感もありますが、本日はSpark 2.0でSpark SQLの実力を試したいと思います。 Spark 2.0でSpark SQLの主な変更点は以下の３つ SparkSession 性能改善サポートするSQLが増えた本日は上記３つの改善について触れてみたいと思います。【変更その１】 SparkSQLのニューエントリポイントSparkSession Spark
Hayato 2017/04/02
spark
リンク
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
- Apache Spark is an open-source cluster computing framework for large-scale data processing. It was originally developed at the University of California, Berkeley in 2009 and is used for distributed tasks like data mining, streaming and machine learning. - Spark utilizes in-memory computing to optimize performance. It keeps data in memory across tasks to allow for faster analytics compared to dis
Hayato 2017/04/02
spark
リンク
Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた
印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014～2019年にかけて年間平均成長率33.5％で拡大し、2019年には470億6100万円に達する。ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。 MapReduceはスループット重視の設計であるた
Hayato 2017/03/25
spark
リンク
Apache Sparkの3つのAPI: RDD, DataFrameからDatasetへ - yubessy.hatenablog.com
はじめに Sparkの基本的な仕組みデータコレクションの操作のためのAPI 1. RDD - ネイティブなオブジェクトのコレクション 2. DataFrame - 基本的な型の値からなるテーブル RDD v.s. DataFrame 3. Dataset - RDDとDataFrameの長所を併せ持つコレクション RDD, DataFrameからDatasetへの書き換え DataFrameからDatasetへ RDDからDatasetへおわりにはじめに Livesense Advent Calendar 2016の11日目の記事です。昨今ではAmazon Elastic Mapreduce (EMR)などのマネージドサービスの登場により、分散データ処理基盤を構築・運用するハードルは劇的に下がっています。ソフトウェアの選択肢も広がり、特にApache Sparkはオンメモリ処理を
Hayato 2017/03/24
spark
リンク
Apache SparkをJavaアプリケーションから使う。
Apache SparkをJavaから操作下記のSparkのプログラミングガイドを参考にしました。 Spark Programming Guide – Spark 1.2.0 Documentation 前回使ったSparkの対話シェルはScalaでしたが、今回は使い慣れているJavaで試してみます。Javaの対話シェルは用意されていませんが、SparkのJavaライブラリは用意されています。 JavaでSparkContextの用意ライブラリはMavenから導入できます。最新バージョンのSparkで試します。 org.apache.spark spark-core_2.10 1.2.0 ライブラリが導入できたら、SparkContextを作成します。「高速な分散処理エンジンApache Sparkの操作を対話シェルで試してみる！」では、対話シェルの起動時点でscという変数にSpar
Hayato 2017/03/24
spark
リンク
Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016
Spark 2.0はフロントエンド APIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016 2月8日に都内で開催された、HadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」の基調講演には、Sparkの開発を進めているDatabricksのReynold Xin氏が登壇。 Xin氏は、現在開発が進んでいるSpark 2.0の概要を紹介しました。セッションの内容をダイジェストで紹介します。 Spark 2.0: What's Next DatabricksのReynold Xin氏（写真左）。
Hayato 2016/02/13
使うことはあるかなあ

hadoop

spark
リンク
1