Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

sparkに関するHayatoのブックマーク (8)

  • Sparkの構成 | Hadoop Advent Calendar 2016 #14 | DevelopersIO

    こんにちは、小澤です。 この記事はHadoop Advent Calendar 14日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 | シリーズ | Developers.IO 前回はHadoop上で利用かのなカラムナストレージの紹介をさせていただきました 今回はApache Sparkとはどういったものなのかについて解説したいと思います。 Sparkとは よく「Hadoop/Spark」などのようにHadoopと同じ並びで名前が上がることが多いSparkですが、果たしてSparkとは何者なのでしょうか?Hadoopとどのように違うのでしょうか? ということを今回は解説していければと思います。 Hadoopの技術スタックについてのおさらい まずはHadoopの技術スタック

    Sparkの構成 | Hadoop Advent Calendar 2016 #14 | DevelopersIO
    Hayato
    Hayato 2017/04/02
    こういうのを絵的に見たい
  • Spark SQLとDataFrame API入門 | Hadoop Advent Calendar 2016 #16 | DevelopersIO

    こんにちは、小澤です。 この記事はHadoop Advent Calendar 16日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 | シリーズ | Developers.IO 前回はSparkでWord Countの実装して動かす方法を紹介しました。 今回はSpark SQLとDataFrame APIについて書かせていただきます。 Spark SQLとDataFrame API SparkはRDDに対して何かしらの処理を行った新しいRDDの生成を繰り返していくことで全体の処理フローを定義するものでした。 これに対してDataFrameというものはデータをテーブル構造で定義して、それに対する操作を記述していくものになります。 これはRやPythonなどデータ分析によく使

    Spark SQLとDataFrame API入門 | Hadoop Advent Calendar 2016 #16 | DevelopersIO
    Hayato
    Hayato 2017/04/02
  • Spark 2.0 で Spark SQLを試す - astamuse Lab

    こんにちは!Spark大好きな朴です。 日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。 弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spark 2.0についても先日弊社福田のもう待てない、Spark2.0の導入と実践にも書いてたとおり もう使えるようになりました。 ということで少し乗り遅れた感もありますが、日はSpark 2.0でSpark SQLの実力を試したいと思います。 Spark 2.0でSpark SQLの主な変更点は以下の3つ SparkSession 性能改善 サポートするSQLが増えた 日は上記3つの改善について触れてみたいと思います。 【変更その1】 SparkSQLのニューエントリポイントSparkSession Spark

    Spark 2.0 で Spark SQLを試す - astamuse Lab
    Hayato
    Hayato 2017/04/02
  • Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -

    - Apache Spark is an open-source cluster computing framework for large-scale data processing. It was originally developed at the University of California, Berkeley in 2009 and is used for distributed tasks like data mining, streaming and machine learning. - Spark utilizes in-memory computing to optimize performance. It keeps data in memory across tasks to allow for faster analytics compared to dis

    Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
    Hayato
    Hayato 2017/04/02
  • Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014~2019年にかけて年間平均成長率33.5%で拡大し、2019年には470億6100万円に達する。 ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。 MapReduceはスループット重視の設計であるた

    Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた
    Hayato
    Hayato 2017/03/25
  • Apache Sparkの3つのAPI: RDD, DataFrameからDatasetへ - yubessy.hatenablog.com

    はじめに Sparkの基的な仕組み データコレクションの操作のためのAPI 1. RDD - ネイティブなオブジェクトのコレクション 2. DataFrame - 基的な型の値からなるテーブル RDD v.s. DataFrame 3. Dataset - RDDとDataFrameの長所を併せ持つコレクション RDD, DataFrameからDatasetへの書き換え DataFrameからDatasetへ RDDからDatasetへ おわりに はじめに Livesense Advent Calendar 2016の11日目の記事です。 昨今ではAmazon Elastic Mapreduce (EMR)などのマネージドサービスの登場により、分散データ処理基盤を構築・運用するハードルは劇的に下がっています。 ソフトウェアの選択肢も広がり、特にApache Sparkはオンメモリ処理を

    Apache Sparkの3つのAPI: RDD, DataFrameからDatasetへ - yubessy.hatenablog.com
    Hayato
    Hayato 2017/03/24
  • Apache SparkをJavaアプリケーションから使う。

    Apache SparkをJavaから操作 下記のSparkのプログラミングガイドを参考にしました。 Spark Programming Guide – Spark 1.2.0 Documentation 前回使ったSparkの対話シェルはScalaでしたが、今回は使い慣れているJavaで試してみます。Javaの対話シェルは用意されていませんが、SparkのJavaライブラリは用意されています。 JavaでSparkContextの用意 ライブラリはMavenから導入できます。最新バージョンのSparkで試します。 org.apache.spark spark-core_2.10 1.2.0 ライブラリが導入できたら、SparkContextを作成します。 「高速な分散処理エンジンApache Sparkの操作を対話シェルで試してみる!」では、対話シェルの起動時点でscという変数にSpar

    Apache SparkをJavaアプリケーションから使う。
    Hayato
    Hayato 2017/03/24
  • Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016

    Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016 2月8日に都内で開催された、HadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」の基調講演には、Sparkの開発を進めているDatabricksのReynold Xin氏が登壇。 Xin氏は、現在開発が進んでいるSpark 2.0の概要を紹介しました。セッションの内容をダイジェストで紹介します。 Spark 2.0: What's Next DatabricksのReynold Xin氏(写真左)。

    Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016
    Hayato
    Hayato 2016/02/13
    使うことはあるかなあ
  • 1