Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

ブックマーク / yubessy.hatenablog.com (1)

  • Apache Sparkの3つのAPI: RDD, DataFrameからDatasetへ - yubessy.hatenablog.com

    はじめに Sparkの基的な仕組み データコレクションの操作のためのAPI 1. RDD - ネイティブなオブジェクトのコレクション 2. DataFrame - 基的な型の値からなるテーブル RDD v.s. DataFrame 3. Dataset - RDDとDataFrameの長所を併せ持つコレクション RDD, DataFrameからDatasetへの書き換え DataFrameからDatasetへ RDDからDatasetへ おわりに はじめに Livesense Advent Calendar 2016の11日目の記事です。 昨今ではAmazon Elastic Mapreduce (EMR)などのマネージドサービスの登場により、分散データ処理基盤を構築・運用するハードルは劇的に下がっています。 ソフトウェアの選択肢も広がり、特にApache Sparkはオンメモリ処理を

    Apache Sparkの3つのAPI: RDD, DataFrameからDatasetへ - yubessy.hatenablog.com
    Hayato
    Hayato 2017/03/24
  • 1