Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

sparkに関するtakezoeのブックマーク (4)

  • ベアメタルで実現するSpark&Trino on K8sなデータ基盤

    5. #trinodb 現行のデータ基盤の課題 1. CDH無償版の提供が終了しているので継続して利用出来ない ○ 有償の後継版Cloudera CDPも検討したが費用面がクリア出来ず見送り (Google Cloudなども検討したが、費用や技術課題がクリア出来ず見送り。5年償却で見るとクラウドは高い。) 2. ComputeとStorageを分離してNode配置出来ないので サーバスペックが過剰になりがち ○ YARNのNode ManegerとHDFSは分離して配置出来ない ○ ComputeスケールさせたいだけなのにStorageもスケールするので非効率 3. Impalaの統計情報の運用が非常に煩雑かつ有効に利用出来ない ○ 大規模テーブルの場合、ほぼ使えない ○ 統計情報が利用できないので効率の悪いクエリになりがちでImpalaを活かしきれない 4. ETL/ELT処理で利用して

    ベアメタルで実現するSpark&Trino on K8sなデータ基盤
  • Apache SparkのWebUI、いろいろ比較してみた

    Sparkを実行できるWebUIをいくつか比較してみました。 対象としたのは下記の3つです。 Apache Zeppelin pyspark + Jupyter(iPython Notebook) spark-notebook Spark付属のSpark Web Interfaceは実行状況のモニタリングやRDDの状態が可視化されていて非常に便利なものなのですが、上記とは毛色が異なるため今回比較対象に入れていません。 Hueのnotebookやdatabricks cloudに関してはまた今度。。。 まずはそれぞれの概要を少しご紹介します。 Apache Zeppelin Apacheが作っているnotebook形式のWeb UIで、対話型実行ができます。 この記事を書いている時点での最新バージョンは0.6.0です。 Scala, Python, SQL(Spark), SQL(Hive)

    takezoe
    takezoe 2015/09/06
    ノートブック使うような用途だとpysparkだとnumpy、pandas、matplotlibなどのPythonライブラリを使えるのは大きいかもしれない。
  • SparkアプリケーションのためのJavaガベージコレクションのチューニングについて - TEPPEI STUDIO

    この記事は、インテルの SSG STOビッグデータテクノロジーグループのメンバーからDataBricksに寄稿されたブログを翻訳したものです。誤訳がありましたら、@teppei_tosaに御連絡ください。 Sparkは、その優れた性能、シンプルなインターフェイス、および分析や計算のための豊富なライブラリによって、幅広い業界で採用されてきています。ビッグデータエコシステムにおける多くのプロジェクトと同様に、Sparkは、Java仮想マシン(JVM)上で実行されます。Sparkはメモリに大量のデータを格納することにおいて、Javaのメモリ管理とガベージコレクション(GC)に大きく頼っています。また、プロジェクトTungstenなどの新たな取り組みは、将来のバージョンで、メモリ管理のさらなる簡素化と最適化を目指しています。しかし、今日時点でも、JavaのGCオプションとパラメータを理解しているユ

    SparkアプリケーションのためのJavaガベージコレクションのチューニングについて - TEPPEI STUDIO
  • Job Scheduling - Spark 3.5.3 Documentation

    Job Scheduling Overview Scheduling Across Applications Dynamic Resource Allocation Caveats Configuration and Setup Resource Allocation Policy Request Policy Remove Policy Graceful Decommission of Executors Scheduling Within an Application Fair Scheduler Pools Default Behavior of Pools Configuring Pool Properties Scheduling using JDBC Connections Concurrent Jobs in PySpark Overview Spark has severa

  • 1