Perform the following steps to configure Tez for your Hadoop cluster: Create a tez-site.xml configuration file and place it in the /etc/tez/conf configuration directory. A sample tez-site.xml file is included in the configuration_files/tez folder in the HDP companion files. In the tez-site.xml file, configure the tez.lib.uris property with the HDFS path containing the Tez tarball file. ... <proper
HDP2.2を手元のVMで試しにセットアップしてみたが、色々ハマった部分があったのでメモ 環境 CentOS6.3のVMを7つ用意して、以下のようにHA含めて構成することにした. master1: NameNode(active), ZKFC, JournalNode, Zookeeper master2: NameNode(standby), ZKFC, JournalNode, ResourceManager(standby), Zookeeper master3: JournalNode, ResourceManager(active), Zookeeper, HiveServer2, MySQL slaves(3ノード): DataNode, NodeManager client: MR/Tez client ドキュメントは、こちらの”Installing HDP Manually
Tezとは まずはTezの説明です。 TezはYARN上で動作するバッチ処理用のフレームワークで、Hortonworksが主導して開発しています。 Tezに近い位置付けのものには、リアルタイム処理用のSliderがあります。 HortonworksはSliderの上でStormを動かすことを計画しています。 Hive on Tezとは Hive on Tezは、上記のTezの上でHiveを動かすものです。 Hive 0.13からTez対応のパッチが入っていて、動かす準備はできています。 しかし、ClouderaはCDH 5.2でHive 0.13に対応したものの、Tezをパッケージングしませんでした。 そのため、そのままのCDHではHive on Tezが動きません。 Hive on TezをCDHで動かす方法 Tezはライブラリであるため、CDHのHive 0.13と組み合わせれば動作す
Hiveしか使ってないので以下のオプションを設定するだけで使える。楽。 SET hive.execution.engine=tez; なお HDP 2.1 with Hive 0.10, Tez 0.4 での話です。クラスタの概要は以下の通り。 master x3 slave x20 Xeon(R) CPU E5-2630L v2 (6core 12Threads) x2 RAM 64GB HDD x12 シナリオ データの流れとしては以下のようなシナリオを想定する。 外部から非圧縮plain text tsvでHDFS内のファイルにデータが書かれる LOADで hourly テーブルに読み込む dailyで INSERT により daily テーブルに書き込む このときファイルフォーマット変換や圧縮を同時に行う hourly テーブルの変換済みパーティションおよび元の生データは削除する
14. Proposalによると… Tez is a proposal to develop a generic application which can be used to process complex data-processing task DAGs and runs natively on Apache Hadoop YARN. YARN is a generic resource-management system on which currently applications like MapReduce already exist. MapReduce is a specific, and constrained, DAG - which is not optimal for several frameworks like Apache Hive and Apache
Hadoopソースコードリーディング 第17回に参加してきました。今回のテーマは7月にApacheのTop-Level Project入りしたばかりのApache Tezについてでした。なお、全体的にApache Sparkと比較する形での説明が多かったので、Sparkについてご存じない方は前回のHadoopソースコードリーディング 第16回に参加してきましたをご参照下さい。 NTTデータ濱野さんの冒頭の挨拶 今日は別のイベントも多いためいつもの半分ぐらいの参加者だが、その分Deepにやれれば いつもの会場だと途中からピザとお酒だが、今回の会場は飲食禁止なので最後までシラフで Tezに関する勉強会は初回なのにいきなりタイトルがInternalsとかになってますねw Tez Internals (@oza_x86 さん) @oza_x86 さんからはTez Internalsということで、S
Introduction The Apache TEZ® project is aimed at building an application framework which allows for a complex directed-acyclic-graph of tasks for processing data. It is currently built atop Apache Hadoop YARN. The 2 main design themes for Tez are: Empowering end users by: Expressive dataflow definition APIs Flexible Input-Processor-Output runtime model Data type agnostic Simplifying deployment Exe