[B! Tez] kimutanskのブックマーク

Tez on CDH 5.2.5 -- CDH-4212

kimutansk 2017/03/22

いきなりこの手の差分があるあたりが厄介な点ではありますね。ただ、実際はJar入れ替えで済んで、Tezをソースコードからビルドして実環境に投入することはありませんでしたが。

リンク

Tez 0.5.2をHadoop 2.6.0で動かしてみる - Qiita

diff --git a/pom.xml b/pom.xml index dbf5923..28cd805 100644 --- a/pom.xml +++ b/pom.xml @@ -37,7 +37,7 @@ <properties> <maven.test.redirectTestOutputToFile>true</maven.test.redirectTestOutputToFile> <clover.license>${user.home}/clover.license</clover.license> - <hadoop.version>2.4.0</hadoop.version> + <hadoop.version>2.6.0</hadoop.version> <jetty.version>7.6.10.v20130312</jetty.version> <distMgmt

kimutansk 2016/04/25

これでMapReduceジョブも特に変更することなくTez上での実行に変換されますか。

hadoop
tez

リンク

Configuring Tez - Hortonworks Data Platform

Perform the following steps to configure Tez for your Hadoop cluster: Create a tez-site.xml configuration file and place it in the /etc/tez/conf configuration directory. A sample tez-site.xml file is included in the configuration_files/tez folder in the HDP companion files. In the tez-site.xml file, configure the tez.lib.uris property with the HDFS path containing the Tez tarball file. ... <proper

kimutansk 2016/04/18

Tezの設定項目はこれで大体わかる感じでしょうか。～launch.env系のオプションを指定すれば各コンテナプロセスにClassPathやlibrarypathを追加することも可能？

Tez

リンク

Tez on EMRを試してみた

Tez on EMRの検証結果です。EMR、Hive、Tezの概要についても説明しています。Read less

kimutansk 2016/04/11

元から存在するクラスタにTezをクライアントホストにインストールして実行するという構成ですか。ポイントは気を付けますか。

Tez
HIVE

リンク

Apache Tez – Install and Deployment Instructions

Apache TEZ® / Install and Deployment Instructions Last Published: 2019-03-29 Getting Started Overview Talks and Meetup Recordings Project License Documentation Install Guide Local Mode Tez UI Tez Shuffle Handler User Guides Community Mailing Lists Issue Tracking Project Team Project By-Laws User Meetup Group Tez Wiki Download Apache TEZ® Releases 0.4.1-incubating 0.5.4 0.6.2 0.7.1 0.8.5 0.9.0 0.9.

kimutansk 2016/04/11

Tezのビルドとインストールの方法あった。protobufのインストールはビルド時のみ必要なのか、それとも実行時にも必要なのか・・・読むとビルド時のみっぽいですか。

Tez

リンク

とりあえずPig on Tez を動かしてみた - 一歩一歩

kimutansk 2016/04/09

やること自体はHDFSにTez配置、Pigからそれを読み込む設定追記、Pigのsite.xmlの1項目差し替え、起動時にtez指定、以上、と。

pig
Tez

リンク

Pig on Tez / Hive on Tez メモ - 一歩一歩

kimutansk 2016/04/08

Pigビルド時にTezのバージョンも指定する方式ですか。0.15系だとどうなってるんでしょうか・・・

pig
Tez

リンク

Cloudera Blog

kimutansk 2016/04/08

Pig0.15系、Tez上での性能調整と、Hive UDFの読み込みと。で、Yahooで Pig on Tezがプロダクションに入ってましたか。

pig
Tez

リンク

Pig on Tez: Low Latency Data Processing with Big Data

kimutansk 2016/04/08

Pigは多段MR起動しますから、Tezのコンテナ再利用というアプローチとは相性がいい。実行時間は5～7割になる位ですが、スクリプトそのままで実現は大きいです。で、Zero Pain Deployと。

pig
Tez

リンク

HDP2.2をセットアップするためにハマった箇所のメモ - Tech Notes

HDP2.2を手元のVMで試しにセットアップしてみたが、色々ハマった部分があったのでメモ環境 CentOS6.3のVMを7つ用意して、以下のようにHA含めて構成することにした. master1: NameNode(active), ZKFC, JournalNode, Zookeeper master2: NameNode(standby), ZKFC, JournalNode, ResourceManager(standby), Zookeeper master3: JournalNode, ResourceManager(active), Zookeeper, HiveServer2, MySQL slaves(3ノード): DataNode, NodeManager client: MR/Tez client ドキュメントは、こちらの”Installing HDP Manually

kimutansk 2015/04/05

HDPは特にTezもあるため扱えるようになっておきたいところですが、この手のエラーがはまりどころと。

リンク

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向（オープンソースカンファレンス 2015 Tokyo/Spring 講演資料）

■オープンソースカンファレンス 2015 Tokyo/Spring 講演資料（2015/02/28）『分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向』株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス吉田　耕陽Read less

kimutansk 2015/03/04

おなじみの入門資料にYARN、Spark、Tezの概要が加わりましたか。Tezの概要はわかりやすいですね。

リンク

Hive on Tez を CDH で動かす - Qiita

TezとはまずはTezの説明です。 TezはYARN上で動作するバッチ処理用のフレームワークで、Hortonworksが主導して開発しています。 Tezに近い位置付けのものには、リアルタイム処理用のSliderがあります。 HortonworksはSliderの上でStormを動かすことを計画しています。 Hive on Tezとは Hive on Tezは、上記のTezの上でHiveを動かすものです。 Hive 0.13からTez対応のパッチが入っていて、動かす準備はできています。しかし、ClouderaはCDH 5.2でHive 0.13に対応したものの、Tezをパッケージングしませんでした。そのため、そのままのCDHではHive on Tezが動きません。 Hive on TezをCDHで動かす方法 Tezはライブラリであるため、CDHのHive 0.13と組み合わせれば動作す

kimutansk 2014/12/08

名称的に被るのでHDPのrpmを持ってくるのは避けて普通にTezをビルドがいいですか。Protobufはビルド時のみ求められる感じですかね。サービスとクライアントの設定に追記必要と

Hadoop
Tez

リンク

MRv2/Tezで簡単にクエリのベンチをとった - たごもりすメモ

Hiveしか使ってないので以下のオプションを設定するだけで使える。楽。 SET hive.execution.engine=tez; なお HDP 2.1 with Hive 0.10, Tez 0.4 での話です。クラスタの概要は以下の通り。 master x3 slave x20 Xeon(R) CPU E5-2630L v2 (6core 12Threads) x2 RAM 64GB HDD x12 シナリオデータの流れとしては以下のようなシナリオを想定する。外部から非圧縮plain text tsvでHDFS内のファイルにデータが書かれる LOADで hourly テーブルに読み込む dailyで INSERT により daily テーブルに書き込むこのときファイルフォーマット変換や圧縮を同時に行う hourly テーブルの変換済みパーティションおよび元の生データは削除する

kimutansk 2014/11/17

複数段に分解されるジョブの方がよりTezによる効率化の効果が出るわけですか。

Tez
Hive

リンク

SQL on Hadoop 比較検証【2014月11日における検証レポート】

Impala Meetup 2014/10/31 @Tokyo 講演資料【注意事項】本資料で紹介している検証結果は2014年当時のものです。当該ソフトウェアは成長や改善が早く、現時点のバージョンでは大きく異なる機能や性能となっています。 SQL on Hadoopの最新情報に基づくサービスやシステムインテグレーションにご興味をお持ちの方は、NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス（電子メール： hadoop [AT] kits.nttdata.co.jp）にご相談ください。Read less

kimutansk 2014/11/05

Impalaは綺麗にリソース使い切るので、他のプロセスと共存するときにどうするか、は検証が必要、と・・　ディスクは大丈夫そうですが。

リンク

Cloudera Blog

We are thrilled to announce the general availability of the Cloudera AI Inference service, powered by NVIDIA NIM microservices, part of the NVIDIA AI Enterprise platform, to accelerate generative AI deployments for enterprises. This service supports a range of optimized AI models, enabling seamless and scala ble AI inference. Background The generative AI landscape is evolving […] Read blog post

kimutansk 2014/10/24

SparkとTezの比較の質問が面白い。Sparkは開始すると終了するまでリソースを取得可能なMaxまで確保し続けるが、Tezは都度解放すると。Sparkの方が予測しやすいというのはある？

リンク

Hadoop Source Code Reading #17

14. Proposalによると… Tez is a proposal to develop a generic application which can be used to process complex data-processing task DAGs and runs natively on Apache Hadoop YARN. YARN is a generic resource-management system on which currently applications like MapReduce already exist. MapReduce is a specific, and constrained, DAG - which is not optimal for several frameworks like Apache Hive and Apache

kimutansk 2014/09/23

Sparkとの違いはデータフローの動的最適化有／RDDは無い／既存のMRそのまま使える、と。

リンク

Hadoopソースコードリーディング第17回に参加してきました | DevelopersIO

Hadoopソースコードリーディング第17回に参加してきました。今回のテーマは7月にApacheのTop-Level Project入りしたばかりのApache Tezについてでした。なお、全体的にApache Sparkと比較する形での説明が多かったので、Sparkについてご存じない方は前回のHadoopソースコードリーディング第16回に参加してきましたをご参照下さい。 NTTデータ濱野さんの冒頭の挨拶今日は別のイベントも多いためいつもの半分ぐらいの参加者だが、その分Deepにやれればいつもの会場だと途中からピザとお酒だが、今回の会場は飲食禁止なので最後までシラフで Tezに関する勉強会は初回なのにいきなりタイトルがInternalsとかになってますねｗ Tez Internals （@oza_x86 さん） @oza_x86 さんからはTez Internalsということで、S

kimutansk 2014/09/10

Sparkの対比は面白いですね。Diskに書かれる場合でも速度を極力保つTezと、メモリ上の動作にRDDで最適化して収まる限り高速なSpark、ですか。

spark
Tez

リンク

リピさんとオザさんのTezとSparkの会話

repeatedlyさんとoza_x86さんのTezとSparkに関する会話をまとめさせていただきました。

kimutansk 2014/09/10

RDDの有無が与える影響はやはり大きいですか。ディスク上に乗った場合のスピードはTezの方が早いということはデータサイズである意味すみ分けができるのかも・・・

リンク

Cloudera Blog

We are excited to announce the acquisition of Octop ai, a leading data lineage and catalog platform that provides data discovery and governance for enterprises to enhance their data-driven decision making. Cloudera’s mission since its inception has been to empower organizations to transf orm all their data to deliver trusted, valuable, and predictive insights. With AI and […] Read blog post

kimutansk 2013/11/14

DAG形式の処理を動的に組み替えて最適化させるライブラリのApache Tez・・？　このあたりの効率化ができたらそれはそれで大きいですが・・・

DAG
Tez

リンク

Apache Tez – Welcome to Apache TEZ®

Introduction The Apache TEZ® project is aimed at building an application framework which allows for a complex directed-acyclic-graph of tasks for processing data. It is currently built atop Apache Hadoop YARN. The 2 main design themes for Tez are: Empowering end users by: Expressive dataflow definition APIs Flexible Input-Processor-Output runtime model Data type agnostic Simplifying deployment Exe

kimutansk 2013/11/14

apache
Tez

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

Tezに関するkimutanskのブックマーク (21)

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第2週）

月間はてなブックマーク数ランキング（2025年1月）

今週のはてなブックマーク数ランキング（2025年2月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス