NTT Tech Conference #2 にて話した資料 時間が足りなかったので全部は話せなかった。Read less
MapReduce is a framework originally developed at Google that allows for easy large scale distributed computing across a number of domains. Apache Hadoop is an open source implementation. I'll gloss over the details, but it comes down to defining two functions: a map function and a reduce function. The map function takes a value and outputs key:value pairs. For instance, if we define a map function
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 題名はここオマージュです。 背景と目的 勤めている会社では、メッセージングのミドルウェアとしてAMQPというプロトコルを利用しているRabbitMQを使用しています。 RabbitMQについては、公式サイトの説明が充実しているので、業務で使用を考えている方は 基本的にこちらを読むことをお勧めいたします。 ただ、自分で調べていて 公式サイトの内容は英語 日本語のサイトを調べようとしても情報が少なかったり散らばっている そもそもメッセージングのミドルウェアがどういったもので、どういう際に必要になるかの説明が少ない ことで結構段取り時間がかか
RabbitMQのチュートリアル6 https://www.rabbitmq.com/tutorials/tutorial-six-python.html の翻訳です。 翻訳の誤りなどあればご指摘お待ちしております。 ###前提条件 このチュートリアルでは、RabbitMQのがインストールされ、ローカルホストの標準のポート(5672)上で実行されている前提とします。別のホスト、ポート、または資格情報を使用する場合には、接続設定の調整が必要です。 ###問題が発生した場合 このチュートリアルを通して問題が発生した場合、メーリングリストを通して私たちに連絡することができます。 リモート・プロシージャ・コール(RPC) (pika 0.9.8 Python clientを使用) 第2のチュートリアルでは、複数のワーカーの間で時間のかかるタスクを分散するためにワークキューを使用する方法を学びました
Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。本エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ
This is the Hive Language Manual. For other Hive documentation, see the Hive wiki's Home page. Commands and CLIs CommandsHive CLI (old)Beeline CLI (new)Variable SubstitutionHCatalog CLIFile FormatsAvro FilesORC FilesParquetCompressed Data StorageLZO CompressionData TypesData Definition StatementsDDL StatementsBucketed TablesStatistics (Analyze and Describe)IndexesArchivingData Manipulation Statem
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く