[B! Distributed-Processing] masa8aurumのブックマーク

masa8aurum id:masa8aurum

Distributed-Processingに関するmasa8aurumのブックマーク (8)

分散システムについて語らせてくれ
NTT Tech Conference #2 にて話した資料時間が足りなかったので全部は話せなかった。Read less
masa8aurum 2018/06/28
Distributed-Processing

あとで読む
リンク
Steve Krenzel - 6. MapReduce: Finding Friends
MapReduce is a framework originally developed at Google that allows for easy large scale distributed computing across a number of domains. Apache Hadoop is an open source implementation. I'll gloss over the details, but it comes down to defining two functions: a map function and a reduce function. The map function takes a value and outputs key:value pairs. For instance, if we define a map function
masa8aurum 2017/10/04
あとで読む

Distributed-Processing
リンク
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
masa8aurum 2017/07/10
正確には「MapReduceの時代が終わった」ということ。HDFSは生きている。

Distributed-Processing
リンク
新人プログラマに知ってもらいたいRabbitMQ初心者の入門の入門 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 題名はここオマージュです。背景と目的勤めている会社では、メッセージングのミドルウェアとしてAMQPというプロトコルを利用しているRabbitMQを使用しています。 RabbitMQについては、公式サイトの説明が充実しているので、業務で使用を考えている方は基本的にこちらを読むことをお勧めいたします。ただ、自分で調べていて公式サイトの内容は英語日本語のサイトを調べようとしても情報が少なかったり散らばっているそもそもメッセージングのミドルウェアがどういったもので、どういう際に必要になるかの説明が少ないことで結構段取り時間がかか
masa8aurum 2016/09/27
どうしてメッセージングのミドルウェアが必要となるのか、etc.

Distributed-Processing

IT教育
リンク
RabbitMQ チュートリアル６（RPC） - Qiita
RabbitMQのチュートリアル６ https://www.rabbitmq.com/tutorials/tutorial-six-python.html の翻訳です。翻訳の誤りなどあればご指摘お待ちしております。 ###前提条件このチュートリアルでは、RabbitMQのがインストールされ、ローカルホストの標準のポート（5672）上で実行されている前提とします。別のホスト、ポート、または資格情報を使用する場合には、接続設定の調整が必要です。 ###問題が発生した場合このチュートリアルを通して問題が発生した場合、メーリングリストを通して私たちに連絡することができます。リモート・プロシージャ・コール（RPC）（pika 0.9.8 Python clientを使用）第２のチュートリアルでは、複数のワーカーの間で時間のかかるタスクを分散するためにワークキューを使用する方法を学びました
masa8aurum 2016/09/27
reply-to や correlationId について理解できるかも。読む。 / 1つ誤訳。「値を供給する、」のところは「分散処理するに値する」が正しい (worth distributing)

あとで読む

Distributed-Processing
リンク
Configuring the Mapping from Kerberos Principals to Short Names | 5.3.x | Cloudera Documentation
masa8aurum 2016/08/30
<name>hadoop.security.auth_to_local</name> <value>RULE:[2:$1@$0](nn@.*STG2000.EXAMPLE.COM)s/.*/hdfs/</value> とかの解説。

Distributed-Processing

Hadoop

Auth
リンク
SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper
Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪前書きみんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。本エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ
masa8aurum 2016/06/27
いちおう

Distributed-Processing
リンク
LanguageManual - Apache Hive - Apache Software Foundation
This is the Hive Language Manual. For other Hive documentation, see the Hive wiki's Home page. Commands and CLIs CommandsHive CLI (old)Beeline CLI (new)Variable SubstitutionHCatalog CLIFile FormatsAvro FilesORC FilesParquetCompressed Data StorageLZO CompressionData TypesData Definition StatementsDDL StatementsBucketed TablesStatistics (Analyze and Describe)IndexesArchivingData Manipulation Statem
masa8aurum 2016/06/27
Hive Language Manual

Distributed-Processing

あとで読む
リンク
1