今回の元ネタはこちら(´・ω・)っ オブジェクト指向プログラマが次に読む本 ?Scalaで学ぶ関数脳入門 作者: 株式会社テクノロジックアート,長瀬嘉秀,町田修一出版社/メーカー: 技術評論社発売日: 2010/11/13メディア: 単行本(ソフトカバー)購入: 11人 クリック: 340回この商品を含むブログ (31件) を見る これまで、Scalaの本として・・・ Scalaプログラミング入門 ボクらのScala ~ 次世代Java徹底入門 ・・・の二冊を読んできました 前者は洋書の翻訳の上ちょっと難しめで、 後者は和書なのですが「一応Scalaが書ける」ってレベルで、 関数型の処理にはあまり踏み込んでません(´・ω・`) しかし、今回の本はタイトル通り「Scalaで関数型を学ぶ」という本で、 超良書である「ふつうのHaskellプログラミング」ほどではないにせよ、 なかなかよろしい本
Apache Hadoop The Apache® Hadoop® project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation an
Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。 いくつかの実用的なケーススタディも提供している。 すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー
Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common:Hadoopの基本機能FileSystem、RPC、Serializationのライブラリ HDFS:分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce:膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワーク これらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro:Commonの持つ機能を拡張したデータシリアライズシステム Cassandra:単一障害点のないスケーラブルなマルチマスタデータベース Chukwa:大規模な分散システムでのデータ収集システム HBase:大規模な構造化データをサポートする、スケーラブルな分散データベース Hive
最近、Perl も書き始めてみたので、Hadoop 上で分散実行できる Perl での MapReduce 実装を紹介する。大規模データマイニング・機械学習のライブラリ Apache Mahout の Parallel Frequent Pattern Mining の入力データを生成する Perl MapReduce 実装の紹介。 Frequent Pattern Mining 入門 Frequent Pattern Mining (Association Analysis )は、隠されたルールパターンを抽出するアルゴリズム。有名な例としては、1992年のウォルマートのクリスマス商戦で「おむつを買った人は半ダースのビールを買う可能性が最も高い」という頻出ルールを抽出し、商品陳列に活かした売上向上した事例。 入門資料: 第5回R勉強会@東京 で話してきた - 「R言語によるアソシエーション
MapReduceシリーズの第5弾。第4弾まではこちら → Scala / Erlang / Go / F# The Omnibus Concurrency Libraryというのを使ってみた。Scalaのアクターと同じ感じ。 require 'concurrent/actors' include Concurrent::Actors KeyValue = Case.new :key, :value Exit = Case.new :reply_to Complete = Case.new :actor, :result def log *args puts *args end class MapReduce # 繰り返し処理をするアクターを作る def loop_receive acc0 = nil, &block Actor.spawn do acc = acc0 loop do Ac
オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。本記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト本体からでさえも、新APIを使ったサンプルが提示されていません。本記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。
Bigtable(ビッグテーブル)とは、Googleの大規模なサーバ上の大量のデータを管理するために設計された、データ圧縮機能を持つ高性能なNoSQL型のプロプライエタリのデータストレージシステムである。Google File System、分散ロックマネージャの1種であるChubby Lock Service、SSTable(LevelDB(英語版)に似たログ構造化ストレージ)、その他のいくつかのGoogleの技術を活用して構築されている。2015年5月6日、パブリックバージョンのBigtableが、Google Cloud Platformのサービスの1つとして公開された。BigtableはGoogle Cloud Datastoreのバックエンドとしても利用されている[1][2]。 2004年から開発が始まり[3]、2006年には設計が論文として公開された[4]。 MapReduce
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く