Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

MapReduceに関するKshi_Kshiのブックマーク (9)

  • Hadoop HBase操作サンプル(Hishidama's Hadoop HBase sample Memo)

    HBaseのテーブルは、qualifierの中はデータ追加で自動的に増やせるが、family(列)はテーブルを一旦使用不可にして項目追加を行わないと増やせない。 したがって変化の無いものを列(family)にする方がいいんじゃないかと思う。 (試験名の方を可変にしておけば、模試とか補習(苦笑)とかにも対応できるし) 準備:テーブルの作成 今回のサンプル用に、HBase Shellからcreateコマンドを実行するか、HBaseのテーブル作成APIを使ってテーブルを作成しておく。 HBase Shellの場合 hbase(main):001:0> create 'student','personal','suugaku','kokugo','rika','shakai','eigo','total5' HBase APIの場合 package jp.hishidama.hadoop.hbas

  • Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く

    HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま

    Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く
  • Jubatusにおける大規模分散オンライン機械学習

    1. Jubatusにおける⼤大規模分散 オンライン機械学習 2011/12/08 @⼤大規模データ処理理勉強会 株式会社Preferred Infrastructure 海野  裕也 (@unnonouno) 2. ⾃自⼰己紹介 l  海野  裕也 (@unnonouno) l  Preferred Infrastructure (PFI) 研究開発部⾨門リサーチャー l  社員20⼈人くらい l  検索索・レコメンドエンジンSedueの開発など l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  Jubatusプロジェクト内での役割 l  主に特徴抽出エンジン、機械学習エンジンの研究開発 2 3. Big Data ! l  データはこれからも増加し続ける 多いことより増えていくということが重要 l データ量量の変化に対応できるスケーラブルなシ

    Jubatusにおける大規模分散オンライン機械学習
  • hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

    gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

    hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
  • Amazon.co.jp: Amazon Elastic MapReduceテクニカルガイド ―クラウド型Hadoopで実現する大規模分散処理―: 李昌桓: 本

    Amazon.co.jp: Amazon Elastic MapReduceテクニカルガイド ―クラウド型Hadoopで実現する大規模分散処理―: 李昌桓: 本
  • GoogleのMapReduceアルゴリズムをJavaで理解する

    GoogleMapReduceアルゴリズムをJavaで理解する:いま再注目の分散処理技術(前編)(1/2 ページ) 最近注目を浴びている分散処理技術MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) いま注目の大規模分散処理アルゴリズム 最近、大規模分散処理が注目を浴びています。特に、「MapReduce」というアルゴリズムについて目にすることが多くなりました。Googleの膨大なサーバ処理で使われているということで、ここ数年の分散処理技術の中では特に注目を浴びているようです(参考「見えるグーグル、見えないグーグル」)。MapReduceアルゴリズムを使う利点とは、いったい何なのでしょうか。なぜ、いま注目を浴びているのでしょうか。 その詳細は「MapReduce : Simplified Data Proc

    GoogleのMapReduceアルゴリズムをJavaで理解する
  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
    Kshi_Kshi
    Kshi_Kshi 2012/01/29
    解説。Perlで実装。
  • OBB vs AABB - Radium Software Development

    iPhoneの一般修理店は予約なしでも来店できる? 基的には飛び込みで修理に行ってもOK iPhoneを置いていたソファにうっかりと腰かけてしまい、パネルを割ってしまった、こんな時はスマホの一般修理店へ行きましょう。画面割れは、スマホやタブレットの故障原因として非常に多いものです。予約なしで突然お店に行っても平気かしらと、不安に思う方々もいらっしゃるかもしれません。結論としては特に問題はなく、予約なしで訪問しても画面割れの修理はお願いできます。 ただし他のサービス業のお店同様、予約なしの場合、お店が混雑していると順番待ちをしなければいけないです。特に繁盛しているスマホ修理のお店だと、行列が店内で出来ており、予約なしだと、自分の順番が巡ってくるまで長時間待たされる可能性があります。平日の朝、昼なら利用客が少ない場合が多く、飛び込みでも比較スムーズに修理が頼めます。 予約は入れた方が時短に、

    Kshi_Kshi
    Kshi_Kshi 2012/01/29
    mapreduce解説。わかりやすい。
  • Map/Reduce Tutorial

    このドキュメントでは、チュートリアルとして役立つことを目的に、ユーザーが触れる Hadoop Map/Reduce のすべての側面についてまとめて説明します。 Hadoop のインストールと設定が済み、すでに実行されていることを確認してください。詳細については、以下を参照してください。 Hadoop を初めて使うユーザーは、Hadoop クイックスタートを参照してください。 大規模な分散クラスタを使うユーザーは、Hadoop クラスタセットアップを参照してください。 Hadoop Map/Reduce は、どこにでもあるごく普通のハードウェアで構成した (数千ノードの) 大規模なクラスタ上で、膨大なデータ (数テラバイトのデータセット) を並列処理するアプリケーションを簡単に記述できるようにするソフトウェアフレームワークです。 通常、Map/Reduce のジョブは、入力データセットを独立

    Kshi_Kshi
    Kshi_Kshi 2012/01/29
    Map-Reduceの概念とかも教えてくれる。
  • 1