Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

hadoopとbigdataに関するtarchanのブックマーク (3)

  • Hadoopの現実解「バッチ処理」の常識をAsakusaで体得

    Hadoopの現実解「バッチ処理」の常識をAsakusaで体得:ビッグデータ処理の常識をJavaで身につける(7)(1/4 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」 アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。 絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。 稿では、並列分散で「バッチ処理」を行う方法につい

    Hadoopの現実解「バッチ処理」の常識をAsakusaで体得
  • Hadoopは統計の基礎を無視しているのか? - 急がば回れ、選ぶなら近道

    http://ascii.jp/elem/000/000/687/687170/ こういう塩梅になった。これでも一応、最初に上がってきたインタビュー記事を訂正して、この状態という感じです。最初のほうはもっと派手だった。まー、さすがに読み手で不快に感じる人もいるだろうし、とはいえ、話したことをつないでいる部分は確かにあるわけで、はてどうしたものかな・・・と思っているうちにリリースになったというのが実態ですね。 えっと、まず読んで不快に思った方は確実にいらっしゃると思うので、その方たちにはお詫び申し上げます。すんませんでした。 その上で真意を書いておくと・・・ まず、Hadoopは統計の基礎を無視しているのか?という問題ですが、基的にHadoopのBIで飯をっている人は、いわゆる「データ・サイエンティスト」という職種の人たちにあたる方たちで、当然、統計のプロだ。当たり前の話だが、大抵のHa

    Hadoopは統計の基礎を無視しているのか? - 急がば回れ、選ぶなら近道
  • 並列分散処理の常識をHadoopファミリから学ぶ

    Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common:Hadoopの基機能FileSystem、RPC、Serializationのライブラリ HDFS:分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce:膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワーク これらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro:Commonの持つ機能を拡張したデータシリアライズシステム Cassandra:単一障害点のないスケーラブルなマルチマスタデータベース Chukwa:大規模な分散システムでのデータ収集システム HBase:大規模な構造化データをサポートする、スケーラブルな分散データベース Hive

    並列分散処理の常識をHadoopファミリから学ぶ
  • 1