タグ

hadoopに関するgayouのブックマーク (14)

  • ビッグデータ・ツール「Spark」はHadoopよりホットかも知れない、だがまだ問題がある | readwrite.jp

    Hadoopはホットだ、だがその従兄弟であるSparkは更にホットな存在だ。 Sparkは5年前のApache Hadoopの様な存在で、バークレー大 AMP研で生まれた、Hadoopのエコシステムで動くMapReduceに代わる高速データ処理エンジンだ。これは(MapReduceの様な)バッチ処理および、ストリーミングやインタラクティブ・クエリーといった新しいワークロードや、機械学習やグラフ処理でよく見られる反復アルゴリズムの処理に対応している。 サンフランシスコに拠点を構えるTypesafeは、私が去年記事で触れたJava開発者に対するよく知られたアンケート調査のスポンサーであり、Scala、Playフレームワーク、Akkaのコマーシャルな支援者だ。最近行われたSparkについてのアンケート調査では、2000人以上(正確には2136人)の開発者からの回答が得られた。そこから以下三点の結

    ビッグデータ・ツール「Spark」はHadoopよりホットかも知れない、だがまだ問題がある | readwrite.jp
  • アトムとビット〜Hadoopでバッチが速くなって何がうれしいか? - 急がば回れ、選ぶなら近道

    まず、社内のオープニングで説明した内容だったりするのですが、一回まとめておきたいので。 断っておくとこの言い方はニコラス・ネグロポンティから取っています。彼の主張は明確でいままでアトム(物質)的な存在だったものが、ビット(電子情報)的な存在に凌駕される、いや大きく姿を変えてるという指摘でございますね。Being digitalが出版されたのが95年なので、もう15年以上になるわけですね。ま、ざっくりすぎてアレですが。・・ワーディングとして便利なので利用させてもらいます。 まず、主題は何かというと、「バッチが速くなって何がうれしいのか?」という問題の背景をちゃんと説明しておきたい。もともとHadoopで何がしたかったのかというと、そもそもバッチのスピードを上げたかった。そもそもRDBMSではまぁ限界があったというのが事の起こり。んで分散処理を行うとIOが分散されるので、スピードがあがりますね

    アトムとビット〜Hadoopでバッチが速くなって何がうれしいか? - 急がば回れ、選ぶなら近道
  • "BigData"では何が問題なのか? - 急がば回れ、選ぶなら近道

    ”ビッグデータで奇跡が起こる” はいどうも。まず、個人的には楽天的な進歩史観には、まったく組しない。 従って、突然に新技術ができて、なんか凄い事になる、というのはさらにまったく同意しない。すべからくブレイクスルーは課題解決により起こると思っているので、問題意識のないところに、こんなものできました的な発想は、基的にプラスにならないことが多いと思っている。現状のビッグデータブームは2011年の秋口現在は完全にハイプになっており、バブルと言ってもいいと思う。印象として、十数年前のナノテク・ブームに似ている。 とはいえ、過度の期待という側面を除けば、それなり効果もある部分もあり、”そこだけ”を見ていけばそれなりに効果はある(と思う)。大体において、今後は以下の二つのユースケース・カテゴリーに集約されると思う。すなわち、ビッグデータの拠り所はまずもって以下の2点だ。 1 Webのログ解析 というか

    "BigData"では何が問題なのか? - 急がば回れ、選ぶなら近道
  • PC

    AI時代の“爆速”デジタル変換術 手書きメモ画像や音声ファイル、AIを使って利用しやすいデータに変換する 2024.12.09 最後のWindows 10脱出計画 Windows Updateを使ってWindows 10から11へ、手順は更新作業とほとんど同じ 2024.12.09

    PC
    gayou
    gayou 2012/01/13
  • グーグル発「Hadoop」、日本企業も利用へ

    出典:日経コンピュータ 2010年4月28日号 pp.69-72 (記事は執筆時の情報に基づいており、現在では異なる場合があります) Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の

    グーグル発「Hadoop」、日本企業も利用へ
    gayou
    gayou 2011/12/29
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    gayou
    gayou 2011/06/22
  • Hadoopを用いた大規模ログ解析

    this document is for #tokyowebmining held at 2011/04/10Read less

    Hadoopを用いた大規模ログ解析
    gayou
    gayou 2011/04/10
  • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
    gayou
    gayou 2011/02/22
    すごい。
  • Hadoopの死角、COBOLバッチ処理の並列化

    Hadoopの死角、COBOLバッチ処理の並列化:現場にキく、Webシステムの問題解決ノウハウ(8) 連載は、日立製作所が提供するアプリケーションサーバ「Cosminexus」の開発担当者へのインタビューを通じて、Webシステムにおける、さまざまな問題/トラブルの解決に効くノウハウや注意点を紹介していく。現在起きている問題の解決や、今後の開発のご参考に(編集部) クラウドで可能になった大量データ処理とバッチ処理 クラウド・コンピューティングを前提として、多数のサーバを使い大量のデータ処理をするための手法として、「MapReduce」や、MapReduceをJavaで実現するフレームワーク「Hadoop」に代表される分散並列処理に注目が集まっている。 多数のサーバを使い計算処理を並列化し、それまで非現実的と思われていた大量の計算処理も可能とする手法で、まさに「クラウド時代の技術」といえるだ

    Hadoopの死角、COBOLバッチ処理の並列化
  • 資料を公開しました(頓智・×クックパッド合同勉強会  ~裏側の技術とそれぞれの開発スタイル~) - クックパッド開発者ブログ

    9月30日(木)に頓智ドット株式会社様と共同で勉強会を開催いたしました。 当日は多くの皆さまにお集まり頂き、誠にありがとうございました。 クックパッドから発表した佐々木達也の資料をアップいたしますので、 是非ご覧くださいませ。 「HadoopをEMR経由で利用する方法」 クックパッド株式会社 マーケティング支援事業部 佐々木 達也 [slideshare id=5368698&doc=hadoopemr-101006000854-phpapp01]

    資料を公開しました(頓智・×クックパッド合同勉強会  ~裏側の技術とそれぞれの開発スタイル~) - クックパッド開発者ブログ
    gayou
    gayou 2010/10/21
  • オープンソースカンファレンスのHadoop講演資料を紹介します

    こんにちは。広報スタッフの楢崎です。 9月10日、11日の2日間開催された「オープンソースカンファレンス2010 Tokyo/Fall」にて、 Yahoo! JAPANはHadoopについて講演させていただきました。多くの方にご参加いただきありがとうございます。 (写真:明星大学・日野キャンパスにて) ここでは、当日講演で使用したプレゼン資料を紹介させていただきます。 ●Hadoop ~Yahoo! JAPANの活用について~ ヤフー株式会社 R&D統括部 角田直行、吉田一星

    オープンソースカンファレンスのHadoop講演資料を紹介します
    gayou
    gayou 2010/09/15
  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
  • 5日間の処理を1時間に短縮 DWHからHadoop移行で成功事例、欧州広告企業 − @IT

    2010/03/15 大規模サービスを展開するWeb企業から始まったHadoop利用だが、エンタープライズ分野でも少しずつ成功事例が出てきているようだ。Hadoopの商用パッケージとサポートに特化したベンチャー企業、米Clouderaの3月10日付ブログで、ヨーロッパでターゲティング広告事業を展開するnugg.adが成功事例を詳細に報告している。報告しているのはnugg.adのCTO、リチャード・フットン(Richard Hutton)氏。 nugg.adでは、2007年から2009年までの間、PostgreSQLをベースに古典的なデータウェアハウス(DWH)によるシステムを構築していたが、2009年6月から10月にかけてHadoopベースのシステムに移行。それまで5日かかっていたような処理が1時間にまで短縮し、計算処理の大幅時間短縮によって、これまで提供が考えられなかったような付加価値サ

  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
  • 1