Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

hadoopに関するtuki0918のブックマーク (23)

  • Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開

    Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。 こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ

    Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開
  • MapReduceは今後どうなるのか? - 急がば回れ、選ぶなら近道

    2012年の現在、割と悩んでいるのでメモっておく。 年度末ぐらいに再調査の予定。・・なので暫定ですよ。 まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。 とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce

    MapReduceは今後どうなるのか? - 急がば回れ、選ぶなら近道
  • TechCrunch | Startup and Technology News

    Archer Aviation is partnering with ride-hailing and parking company Kakao Mobility to bring electric air taxi flights to South Korea starting in 2026, if the company can get its aircraft…

    TechCrunch | Startup and Technology News
    tuki0918
    tuki0918 2012/10/02
    べべべんきょうしないと・・・
  • 「Hadoopファーストガイド」を執筆しました - (゚∀゚)o彡 sasata299's blog

    2012年09月21日19:23 Hadoop 執筆 「Hadoopファーストガイド」を執筆しました あれから1年半の月日が流れました。なんかあっという間でしたね。。 「NoSQLデータベースファーストガイド」を執筆しました そ、そしてなんと!! 2冊目の執筆が終わりました!!!1 その名も「Hadoopファーストガイド」です。ででーん。 ファーストガイドシリーズです ( ー`дー´)キリッ 前回のと並べるとそっくりですねw ファーストガイドなのでHadoopの名前は知っているけど使ったことないな〜くらいのエンジニアが対象です。普段からがしがしHadoopを使ってる人が見ても面白くないと思いますw こんな感じ。書では基的にAWSEMR(Elastic Map Reduce)を利用してます。 近年、データサイズは増加傾向にあり、Webサイトを運営しているエンジニアプログラマーにとって

  • HadoopをWindows上の仮想マシンで手軽に試す方法

    Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。 しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。 仮想マシンを使ったHadoopの実行手順を詳しく解説

    HadoopをWindows上の仮想マシンで手軽に試す方法
  • 日々進化するHadoop。これまでのおさらいと最近の動向(前編)

    大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。 そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 この記事ではそのセッションの内容をダイジェストで紹介しましょう。 日々進化するHadoopの「いま」 NTTデータ 基盤システム事業部 濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

    日々進化するHadoop。これまでのおさらいと最近の動向(前編)
  • 日々進化するHadoopの 「いま」

    1. 第2回 NHNテクノロジーカンファレンス (2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ / 日Hadoopユーザー会 濱野 賢一朗 Copyright © 2012 NTT DATA Corporation 2. 自己紹介  濱野 賢一朗 (はまの けんいちろう) @hamaken  株式会社NTTデータ 基盤システム事業部 シニアエキスパート • 『BizXaaS Hadoop構築・運用ソリューション』 『CDH Hadoopサポートサービス』 の中の人  日Hadoopユーザー会  翔泳社 『Hadoop徹底入門』 監修者  話題になった経産省のHadoop報告書のPM • 経済産業省 『分散制御処理技術等に係る データセンター高信頼化に向けた実証事業』 • http://www.meti.go.jp/policy/mono

    日々進化するHadoopの 「いま」
  • [第7回]Hadoopの利用 準備編

    今回から数回にわたって、Hadoopをインストールして動作させてみます。 今回は、以下の理由より、米クラウデラのディストリビューション、CDHバージョン4を選択したいと思います。 Apacheのコミュニティー版や、他のベンダー製品とはインストール手順やデーモンの起動方法が異なりますが、MapReduceやHDFS(Hadoop分散ファイルシステム)の動作、運用と監視のポイントなどは共通です。CDH4のマニュアルは必要に応じて参照してください。 最近は、ベンダー独自の管理製品を用いてApache Hadoopのインストール、クラスター構築とOA&M(Operations, Administration and Management)の簡素化、自動化をする流れがあります。これらツールの導入は自由ですがベンダー独自のものや、無償版の機能が限定されているものもありますので、利用者は賢く選択して利用

    [第7回]Hadoopの利用 準備編
  • Hadoop完全分散モードが動かなくてハマったところ4選 - kj-ki’s blog

    前エントリの完全分散モードでの動作ですが,実はすんなりとは行かず,何日も苦しみました. ググっては試し,ググっては試し,の繰り返し... やっとまともに動くようになり,振り返ってみるとショボいミスもありましたが, これ以上犠牲者が増えないように自分がハマったところを書いておきたいと思います. Reduceが途中で止まる or ものすごく時間が掛かる 一番悩んだのが,これ. datanodeを複数にすると発症することが多かった. なんと原因は/etc/hostsにあり,ホスト名とドメイン名を書いておかなければなかった. hadoop0をMaster,hadoop1以降をWorkerとすると, # ×:localhostに記述があると,うまくいかない 127.0.0.1 hadoop1 localhost.localdomain localhost # ×:問題なさそうだが,ホスト名しか書かれ

    Hadoop完全分散モードが動かなくてハマったところ4選 - kj-ki’s blog
  • Hadoopをより便利に使う!HiveでのMapReduceまとめ - Y's note

    目次 Hiveとは Hiveの設定 HiveQL構文(DDL) DataBase/SCHEMAの作成 Database/SCHEMAの削除 Tableの作成 Tableの削除 Table名変更 Partition作成 Partitionの削除 Columnの変更 Columnの追加/置き換え TableのProperty変更 SerDe Propertyの追加 HiveQL構文(SQL) テーブル一覧表示 テーブルの内容を表示 基的なSELECT文 WHERE句(条件指定) DISTINCT(重複削除) ORDER BY / SORT BY句(ソート) GROUP BY句(グループ化) HAVING句(グループ化後の条件) LIMITJOIN(テーブル結合) 抽出カラムを正規表現で指定 UNION(結果の結合) SUBQUERY LOAD(データの読み込み) Hiveを使う 事前準備

    Hadoopをより便利に使う!HiveでのMapReduceまとめ - Y's note
  • CentOSでHadoopを使ってみる - Y's note

    __ __ __ / / / /___ _____/ /___ ____ ____ / /_/ / __ ‘/ __ / __ \/ __ \/ __ \ / __ / /_/ / /_/ / /_/ / /_/ / /_/ / /_/ /_/\__,_/\__,_/\____/\____/ .___/ /_/ インストール hadoopをcentosに入れてみる。最新バージョンは2011/11/25日の段階では0.23.0 各Linuxディストリビューションに対応済みのcdh3(Cloudera Distribution including Apache Hadoop v3)を入れる。cdh3の最新バージョンは0.20.0 hadoopの他に愉快な仲間達のhive,pig,hbaseも入れる。 jdkのインストール hadoopはjavaで動くので当然必要となる。既にインストール済みの場

    CentOSでHadoopを使ってみる - Y's note
  • 「魔法少女まどか☆マギカ」の台詞をJavaScriptでMapReduceしてGoogle Chart APIでグラフ出力したよ! - Y's note

    Hadoop 第2版 作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2011/07/23メディア: 大型購入: 9人 クリック: 182回この商品を含むブログ (24件) を見る 概要 「魔法少女まどか☆マギカ」の台詞をNLTK(Natural Language Toolkit)で解析する - Yuta.Kikuchiの日記 SpiderMonkeyでのコマンドラインJavascript - Yuta.Kikuchiの日記 CentOSでHadoopを使ってみる - Yuta.Kikuchiの日記 以前に「魔法少女まどか☆マギカ」の台詞をNLTK(Natural Language Toolkit)で解析することに挑戦しましたが、解析結果の集計グラフが奇麗に表示されませんでした。今回はそれを改善すべく手法を変えて挑戦します。グラフ化はNLTK

    「魔法少女まどか☆マギカ」の台詞をJavaScriptでMapReduceしてGoogle Chart APIでグラフ出力したよ! - Y's note
  • 大規模データ技術の現状と今後の方向性

    また、データの全件処理、特にI/Oの性能が求められる多重のバッチ処理にはMapReduceが新たな選択肢として加わります。MapReduceはデータインデックシングや非構造化データの前処理(ETL、クレンジング)への適用が有名ですが、より汎用的なバッチ処理のインフラ技術[3]として適用範囲が広がっています。 こうした技術の選択肢の中で、特にスケールさせるためにはデータを分割し、分散配置させることと、データの配置場所に処理を持っていくこと、つまり、シェアードナッシングのデータベース技術がアプリケーションアーキテクチャーに大きな影響を及ぼしています。 非構造化データを含めた大規模データ分析MapReduceで実行し、その結果の集計やレポート機能にRDBを利用して分析結果の可視化をするのが現在は主流となっています。しかし、この方法は十分に全体最適化がされてなく、データ転送コストの無駄が発生して

    大規模データ技術の現状と今後の方向性
  • Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌

    Hadoopは分散処理によって、大量データの一括処理をRDBMSよりも大幅に高速化できるミドルウエアで、これまではログ解析など特定の分野で使われてきた。これを、基幹バッチ処理に適用するためのフレームワークが登場した。オープンソースソフトウエアの「Asakusa」である。 連載では、Asakusaの開発責任者がその全体像を解説する。Hadoopがなぜ速いのかを解説したあと、Asakusaの構成要素や設計方法、実際のコーディング例を示す。

    Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌
  • Hadoop導入事例 in クックパッド

    1. Hadoop is a framework for distributed processing of large datasets across clusters of computers. 2. Hadoop can be used to perform tasks like large-scale sorting and data analysis faster than with traditional databases like MySQL. 3. Example applications of Hadoop include processing web server logs, managing user profiles for a large website, and performing machine learning on massive datasets.R

    Hadoop導入事例 in クックパッド
  • 並列分散処理の常識をHadoopファミリから学ぶ

    Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common:Hadoopの基機能FileSystem、RPC、Serializationのライブラリ HDFS:分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce:膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワーク これらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro:Commonの持つ機能を拡張したデータシリアライズシステム Cassandra:単一障害点のないスケーラブルなマルチマスタデータベース Chukwa:大規模な分散システムでのデータ収集システム HBase:大規模な構造化データをサポートする、スケーラブルな分散データベース Hive

    並列分散処理の常識をHadoopファミリから学ぶ
  • 平成21年度産学連携ソフトウェア工学実践事業(高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンターの高信頼化に向けた実証事業))事業成果報告書

  • 平成21年度 産学連携ソフトウェア工学実践事業報告書の公表について(METI/経済産業省)

    高信頼組込みソフトウェア開発(委託先:一般社団法人JASPAR) 報告書(PDF形式:3,278KB) (ZIP形式:2,993KB) ソフトウェア工学の実践強化に関する調査研究(委託先:株式会社三菱総合研究所) 報告書(PDF形式:2,501KB) クラウドコンピューティング時代のDependabilityの考え方などに関する米国の動向調査(委託先:株式会社アイ・ビー・ティ) 報告書(PDF形式:4,583KB) (ZIP形式:4,300KB) クラウド・コンピューティングに関する国内外の制度・技術動向等の調査研究(委託先:株式会社野村総合研究所) 報告書(PDF形式:2,050KB) 高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)(委託先:株式会社エヌ・ティ・ティ・データ) (PDF形式:9,606KB) (ZIP形式:8,656

  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • Commands Guide

    All hadoop commands are invoked by the bin/hadoop script. Running the hadoop script without any arguments prints the description for all commands. Usage: hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop has an option parsing framework that employs parsing generic options as well as running classes. COMMAND_OPTION Description