Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

hadoopに関するyou21979のブックマーク (20)

  • 「100倍高速」の並列処理エンジンも実現、SQLや機械学習へと用途広げるHadoop

    「Hadoopが使えるのはバッチ処理だけ。そんな印象はもはや過去のものだ」。「Hadoop」のディストリビューション(検証済みパッケージ)のベンダーである米ホートンワークスのロブ・ベアデンCEO(最高経営責任者)は、2014年6月に開催した「Hadoop Summit 2014」でこう強調した。 Hadoopの開発元であるApacheソフトウエア財団(ASF)が、Hadoopの標準的な処理方式「MapReduce」以外の方式に対応した「Hadoop 2」をリリースしたのは2013年10月。それから半年が経過し、Hadoopで利用できる処理方式は急速に増加している(図)。

    「100倍高速」の並列処理エンジンも実現、SQLや機械学習へと用途広げるHadoop
  • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

    From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ(1分16秒)を作ってみた: From The Speed of Google BigQuery これは速すぎる。何かのインチキである(最初にデモを見た時そう思った)。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。 価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億

    Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
  • The first Spark/Hadoop ARM cluster runs atop Cubieboards

  • HadoopジョブをGPU上で実行するParallelX

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    HadoopジョブをGPU上で実行するParallelX
  • Cascading 2.5がHadoop 2をサポート

    Hadoopは順調に普及しているが,企業にはまだ,Hadoopベースのアプリケーション開発を迅速かつコスト効率よく行うための適切なアプローチを見つけ出すという,直面した課題が残っている。この目標を達成する手段のひとつがDSL(Domain Specific Language)を採用することだ。これによってHadoop実装の相当な簡略化が達成できることも少なくない。 低レベルのMapReduce API上に構築された代表的なJava DSLのひとつとしてCascadingがある。大規模なデータワークフローを関数型プログラミングで実装するDSLとして2007年に公開されたCascadingは,"配管工事" のメタフォに基づいている。データ処理を馴染み深いもの – パイプ,栓,タプル列,フィルタ,継ぎ手(Join),トラップなど –で組み上げられたワークフローとして定義するのである。 Casca

    Cascading 2.5がHadoop 2をサポート
  • Hadoop初のメージャーバージョンアップ「Hadoop 2」正式版が公開。MapReduce以外の分散処理フレームワークも実行可能に

    The Apache Software Foundationは、Hadoopの初めてのメジャーバージョンアップとなる「Apache Hadoop 2」の正式版公開を発表しました。 Hadoopは2004年にGoogleが公開したMapReduceに関する論文を元にオープンソースとして開発されたものでした。Hadoopの開発者であるダグ・カッティング氏は、Hadoop 2のプレスリリースで次のように発言しています。 "What started out a few years ago as a scalable batch processing system for Java programmers has now emerged as the kernel of the operating system for big data," said original Hadoop creator

    Hadoop初のメージャーバージョンアップ「Hadoop 2」正式版が公開。MapReduce以外の分散処理フレームワークも実行可能に
  • ツイッターStorm:オープンソースのリアルタイムHadoop

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    ツイッターStorm:オープンソースのリアルタイムHadoop
  • 基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(後編)

    基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(後編) 基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド(以下、AWSAmazon Web Services)の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン社のセミナールームで開催しました。 (記事は「基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)」の続きです) 和製クラウドでトラブルが続き、やむなくAWSへ移行 インフラについて。やはり和製クラウドベンダのインフラは値段が高い。いろいろ話をして安くならないかと相談したけれど、無理でした。理由は簡単です。デ

    基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(後編)
  • 基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)

    基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編) 基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド(以下、AWSAmazon Web Services)の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン社のセミナールームで開催しました。 大規模システム開発の現状、Hadoopの可能性、クラウドのメリットとデメリットなど、参考にすべき多くの内容が語られたセミナーでした。この記事ではその概要を紹介します。 止まってはいけない基幹システムをクラウドへ ノーチラス・テクノロジーズ 代表取締役社長 神林飛志氏(写真中央)。 西鉄ストア様の部基幹システムをクラウドへ移行する

    基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編)
  • Hadoop HDFS: The Ultimate Storage

    1. Hadoop HDFS The Ultimate Storage tagomoris 2013/05/20 Cassandra Casual #1 13年5月20日月曜日 2. Nodes • NameNode (metadata) • 1 • or 2 (NamenodeHA + 3 JournalNodes) • DataNode (blocks) • 3~ nodes • Rack awareness 13年5月20日月曜日 3. Filesystem • Metadata on Namenode JVM heap • "OK, Namenode should have giant RAM" • File with Blocks (default 64MB) • Block level compression & parallel read 13年5月20日月曜日

    Hadoop HDFS: The Ultimate Storage
  • ストリームデータ分散処理基盤Storm

    2012年12月10日 NTTデータ オープンソースDAY 2012 講演資料 『ストリームデータ分散処理基盤 StormNTTデータ 基盤システム事業部 OSSプロフェッショナルサービス 岩崎 正剛 http://oss.nttdata.co.jp/hadoop/Read less

    ストリームデータ分散処理基盤Storm
  • Map/Reduce Tutorial

    このドキュメントでは、チュートリアルとして役立つことを目的に、ユーザーが触れる Hadoop Map/Reduce のすべての側面についてまとめて説明します。 Hadoop のインストールと設定が済み、すでに実行されていることを確認してください。詳細については、以下を参照してください。 Hadoop を初めて使うユーザーは、Hadoop クイックスタートを参照してください。 大規模な分散クラスタを使うユーザーは、Hadoop クラスタセットアップを参照してください。 Hadoop Map/Reduce は、どこにでもあるごく普通のハードウェアで構成した (数千ノードの) 大規模なクラスタ上で、膨大なデータ (数テラバイトのデータセット) を並列処理するアプリケーションを簡単に記述できるようにするソフトウェアフレームワークです。 通常、Map/Reduce のジョブは、入力データセットを独立

  • 国内外のHadoop導入事例 PART 3 | IT Leaders

    2012/03/13 08:00 地道な情報収集いとわず課題解決に挑む企業が続々登場 大規模データを蓄積・処理する機会が多いWeb系企業から先行していたHadoopの導入事例だが、 周辺技術の拡充やノウハウ情報の流通といったエコシステムが形成されて業種にも幅が出てきている。 Part3では国内外のユーザー企業の導入事例をまとめた。緒方 啓吾 (編集部) 「現在の日国内の状況は2年前の米国によく似ている」と指摘するのは米クラウデラのジュセッペ・小林氏。「米国でも通信キャリアやWeb系企業が先行したが、最近は金融系や流通・小売系にも浸透してきている」(同)という。 以下では、国内における先行ユーザーの活用事例としてリクルートとクックパッドの取り組みを紹介する。表3-1には国内外のユーザー企業の取り組みを一覧にまとめた。 表3-1 Hadoopを活用する企業の一例(公表資料などをもとに編集部が

  • Treasure Data, Inc. | Finding Gems in Your Big Data

    Deliver The Experiences You Can’t TodayUnlike other customer data platforms (CDPs), only Treasure Data combines batch and real-time data to personalize journeys with Al. The results? Increased conversions and optimized spend across channels.

    Treasure Data, Inc. | Finding Gems in Your Big Data
  • Hadoopの話聞いてきた - 新しいフォルダ (3)

    「Hadoopを技術とサービスの両面から学ぶ勉強会」でHadoopの話を聞いてきました!*1 イベントページ http://atnd.org/events/32114 大規模分散処理基盤Hadoop活用のカンドコロ(猿田さん) Hadoopって? OSSによる大規模分散処理フレームワーク Google基盤ソフトウェアGFSのOSS実装 集中管理型のクラスタ構成 データはブロックに分割して複数のサーバに分散配置 処理を分割し複数のサーバで分散処理 バッチ処理に威力を発揮 数時間〜数日の処理を短時間で処理 高スループットなシーケンシャルI/O 大きなブロックサイズ、デフォルト64MB データローカリティ(処理に必要なデータを持っているサーバに処理を割り当てる) NameNode/JobTracker(マスター) ブロック管理、監視 DataNode状態監視 メタ情報管理 DataNodeとは違

    Hadoopの話聞いてきた - 新しいフォルダ (3)
  • MapReduceは今後どうなるのか? - 急がば回れ、選ぶなら近道

    2012年の現在、割と悩んでいるのでメモっておく。 年度末ぐらいに再調査の予定。・・なので暫定ですよ。 まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。 とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce

    MapReduceは今後どうなるのか? - 急がば回れ、選ぶなら近道
  • エンジニアのための『仕事・職場・転職』応援サイト Tech総研

    ヘルプ リーダーインタビュー エンジニアあるある 仕事魂 最新技術 キャリアアップ 勉強会・イベント 技術豆知識 ビジネススキル 職場環境 会社訪問 人間関係 メンタルヘルス 給与・ボーナス 貯蓄・投資 採用全体動向 IT・Web系 モノづくり系 建築・土木系 IT・Web系 モノづくり系 転職体験談 職務経歴書・面接 健康 恋愛結婚・家庭 こだわりのアレ 指定されたURLは存在しません。 プライバシーポリシー ご利用にあたって お問い合わせ エンジニアライフ応援サイト Tech総研

  • Hadoopのインストールとサンプルプログラムの実行

    前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce F

    Hadoopのインストールとサンプルプログラムの実行
  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 1