[B! hadoop] you21979のブックマーク

you21979 id:you21979

hadoopに関するyou21979のブックマーク (20)

「100倍高速」の並列処理エンジンも実現、SQLや機械学習へと用途広げるHadoop
「Hadoopが使えるのはバッチ処理だけ。そんな印象はもはや過去のものだ」。「Hadoop」のディストリビューション（検証済みパッケージ）のベンダーである米ホートンワークスのロブ・ベアデンCEO（最高経営責任者）は、2014年6月に開催した「Hadoop Summit 2014」でこう強調した。 Hadoopの開発元であるApacheソフトウエア財団（ASF）が、Hadoopの標準的な処理方式「MapReduce」以外の方式に対応した「Hadoop 2」をリリースしたのは2013年10月。それから半年が経過し、Hadoopで利用できる処理方式は急速に増加している（図）。
you21979 2014/06/23
hadoop
リンク
Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ（1分16秒）を作ってみた： From The Speed of Google BigQuery これは速すぎる。何かのインチキである（最初にデモを見た時そう思った）。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億
you21979 2014/05/19
fluentd

hadoop
リンク
The first Spark/Hadoop ARM cluster runs atop Cubieboards
you21979 2014/04/16
hadoop

cluster
リンク
HadoopジョブをGPU上で実行するParallelX
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
you21979 2014/01/11
GPU

hadoop
リンク
Cascading 2.5がHadoop 2をサポート
Hadoopは順調に普及しているが，企業にはまだ，Hadoopベースのアプリケーション開発を迅速かつコスト効率よく行うための適切なアプローチを見つけ出すという，直面した課題が残っている。この目標を達成する手段のひとつがDSL(Domain Specific Language)を採用することだ。これによってHadoop実装の相当な簡略化が達成できることも少なくない。低レベルのMapReduce API上に構築された代表的なJava DSLのひとつとしてCascadingがある。大規模なデータワークフローを関数型プログラミングで実装するDSLとして2007年に公開されたCascadingは，"配管工事" のメタフォに基づいている。データ処理を馴染み深いもの – パイプ，栓，タプル列，フィルタ，継ぎ手(Join)，トラップなど –で組み上げられたワークフローとして定義するのである。 Casca
you21979 2013/12/09
hadoop

dsl
リンク
Hadoop初のメージャーバージョンアップ「Hadoop 2」正式版が公開。MapReduce以外の分散処理フレームワークも実行可能に
The Apache Software Foundationは、Hadoopの初めてのメジャーバージョンアップとなる「Apache Hadoop 2」の正式版公開を発表しました。 Hadoopは2004年にGoogleが公開したMapReduceに関する論文を元にオープンソースとして開発されたものでした。Hadoopの開発者であるダグ・カッティング氏は、Hadoop 2のプレスリリースで次のように発言しています。 "What started out a few years ago as a scala ble batch processing system for Java programmers has now emerged as the kernel of the operating system for big data," said original Hadoop creator
you21979 2013/10/17
hadoop
リンク
ツイッターStorm:オープンソースのリアルタイムHadoop
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
you21979 2013/06/25
storm

Hadoop
リンク
基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る（後編）
基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る（後編）基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド（以下、AWS：Amazon Web Services）の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン本社のセミナールームで開催しました。（本記事は「基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る（前編）」の続きです）和製クラウドでトラブルが続き、やむなくAWSへ移行インフラについて。やはり和製クラウドベンダのインフラは値段が高い。いろいろ話をして安くならないかと相談したけれど、無理でした。理由は簡単です。デ
you21979 2013/06/03
hadoop
リンク
基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る（前編）
基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る（前編）基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド（以下、AWS：Amazon Web Services）の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン本社のセミナールームで開催しました。大規模システム開発の現状、Hadoopの可能性、クラウドのメリットとデメリットなど、参考にすべき多くの内容が語られたセミナーでした。この記事ではその概要を紹介します。止まってはいけない基幹システムをクラウドへノーチラス・テクノロジーズ代表取締役社長神林飛志氏（写真中央）。西鉄ストア様の本部基幹システムをクラウドへ移行する
you21979 2013/06/03
Hadoop
リンク
Hadoop HDFS: The Ultimate Storage
1. Hadoop HDFS The Ultimate Storage tagomoris 2013/05/20 Cassandra Casual #1 13年5月20日月曜日 2. Nodes • NameNode (metadata) • 1 • or 2 (NamenodeHA + 3 JournalNodes) • DataNode (blocks) • 3~ nodes • Rack awareness 13年5月20日月曜日 3. Filesystem • Metadata on Namenode JVM heap • "OK, Namenode should have giant RAM" • File with Blocks (default 64MB) • Block level compression & parallel read 13年5月20日月曜日
you21979 2013/05/25
hadoop
リンク
ストリームデータ分散処理基盤Storm
2012年12月10日 NTTデータオープンソースDAY 2012 講演資料『ストリームデータ分散処理基盤 Storm』 NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス岩崎正剛 http://oss.nttdata.co.jp/hadoop/Read less
you21979 2013/04/22
storm

hadoop
リンク
Map/Reduce Tutorial
このドキュメントでは、チュートリアルとして役立つことを目的に、ユーザーが触れる Hadoop Map/Reduce のすべての側面についてまとめて説明します。 Hadoop のインストールと設定が済み、すでに実行されていることを確認してください。詳細については、以下を参照してください。 Hadoop を初めて使うユーザーは、Hadoop クイックスタートを参照してください。大規模な分散クラスタを使うユーザーは、Hadoop クラスタセットアップを参照してください。 Hadoop Map/Reduce は、どこにでもあるごく普通のハードウェアで構成した (数千ノードの) 大規模なクラスタ上で、膨大なデータ (数テラバイトのデータセット) を並列処理するアプリケーションを簡単に記述できるようにするソフトウェアフレームワークです。通常、Map/Reduce のジョブは、入力データセットを独立
you21979 2013/04/05
hadoop

Programming

MapReduce
リンク
国内外のHadoop導入事例　PART 3 | IT Leaders
2012/03/13 08:00 地道な情報収集いとわず課題解決に挑む企業が続々登場大規模データを蓄積・処理する機会が多いWeb系企業から先行していたHadoopの導入事例だが、周辺技術の拡充やノウハウ情報の流通といったエコシステムが形成されて業種にも幅が出てきている。 Part3では国内外のユーザー企業の導入事例をまとめた。緒方啓吾（編集部）「現在の日本国内の状況は2年前の米国によく似ている」と指摘するのは米クラウデラのジュセッペ・小林氏。「米国でも通信キャリアやWeb系企業が先行したが、最近は金融系や流通・小売系にも浸透してきている」（同）という。以下では、国内における先行ユーザーの活用事例としてリクルートとクックパッドの取り組みを紹介する。表3-1には国内外のユーザー企業の取り組みを一覧にまとめた。表3-1　Hadoopを活用する企業の一例（公表資料などをもとに編集部が
you21979 2013/03/11
hadoop
リンク
Treasure Data, Inc. | Finding Gems in Your Big Data
Deliver The Experiences You Can’t TodayUnlike other customer data platforms (CDPs), only Treasure Data combines batch and real-time data to personalize journeys with Al. The results? Increased conversions and optimized spend across channels.
you21979 2013/02/10
hadoop
リンク
Hadoopの話聞いてきた - 新しいフォルダ (3)
「Hadoopを技術とサービスの両面から学ぶ勉強会」でHadoopの話を聞いてきました！*1 イベントページ http://atnd.org/events/32114 大規模分散処理基盤Hadoop活用のカンドコロ(猿田さん) Hadoopって？ OSSによる大規模分散処理フレームワーク Google基盤ソフトウェアGFSのOSS実装集中管理型のクラスタ構成データはブロックに分割して複数のサーバに分散配置処理を分割し複数のサーバで分散処理バッチ処理に威力を発揮数時間〜数日の処理を短時間で処理高スループットなシーケンシャルI/O 大きなブロックサイズ、デフォルト64MB データローカリティ(処理に必要なデータを持っているサーバに処理を割り当てる) NameNode/JobTracker(マスター) ブロック管理、監視 DataNode状態監視メタ情報管理 DataNodeとは違
you21979 2012/10/22
hadoop
リンク
MapReduceは今後どうなるのか？ - 急がば回れ、選ぶなら近道
2012年の現在、割と悩んでいるのでメモっておく。年度末ぐらいに再調査の予定。・・なので暫定ですよ。まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapReduceですが、今後の見通しについては、潮流は今のところ二つに割れているよう見える。ので、その辺のメモ。 ■YARN 一つの方向性は、現在のHadoop2.0系で実装されているMapReduce2.0、というか、MapReduceとは別の実行基盤を利用するという方向ですね。すなわちBSPや、MPIを利用する。要は、今までの並列処理の成果をそのまま利用しましょう、という流れに近い。 MapReduce
you21979 2012/10/19
hadoop

アルゴリズム
リンク
エンジニアのための『仕事・職場・転職』応援サイト　Ｔｅｃｈ総研
ヘルプリーダーインタビューエンジニアあるある仕事魂最新技術キャリアアップ勉強会・イベント技術豆知識ビジネススキル職場環境会社訪問人間関係メンタルヘルス給与・ボーナス貯蓄・投資採用全体動向ＩＴ・Web系モノづくり系建築・土木系ＩＴ・Web系モノづくり系転職体験談職務経歴書・面接健康恋愛・結婚・家庭こだわりのアレ指定されたURLは存在しません。プライバシーポリシーご利用にあたってお問い合わせエンジニアライフ応援サイトＴｅｃｈ総研
you21979 2012/10/16
hadoop
リンク
Hadoopのインストールとサンプルプログラムの実行
前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました（図1 参照）。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemとMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS（Hadoop Distributed File System）、Hadoop MapReduce F
you21979 2011/11/17
hadoop
リンク
実践！「MapReduceでテキストマイニング」徹底解説
「青空文庫」をテキストマイニング！前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場
you21979 2011/11/17
hadoop
リンク
いまさら聞けないHadoopとテキストマイニング入門
ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1
you21979 2011/11/17
hadoop
リンク
1