[B! hadoop] syuu256のブックマーク

syuu256 id:syuu256

hadoopに関するsyuu256のブックマーク (40)

LanguageManual UDF - Apache Hive - Apache Software Foundation
This wiki is now read only. This and new content has been migrated to a new location
syuu256 2015/04/23
hive

hadoop
リンク
DMM inside
なぜDMMがweb3に参入したのか。Seamoon Protocolが目指す新たなエンタメ体験の未来とは
syuu256 2015/01/06
hadoop
リンク
「Hadoop」導入は必須、スキル不足も解消へ--Forresterが予測する2015年
Forrester Research （Special to ZDNET.com）翻訳校正：川村インターナショナル 2014-11-17 06:00 「Hadoop」の導入とイノベーションは速いペースで進んでおり、見識や価値を生み出すためにデジタル情報をやり取りする現在の「データ経済」において重要な役割を果たしている。しかし、Hadoopは2015年にどのくらいの速さで、どこに向かうのだろうか。 Forresterが発表したHadoopに関する予測では、企業の導入トレンドと、それがエンタープライズベンダーの間にもたらしかねない混乱に焦点を絞っている。この予測の一部を紹介する。予測1：「Hadooponomics」（Hadoopと経済学を意味するeconomicsを合わせた造語）によって、企業によるHadoopの導入は必須となる。評決は下された。Hadoopは、過剰宣伝のオープンソー
syuu256 2014/11/17
hadoop
リンク
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
Hadoop Conference Japan 2014で発表したApache Sentryの紹介ですRead less
syuu256 2014/07/09
hive

hadoop
リンク
IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
syuu256 2014/06/13
hadoop
リンク
【14-B-2】グリーを支えるデータ分析基盤の過去と現在（橋本泰一〔グリー〕）
グリーではユーザに喜んでもらえるサービスを提供するための継続的な改善を重視しており、創業期よりログデータの分析基盤の開発・運用に注力してまいりました。昨年より、従来の自社開発の解析基盤に加え、Hadoopやfluentdなどを本格的に運用開始し、解析基盤のさらなる強化を実施しております。サービスの成長を支えるデータ分析基盤の構築・運用・活用方法について自社の事例をベースにお話します。Read less
syuu256 2014/02/19
hadoop
リンク
奈良先端大が研究用システムを刷新　高性能なHadoop基盤を構築
奈良先端科学技術大学院大学は、情報科学やバイオサイエンス、物質創成科学の研究に向け、大量の非構造化データを分散処理する高性能なHadoop基盤を構築する。奈良先端科学技術大学院大学（以下、奈良先端大）は、情報科学やバイオサイエンス、物質創成科学の研究に向け、大量の非構造化データを分散処理する高性能なHadoop基盤を構築する。システムを提供する日本オラクルが1月22日に発表した。奈良先端大は情報科学、バイオサイエンス、物質創成科学の3つの研究科からなる国立大学院大学。最先端の研究を行うため、従来から総容量4ぺタバイトの大容量記憶装置、スーパーコンピュータ相当となる960コアの計算処理サーバ群、基幹伝送速度が40Gbpsの超高速ネットワークで構成される統合情報処理環境「曼陀羅システム」を整備してきた。今回、同システムのさらなる強化に向けて基盤刷新を決定。ストレージとして「Oracle
syuu256 2014/01/22
hadoop

oracle
リンク
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Hapyrus では、 Hadoop + Hive と Amazon Redshift のソリューション、また Amazon Redshift の導入コンサルティングを提供します。ぜひお問い合わせ下さい。info@hapyrus.com http://hapyrus.com/Read less
syuu256 2014/01/07
redshift

hadoop
リンク
試すのが難しい―機械学習の常識はMahoutで変わる
ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop（以下、Hadoop）の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」（以下、Mahout）です。本稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。そもそも、機械学習とは？機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ（すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ）、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。機械学習をビジネスに活用した例は、レコメンド（ユーザーや商品
syuu256 2014/01/07
mahout

hadoop

mapreduce

機械学習
リンク
その分析、Hadoopなら速く安くできます
ビジネスデータを分析するビジネスインテリジェンス（BI）分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか？現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able probl ems」（Hadoop化可能な10の一般的課題）と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など
syuu256 2014/01/06
hadoop
リンク
分析技術編：Hadoopへの期待と課題
＞＞前回この連載では、ビッグデータの収集から格納までのシステムデザインについて概観してきた。最終回は締めくくりとして、分析技術の課題と今後の方向性を考えてみる。ビッグデータにおける分析技術の課題分析技術の課題を考えるために、前回取り上げたECサイトの消費者行動ログデータの分析を想定してみる。図1は、割引率と売上額の相関だけでなく、購入時に表示されていた口コミ情報がどの程度の影響を与えるかを分析する例を示したものだ。この例では、口コミ評価が高いと、割引率に関係なく売上額が高いことを示している（右グラフの円の大きさは売上額の大きさを示す）。このような分析を行う場合、１回のデータベース検索だけでは結果を出せないため、次のような複数の処理ステップが必要となる。（1）１画面に含まれる複数の口コミ評価から、価格に関する評価を除外し、総合評価指数を算出する。（2）会員向け割引を加算するなど割
syuu256 2014/01/06
ecサイト

hadoop
リンク
【仮想化道場】並列分散処理のフレームワークとなるHadoop 2.0
syuu256 2013/12/25
hadoop
リンク
Cloudera Impala がリリースされました - 科学と非科学の迷宮
(2012/10/25 15:48 追記) Cloudera 公式ブログで Impala についての紹介記事を掲載しました。このブログ記事の完全上位互換なのでそちらの記事をご参照ください。 Cloudera Impala：Apache Hadoopで実現する、真のリアルタイムクエリ | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan Cloudera から、データサイエンティストのためのリアルタイムクエリエンジン「Impala」がリリースされました。Hive と完全互換のクエリ言語で、Hive より10倍以上速くクエリを処理できます。概要及びダウンロードはこちらから! http://www.cloudera.com/content/cloudera/en/products/cloudera-enterprise-core/clouder
syuu256 2013/12/16
impala

hive

hadoop

大規模データ処理

データマイニング
リンク
HadoopとRDBとのつながりを考える
本連載の第3回は、Hadoop周辺プロダクトの紹介を中心に、HadoopとRDBMSとのつながりを解説し、スムーズなデータの移行手段について検討する。 RDBMS（リレーショナルデータベース管理システム）は、非常に多くのITシステムでデータの保存に利用されている。RDBMS以外のデータベース製品が選択されるのは例外的ケースであるという印象を受けるほどだ。トランザクション処理によりデータの一貫性を強力に保持できること、歴史が長く完成度の高い実装が多数存在すること、結果として多くの技術者がRDBのデータモデルとそのインタフェースであるSQLになじみがあることなどがその理由であろう。ただし、高い一貫性を提供するRDBMSは、サーバーサイドでの処理量が多く、処理を並列化してスケールアウトを図ることが難しい。そのため、扱えるデータの規模を大きくしようとすると、高価なハードウエアを用意する必要に迫ら
syuu256 2013/12/10
hadoop

RDBMS
リンク
AWSのAmazon Elastic MapReduce(EMR)でHiveを使う手順 | takemikami's note
自前でHadoopをインストールせずとも、 AmazonWebService(AWS)で手軽にHadoopを利用する事ができるということで、 Elastic MapReduce(EMR)環境でHiveを利用してみました。ここでは、以下のような手順でHiveを利用する手順を示します。 S3にHive用のbucketを作成Amazon Elastic MapReduce Ruby ClientのセットアップS3にデータを配置HiveインタラクティブモードでElastic MapReduceを起動作成したHiveスクリプトをバッチ処理で実行S3にHive用のbucketを作成Hive用のデータを保存するため、S3にbucketを作ります。「AWS Management Console」でS3を選び、「Buckets」の「Create Bucket」を選択して、「Bucket Name」を
syuu256 2013/12/04
MapReduce

EMR

hive

Hadoop

aws
リンク
Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると
Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl
syuu256 2013/11/08
Presto

MapReduce

hadoop

Facebook
リンク
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
山下真一／株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス 2013年1月21日 Hadoop Conferecne Japan 2013 Winter 発表資料Read less
syuu256 2013/10/25
hadoop

pig
リンク
Hadoopを使ったログ解析システムにおける時間別のジョブ、パーティションについてつらつらと書いてみる。 - wyukawa's diary
ログを1時間毎にためてそれをHadoopで処理するなんていうのはよくあるパターンではないかと思う。例えば時間別のPV, UUを求めたいとかね。その場合20130806-1800, 20130806-1900みたいなHiveパーティションを用意するのではないだろうか。20130806-1800パーティションには2013/08/06の18:00-18:59:59までのログがあると思ってくだされ。ただ大抵はログを出力しているマシンとログを収集してHDFSにputするマシンとは別なので転送に時間がかかる。またログの中身のタイムスタンプを見ないでHDFSにputする場合はHiveパーティションの時間とログの時間が必ずしも一致するとは限らない。例えばログファイルの中身に18:59:59のレコードがあったとしてもそれをHDFSにputする頃には19時台になっているため20130806-1900の
syuu256 2013/10/21
hive

hadoop
リンク
Hadoop + HiveからUDFでお手軽に機械学習を回せるライブラリ"hivemall"がリリースされたとのこと - 渋谷駅前で働くデータサイエンティストのブログ
TL上にものすごーく刺激的な情報が飛び込んできたので、思わずご紹介。一部の方にはお伝えしておりますが、hive/hadoop上でスケーラブルに機械学習（今のとこクラス分類、回帰分析）を行うライブラリをオープンソース(LGPL)でリリースしました。mahout等より扱いやすい&スケーラブルなはず。 https://t.co/eBGmoW66V0— myui (@myui) 2013, 9月 30 ということで、ご本人のツイートにもあるようにGitHubに一式全て上がっています。ライセンスもLPGLなので自由に使えるという素晴らしさ。これ職場の分析マシンにもcloneしようかな（笑）。 myui/hivemall Wikiページを見ると、このライブラリの使い方が書いてあるんですが。。。何が凄いって、何とHiveクエリを書く要領で機械学習まわりの演算を全て実行できてしまう！というところ。ちょっ
syuu256 2013/10/21
hadoop

hive
リンク
Hadoop用カラムナストレージ「Parquet」正式版をTwitterがオープンソースで公開
データを列方向に格納することで読み出し性能を向上し、高速な分析を実現する技術は、「カラム型データベース」「カラムナーストレージ」「カラム型データストア」などと呼ばれて注目されています。その技術をHadoopのストレージに持たせることで、Hadoopでもさらに高速な分析を可能にする「Parquet」バージョン1.0を、Twitterがオープンソースで公開しました。公開したのは7月30日と1カ月ほど前のことで気付くのが少々遅かったのですが、ほかに日本語の記事が見当たらなかったので紹介したいと思います。 Parquetとはどのようなソフトウェアなのか、Twitterのブログから少し長めの説明を引用しましょう。 Parquet is an open-source columnar storage format for Hadoop. Its goal is to provide a state
syuu256 2013/09/03
hadoop
リンク
1 2 次のページ