[B! mpp] muddydixonのブックマーク

muddydixon id:muddydixon

mppに関するmuddydixonのブックマーク (3)

『アドテクスキルアップゼミ　カラムナーデータベース検証まとめ』
皆様こんにちは。アドテク本部カラムーデータベースゼミチームです。今回の記事ではゼミチームが行った検証結果について発表させていただきます。また、この記事につきましては 11/12 に行われた db tech showcase Tokyo 2014 にて発表させて頂きました内容になります。プレゼン資料はこちらにあがっています。 ※追記 Impala / Presto の File Format についてご指摘を頂きましたのでデータロード及びまとめの部分に追記しました。アドテクスキルアップゼミカラムナーデータベース検証まとめ目的広告システムでは大量のデータをデータベースに入れて解析を行います。小規模から中規模なデータはRDBMSで行えますが、数TBを超えると RDBMS以外の選択肢を探さないといけません。ビッグデータ用のデータベースは比較資料が少なく、また、あったとしても検証
muddydixon 2014/11/14
comparison

mpp

aws

bigquery

impala
リンク
Hadoop Source Code Reading #17
14. Proposalによると… Tez is a proposal to develop a generic application which can be used to process complex data-processing task DAGs and runs natively on Apache Hadoop YARN. YARN is a generic resource-management system on which currently applications like MapReduce already exist. MapReduce is a specific, and constrained, DAG - which is not optimal for several frameworks like Apache Hive and Apache
muddydixon 2014/09/10
tez

mpp

spark

hadoop

presentation
リンク
MPP on Hadoop, Redshift, BigQuery - Go ahead!
Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ！」というプレッシャーが半端ないのでてきとうに書きます．この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので，すべてが俺の経験ではありません(特にBigQuery)．各社のSAの人とかに聞けば，もっと良いアプローチとか詳細を教えてくれるかもしれません．オンプレミスの商用MPPは使ったことないのでノーコメントです． MPP on HadoopでPrestoがメインなのは今一番使っているからで，Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています．もちろん実装の違いなどがあるので，その辺は適宜自分で補間してください．前提アプリケーションを開発していて，そのための解析基盤を一から作る．簡単なまとめデータを貯める所が作れるのであれば，そこに直接クエリを投げられるPre
muddydixon 2014/07/24
hadoop

redshift

bigquery

presto

mpp
リンク
1