*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 データサイエンティストのためのHiveQL分析クエリテンプレートシリーズ: その1, その2, その3, その4, その5, その6 E. リテンション分析 最後はリテンションに関するクエリテンプレートです。 パターン E-1:直帰率 ※ ここでは同日内に1回しかログインしなかったユーザーを「直帰」と見なします。 SELECT t2.d AS d, COUNT(1)/SUM(t2.cnt)*100 AS bounce_rate FROM ( SELECT TD_TIME_FORMAT(time, 'yyyy-MM-dd', 'JST') AS d, uid, COUNT(1) AS cnt FROM login GROUP BY TD_TIME_FORMAT(time, 'yyyy-M
*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 データサイエンティストのためのHiveQL分析クエリテンプレートシリーズ: その1, その2, その3, その4, その5, その6 B. < m1 | Bin(m2), Bin(m3) > パターン 前回はディメンジョンdim1, dim2を直接セグメントとして渡していましたが,今回はメジャーを特定の区間に分類することによってセグメント化されるパターンを見ていきます。 定義 < Count(1)|Bin(m1) > および< Count(1)|Bin(m1), Bin(m2) > をそれぞれ「m1(, m2) における頻度分布(Distribution)」とよび,それぞれDis<m1>, Dis<m1,m2> と書く。わかりやすく「m1 (,m2) の分布」と表現しても良い。また,順
Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。本エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ
*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 データサイエンティストのためのHiveQL分析クエリテンプレートシリーズ: その1, その2, その3, その4, その5, その6 Treasure Dataでは,カラムナデータベースであるTreasure Cloud Storageに対してSQL ライクなHiveQLでデータの集計・分析が可能になっています。 本シリーズではHiveQLで完結できる集計・分析クエリのテンプレートを示すことによって大規模データの集計・分析を誰にでも実行できることを目指しています。どのような集計・分析を行ったら良いかわからない人でも,このテンプレートを使うだけである程度の集計結果を得ることが可能です。 ディメンジョン・メジャー まずはじめにカラムタイプとして「ディメンジョン」と「メジャー」を,上記の C
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く