データ分析の分野において、大規模なデータセットの中から有意な情報を得るため、すべてのデータの一部を抽出することをサンプリングと言います。たとえば、100 エーカーの範囲に自生している木の本数を推定する場合、木の分布が均一であれば、1 エーカーの本数を数えて 100 を掛けるか、0.5 エーカーの本数を数えて 200 を掛ければ、全体の本数を的確に予測することができます。
この記事では、レポートに的確なデータを迅速に掲載するため、アナリティクスでどのようなセッション サンプリングが行われているかについて説明します。
この記事の内容:
サンプリングのしきい値
デフォルトのレポートでは、サンプリングは行われません。
状況に応じて行われるデータクエリ、つまりアドホックのデータクエリではサンプリングが行われることがあります。ただし、実際に行われるかどうかは次のしきい値に基づいて判断されます。
- アナリティクス標準版: 選択した期間でプロパティ単位のセッション数が 50 万件以上
- アナリティクス 360: 選択した期間でビュー単位のセッション数が 1 億件以上
サンプリングされたセッション数が少なくなる場合もあります。これは、アナリティクスの実装が複雑であったり、ビューフィルタを使用していたり、セグメントのクエリが複雑であったり、または複合的な要因が存在したりすると発生します。できるだけ上記の基準値までサンプリングするようにしますが、アドホック クエリでは返されるセッション数がわずかに少なくなる場合が一般的です。
サンプリングが行われるケース
ここから、どのようなケースでアナリティクスのレポートでセッション サンプリングが行われる可能性があるかについて説明していきます。
デフォルトのレポート
アナリティクス管理画面の左側のパネルで、[ユーザー]、[集客]、[行動]、[コンバージョン] からデフォルトのレポートを選択することができます。
アナリティクスのアカウントでは、フィルタされていない完全なデータセットがプロパティごとに 1 つ作成されます。また、プロパティのレポートビュー単位で、フィルタされていない完全なデータのディメンションや指標を集計した表が作成されます。デフォルトのレポートを作成する際は、集計データの表が照会され、サンプリングが適用されていない結果が速やかに表示されます。
アナリティクスでは新しいレポートが随時追加され、指標の計算方法に変更が加えられることがあります。新しいレポートが追加される前、または指標の計算方法が変更される前の期間が特定のレポートの対象期間に含まれている場合、アナリティクスでアドホック クエリが発行され、データがサンプリングされることがあります。
「ユーザー数」指標と「アクティブ ユーザー」指標を含むレポートに 2016 年 9 月より前のデータが含まれている場合は、データのサンプリングが必ず行われます。詳細
アナリティクス標準版でもアナリティクス 360 でも、デフォルトのレポートでサンプリングが行われることはありません。ただし、自動タグ設定オーバーライド機能を使った場合、一部の Google 広告レポートでサンプリングが発生することがあります。
アドホック レポート
セグメントやフィルタ、セカンダリ ディメンションを適用してデフォルトのレポートを変更した場合や、デフォルトのレポートにはないディメンションや指標を組み合わせてカスタム レポートを作成した場合は、アナリティクス データに対するアドホック クエリが生成されます。
アナリティクスでは最初に集計データの表が参照され、アドホック クエリでリクエストされたデータが揃っているかどうかが確認されます。必要な情報がない場合は、リクエストに対応するため、フィルタされていない完全なデータセットが照会されます。
アドホック クエリでは、選択した期間内にセッション数が対象タイプのプロパティのしきい値を超えた場合、サンプリングが行われます。
その場合、選択した期間におけるプロパティの日別のセッション分布に合わせて、完全なデータからサンプルが抽出されます。たとえば、5 日間のセッションが 25% のレートでサンプリングされる場合、サンプルには各日のセッションの 25% が含まれることになります。
月曜日 | 火曜日 | 水曜日 | 木曜日 | 金曜日 | |
---|---|---|---|---|---|
総セッション数 | 200,000 | 100,000 | 200,000 | 300,000 | 200,000 |
サンプル数(25%) | 50,000 | 25,000 | 50,000 | 75,000 | 50,000 |
クエリのサンプリング率は、ビューの対象期間に発生したセッション数に応じて異なります。
データのサンプリングが行われている場合は、レポートの上部に [このレポートは N% のセッションに基づいて作成されています。] というメッセージが表示されます。
このメッセージの右側に 2 つのオプションが表示され、いずれかを選択することでサンプル数を調整することができます。
- 精度優先: サンプル数を最大にして、完全なデータセットのサンプルとして最も精度が高いデータが使用されるようにします。
- 速度優先: サンプル数を減らし、データの抽出が迅速に行われるようにします。
その他のレポート
以下のレポートで行われるサンプリングは、デフォルトのレポートやアドホック クエリで行われるものと挙動が異なります。
マルチチャネル レポート
デフォルトのレポートの場合と同様に、レポートに変更を加えない限りサンプリングが行われることはありません。たとえば、ルックバック ウィンドウの変更、集計するコンバージョンの変更、セグメントやセカンダリ ディメンションの追加などを行った場合にサンプリングが行われます。レポートになんらかの変更を加えると、最大で 100 万件のコンバージョンがサンプルとして返されます。
ビジュアル フロー レポート
ビジュアル フロー レポート(ユーザーフロー、行動フロー、イベントフロー、ゴールフロー)は、選択した期間の最大 10 万件のセッションを使って生成されます。
閲覧開始率、離脱率、コンバージョン率などの指標が表示されるビジュアル フロー レポートは、サンプルの内容が異なるデフォルトの行動レポートやコンバージョン レポートとは、結果が異なる場合があります。
フィルタとセグメント
アナリティクス標準版とアナリティクス 360 では、まずビューフィルタが適用され、その後ビュー単位でセッション データがサンプリングされます。たとえば、ビューフィルタでセッションがフィルタされたり除外されたりする場合、そのフィルタが適用された後のセッションからサンプルが抽出されます。
アナリティクス標準版とアナリティクス 360 のどちらでも、レポートのフィルタが適用された後またはサンプリングが行われた後に、セグメントが適用されます。つまり、サンプル全体のセッション数より、セグメントのセッション数の方が少なくなる可能性があります。
サンプリングのコントロール
サンプル数を最大化してレポートの精度を上げる設定と、サンプル数を少なくしてクエリに迅速に対応する設定のいずれかを選ぶことができます。
サンプリングを実施したくない場合は、セッション数がサンプリングのしきい値を下回るよう、レポートの対象期間を短くするという方法もあります(データの規模がこの方法に対応できるものの場合)。
Google アナリティクス 360 をご利用の場合は、次の 2 通りの方法でもサンプリングを回避することができます。
- 1 回限りのレポートの場合、非サンプリング レポートをダウンロードすることもできます。
- 繰り返し利用するレポートの場合、カスタム表を作成することもできます。