Google Analytics 4のサンプリングとは
Google Analytics 4の探索機能において、一定期間のデータ数が1,000万イベントを超える場合、一部のデータをもとに母集団のデータを推計し出力されます。これをサンプリングといいます。
サンプリングがかかるかどうかのハードルの値は、無償の標準プロパティでは1,000万イベント、有償のGoogle Analytics 360であれば10億イベントになります。
サンプリングは実務にどう影響するのか
探索機能でレポートを作成する際、同じ期間でデータを抽出しているはずでも、サンプリングの適用有無によって抽出したデータの数値が変わります。
例えば、「2023/1/1-2023/12/31」と一括で取ったデータと、「2023/1/1-1/31」「2023/2/1-2/28」のような形で月次で取ったデータでは、コンバージョンやセッション数に違いが生じます。
サンプリングがかかると、右上のマークが注意マーク(!)になります。サンプリングがかかっていない場合はチェックマークです。
もとのデータがなるべく残っていた方が精度は高くなりますので、画像の30.5%では実数値とかなり乖離が出ていると思います。
実際にあったケース
ABCDと4つのディレクトリがあるサイトにおいて、ディレクトリごとのコンバージョンの数で優先度を判断する際、最初にデータを取った時は以下のような優先度となりました。
- A
- B
- C
- D
しかし、後日データの取得期間を1週間延長して取ったところ、以下のように優先度が変わってしまいました。
- A
- C
- B
- D
これはかなり極端なケースかもしれませんが、サンプリングの有無やサンプリングのかかり方によってデータの内容が大きく変わってしまうことがあります。
Google Analytics 4のみでデータを抽出して使うのではなく、他のツールで取ったデータもあわせて検討する方が望ましいでしょう。
なぜサンプリングが起こるのか
レポートでは事前に処理されたデータベース テーブルからデータが取得されるのに対して、データ探索では、イベント単位およびユーザー単位のテーブルのデータがそのまま使用されます。データ探索や目標到達プロセス レポートで、割り当ての上限を超える数のイベントを処理する必要がある場合、アナリティクスでは利用できるデータの代表サンプルが使用されます。
[GA4] データ サンプリングについて
レポートだと「データベース>レポート化」で直接データを取れますが、探索だと「データベース>データを加工>レポート化」という順序を辿るので、データの処理容量を抑制するための措置なのだと思われます。
サンプリングを回避するには
取るデータの範囲が1,000万イベント以内であれば、サンプリングはかかりません。
そのため、サンプリングがかからない範囲で最大のデータ数をもってデータを取り、それを合算するのが良いのではないかと思います(未検証)。
もしくは、Google Analytics 4のレポート機能ではサンプリングが行われないため、レポートを活用するのもありです。
おまけ
UAでもサンプリングはあったのですが、カスタムレポートではない標準のレポート機能が使いやすかったゆえにあまり取り沙汰されることが少なかったのかもしれません。
Google Analytics 4のレポート機能は少し分析するのにも物足りないので、こういう仕様を把握しておくことがより大切になりそうです。
しきい値については、次の記事で書きます。
トップページに戻る