Google Analytics 4のデータのしきい値とは

2023/09/03

[GA4] データのしきい値

Google Analytics 4のレポートや探索機能において、確認したいデータの母数が一定量に達していない場合、ユーザーの個人情報を保護するためにデータの内容がカットされることがあります。これをしきい値といいます。

レポートやデータ探索からデータが抜けている場合、Google アナリティクスが適用するデータのしきい値が原因の可能性があります。データのしきい値は、レポートやデータ探索を閲覧する際、データに含まれるシグナル(ユーザー属性、インタレストなど)から個別ユーザーの身元を推測できないようにするために設けられています。

[GA4] データのしきい値

なぜしきい値が適用されるのか

少ないデータによるユーザーの特定を防ぐためです。

例えば、9/2の19:03に「フォーム送信」というイベントがあったとして、そのフォーム送信の時刻をヒントに実データを照らし合わせると、「〇〇さんはこういう動きをしてフォーム送信をしたのか」というユーザー情報とデータの紐づけができてしまいます。

(雑感:Hubspotはこういう挙動を確認できますが、この辺りは変わっていくのでしょうか?)

ユーザーのプライバシー保護が重要視されている昨今、このようなユーザー情報の特定を防ぐためにしきい値が適用されるようになったようです。

しきい値が適用されると、このような表示が確認できます。

しきい値は実務にどう影響するのか

少ないイベント数のデータがカットされることで、「正しいデータ」が確認できなくなります。

例として、ある短い期間のうちに特定のイベントが1件しか発生していない場合、そのイベントはGoogle Analytics上でカットされてデータが表示されてしまいます。

その結果、「あれ、この日にコンバージョンが出ていたような…?」という他のデータソースとの乖離が起きます。

コンバージョンのような他にデータが取れるようなものならまだ良いですが、ページビューのようなデータがしきい値によってカットされると、そのデータはないものとして闇に消えてしまいます。
(実際にはしきい値によって表示がカットされているだけで、データは存在します)

しきい値が適用される場合

[GA4] データのしきい値 に記載のある内容で、実務上影響するであろうケースをピックアップしました。

共通しているのは、見ようとしているデータが少ない場合に適用されるということです。

一方で、Google Analytics 4を使った傾向分析をする場合にはそれなりの期間・それなりのデータ量をもって分析するため、実務上「しきい値のせいで正しく分析できない!」というケースはあまり多くないと思います(間違っていたらXにてご指摘いただけると助かります)。

また、しきい値の基準を知る方法や適用を回避する方法はありません。

ユーザー属性によりしきい値が適用されるケース

[GA4] アナリティクスのディメンションと指標

サンプリングについても確認を推奨

しきい値をざっくりまとめると、「ユーザーの特定を防ぐために少ないデータがカットされる」という仕様であるため、それなりのデータ量をもって傾向分析をする場合の影響度はさほど大きくないかと思います。

しきい値よりもサンプリングの方が分析に与える影響は大きいと思いますので、この機会にあわせて確認してみてください。

Google Analytics 4のサンプリングとは

トップページに戻る