アナリティクススタックにおける「プライバシーファースト」が実際に意味すること
このフレーズはどこにでもありますが、それを使用するほとんどのツールは依然として識別子、フィンガープリント、またはハッシュ化されたメールを保存しています。技術的に健全なプライバシーファーストのデータモデルがどのようなものかをご紹介します。
「プライバシーファースト」はマーケティングフレーズになりました。それを使うツールは、本当に個人データをまったく保存しないものから、クッキーをサーバー側ストレージに移しただけで自社を準拠と称するものまで幅広く存在します。主張を評価するには、3つの具体的な点を見る必要があります。何が収集されるか、それがどのように保存されるか、そして逆転可能かどうかです。
レベル1: 何が収集されるか
すべてのアナリティクスツールは何かを収集します。問題は、それのいずれかがGDPR、LGPD、CCPAの下で個人データに該当するかどうかです。以下は一般的に安全です。単独で集計または非識別可能なものです。
- ページURLとパス
- リファラードメイン(完全なURLではない)
- 国(エッジでIPから推測、保存されない)
- 端末タイプ(モバイルまたはデスクトップ、画面幅と大まかなUser-Agentパターンから推測)
- ブラウザファミリー(Chrome、Safari、Firefox、その他リクエストUser-Agentからサーバー側で導出される大まかなファミリー)
これらが安全な理由は、個別にも組み合わせても、特定の人物を確実に識別しないからです。リファラードメインはHacker Newsから誰かが来たことを伝えますが、その人がHacker Newsのどのユーザーかは伝えません。
IPアドレス、完全なユーザーエージェント、デバイスフィンガープリント、または何らかの永続識別子(セッションをまたいで保持するハッシュ化されたものでも)の保存を始めると、一線を越えます。
レベル2: データがどのように保存されるか
データを安全に収集することと安全に保存することは異なります。多くのツールはクッキーを使用しないと主張しながら、IPアドレスに紐づけられたサーバー側セッションに訪問者IDを保存します。IPアドレスはGDPR下の個人データです。クッキーがサーバー側に移動したという事実は、追跡されているものを変えません。
真にプライバシーファーストなストアには、上記にリストされたものと、いかなる個人にも結びつけられない訪問者識別子のみが含まれます。Monoidのアプローチは日次の一方向ハッシュです。
visitor_hash = SHA-256(IP + UA + SALT_SECRET + YYYY-MM-DD)
3つの特性がこれを安全にします。
一方向: SHA-256は逆変換不可能です。ハッシュからIPアドレスを復元することはできません。ソルト付き: サーバー側のSALT_SECRETは、アルゴリズムが知られていてもハッシュがレインボーテーブル攻撃を受けないことを意味します。日次: 入力の日付は、同じ訪問者が明日異なるハッシュを生成することを意味します。永続的なクロスセッション識別子はありません。
ハッシュは時間を超えて人物を追跡するのに有用ではありません。1日以内に訪問者を重複排除するのにのみ有用であり、それが必要な唯一のことです。
レベル3: 逆転可能か?
これが本物のプライバシーファーストツールをマーケティング主張から分離するテストです。十分に動機づけられた敵対者(法的命令を持つ政府を含む)があなたのアナリティクスデータベースを取得した場合、何を学べるでしょうか?
Monoidのデータモデルの場合: どのページが、どの国から、どのデバイスで、どの日に訪問されたかを学べます。どの特定の個人が特定のページを訪問したかは学べません。ハッシュは、元のIP、元のユーザーエージェント、シークレットソルト、そして正しい日付なしでは何も伝えません。これらすべてが一緒に保存されることはありません。
これを「匿名化された」GA4データと比較してください。GA4はクライアントID(永続的なクッキーベースの識別子)、ミリ秒精度のイベントタイムスタンプ、デバイスフィンガープリント構成要素を保持します。そのデータは匿名ではありません。せいぜい仮名化であり、適度な努力で実際のユーザーにリンクできます。
データベースの実際の見え方
Monoidのページビューレコードには次が含まれます: site_id、path、referrer、country、device、browser_family、visitor_hash(一方向の日次ハッシュ)、そしてtimestamp。これが完全なレコードです。IPアドレスカラム、完全なUser-Agent文字列、ブラウザバージョン、永続的なユーザーID、セッショントークンはありません。スキーマには実在の人物にマップされるものは何もありません。
それがデータモデルレベルでのプライバシーファーストの姿です。それ以外のすべて(ダッシュボード、リアルタイムカウント、国別内訳)は、これらのフィールドから計算されます。
なぜ区別が実務上重要か
アナリティクスツールが個人データを保存する場合、あなたは義務を負うGDPRデータコントローラーです。処理のための合法的根拠を公開し、処理活動の記録を維持し、データ主体のアクセス要求に応答する必要があります。合法的根拠が同意である場合は、同意メカニズムも必要です。
アナリティクスツールが非個人の集計データのみを保存する場合、これらの義務は適用されません。制御する個人データがないからです。法的オーバーヘッドは同意バナーとともに消滅します。