在你的分析栈中,'隐私优先'实际意味着什么
这个短语随处可见,但大多数使用它的工具仍存储标识符、指纹或哈希后的邮箱。这里讲述技术上可靠的隐私优先数据模型应该是什么样子。
"隐私优先"已经成为一个营销短语。使用它的工具范围从真正不存储个人数据的,到仅仅将其 cookie 移到服务器端存储并自称合规的。要评估这一说法,你需要看三件具体的事:收集了什么、如何存储,以及是否可被逆转。
第 1 层:收集什么
每个分析工具都收集一些东西。问题在于其中是否有任何内容在 GDPR、LGPD 或 CCPA 下符合个人数据。以下内容通常是安全的——它们本身是聚合的或不可识别的:
- 页面 URL 和路径
- Referrer 域名(不是完整 URL)
- 国家(在边缘从 IP 推断,从不存储)
- 设备类型(移动或桌面,从屏幕宽度和粗略 User-Agent 模式推断)
- 浏览器系列(Chrome、Safari、Firefox 和其他从请求 User-Agent 在服务器端派生的粗略系列)
让这些安全的是它们中的任何一项,无论单独还是组合,都无法可靠识别特定的人。Referrer 域名告诉你某人来自 Hacker News——而不是他们是 Hacker News 的哪位用户。
当你开始存储 IP 地址、完整 user agent、设备指纹或任何持久标识符——即使是你跨会话保留的哈希——时,就越过了界限。
第 2 层:数据如何存储
安全地收集数据与安全地存储数据是不同的。许多工具声称不使用 cookie,然后将访客 ID 存储在与 IP 地址绑定的服务器端会话中。在 GDPR 下,IP 地址是个人数据。cookie 移到服务器端的事实不会改变正在追踪的内容。
真正的隐私优先存储仅包含上述内容——以及一个无法链接回任何个人的访客标识符。Monoid 的方法是每日单向哈希:
visitor_hash = SHA-256(IP + UA + SALT_SECRET + YYYY-MM-DD)
三个属性使其安全:
单向: SHA-256 不可逆。你无法从哈希恢复 IP 地址。加盐: 服务器端的 SALT_SECRET 意味着即使算法已知,哈希也无法被彩虹表攻击。每日: 输入中的日期意味着同一访客明天会产生不同的哈希。没有持久的跨会话标识符。
哈希对长期追踪个人没有用。它仅用于在单日内对访客去重,这是它唯一需要做的事。
第 3 层:能否被逆转
这是将真正隐私优先工具与营销宣称区分开来的测试。如果一个足够有动机的对手——包括拥有合法命令的政府——获取了你的分析数据库,他们能学到什么?
使用 Monoid 的数据模型:他们可以了解访问了哪些页面、来自哪些国家、使用哪些设备、在哪些日期。他们无法了解哪个特定个人访问了任何特定页面。哈希在没有原始 IP、原始 user agent、密钥盐和正确日期的情况下不会告诉他们任何信息——所有这些从不一起存储。
将其与"匿名化"的 GA4 数据相比,后者保留客户端 ID(持久的基于 cookie 的标识符)、毫秒精度的事件时间戳,以及设备指纹组件。该数据不是匿名的——充其量是假名化的,并且可以通过适度努力链接到真实用户。
数据库实际是什么样子
一条 Monoid pageview 记录包含:site_id、path、referrer、country、device、browser_family、visitor_hash(单向每日哈希)和 timestamp。这就是完整的记录。没有 IP 地址列、完整 User-Agent 字符串、浏览器版本、持久用户 ID 或会话令牌。架构中没有任何映射到真实个人的内容。
这就是隐私优先在数据模型层面的样子。其他一切——仪表板、实时计数、国家细分——都是从这些字段计算出来的。
为何这种区别在实践中重要
如果你的分析工具存储个人数据,你就是有义务的 GDPR 数据控制者:你必须公布处理的合法依据,维护处理活动记录,并响应数据主体访问请求。如果你的合法依据是同意,你还需要同意机制。
如果你的分析工具仅存储非个人聚合数据,那些义务不适用——因为没有需要控制的个人数据。法律开销与同意横幅一起消失。