返回博客

哈希何时算个人数据?欧盟法院 SRB 判决与分析中的身份标识

欧盟法院在 EDPS 诉 SRB 案中将可识别性确立为相对的、依情境而定的判断标准。本文说明这对基于哈希的分析意味着什么,以及为什么每日轮换的加盐哈希既能通过法院的解读,也能通过 EDPB 更严格的解读。

每家分析服务商都回避的问题,提出来很简单,回答却很难:你数据库里的标识符算个人数据吗?2025 年 9 月 4 日,欧盟法院(CJEU) 给出了多年来最具影响力的答案,并把整个判断标准从孤立看待数据,重新转向以情境为核心。

EDPS 诉 SRB 案到底裁定了什么

该案——EDPS 诉 SRB,C-413/23 P——源于 Banco Popular 的处置。单一处置委员会(SRB)收集了股东的意见,把每位作者的身份替换为一个字母数字代码,并把编码后的意见转交给作为独立评估方的 Deloitte。Deloitte 没有还原这些代码的密钥,也没有其他途径触及作者。

欧盟法院裁定,假名化数据并非对每个接触它的一方都自动构成个人数据。某个数据集是否属于个人数据,要相对于持有者来评估——从特定接收方的立场出发,并结合其实际可用的技术、组织与法律手段。

这就是相对(或情境)可识别性判断标准,也是对第 26 条鉴于条款中"合理可能被使用的手段"的实际解读。在控制者手中属于个人数据的资料,在一个确实无法重新识别任何人的接收方手中,可以不构成个人数据。

与 EDPB 的张力

法院并未给服务商发放通行证。EDPB 第 01/2025 号假名化指南采取了刻意更严格的立场:只要任何人——控制者或某个第三方——保留重新识别的手段,假名化数据就仍属个人数据。EDPB 2026 年 2 月关于匿名化与假名化的报告,正是该委员会在处理其立场与法院立场之间的这一分歧。

对开发者而言,务实的解读是保守的。不要因为你的服务无法还原一个哈希值,就认定它脱离了 GDPR 的适用范围。正确的问题是:对持有附加信息的任何人而言,重新识别是否具有合理可能性——以及这些附加信息是否还存在。

为什么大多数分析哈希通不过这道测试

对标识符做哈希并不是匿名化。对电子邮件地址做 SHA-256 是确定性的:同一邮箱总是生成同一个摘要。任何人只要有一份候选邮箱清单,就能逐一哈希并比对。这样的哈希是一个稳定、可关联的键——充其量是假名化,且在两种解读下都属个人数据,因为重新识别的手段唾手可得。

同样的陷阱也适用于哈希后的 IP、哈希后的设备 ID,或任何来自小而可枚举空间的输入摘要。确定性加上可猜测的输入,就等于可重新识别。哈希函数改变的是字节,而不是可关联性

是什么让一个哈希真正站得住脚

有两个属性能把哈希从"假名化的个人数据"推向"无合理可能被重新识别":一个永不与数据一同存储的秘密盐值,以及一个无法被穷举猜测、且不会跨时间持续存在的输入。Monoid 的身份模型正是建立在这一点上:

SHA-256(IP | UA | SALT_SECRET | YYYY-MM-DD)

原始 IP 和 User-Agent 仅在 Worker 内存中存活到算出摘要所需的那一刻;D1 存储的是哈希,从不存储输入。SALT_SECRET 保存在服务端,绝不写在数据旁边,因此针对已存储哈希的彩虹表或暴力破解攻击没有任何着力点。又因为日期是输入的一部分,同一访客的摘要在每个 UTC 午夜轮换一次。不存在可供关联的跨日稳定键。

把这套构造放进两道测试。在欧盟法院的相对标准下,已存储哈希的任何接收方——包括查询自家 D1 的 Monoid——都不掌握合理可能用于重新识别的手段,因为盐值被隔离,输入不可枚举。在 EDPB 更严格的"任何人"标准下,重新识别所需的附加信息(原始 IP,加上 UA,加上那个特定日期的秘密盐值)在请求完成后无处保留。重新识别的手段不只是被限制,而是不复存在。

如何审查你自己的技术栈

这项判决给出了一份可直接套用到你所依赖的任何分析工具上的清单:

  • 被哈希的输入可枚举吗? 邮箱、电话号码或原始 IP 都可被哈希后与候选清单比对。如果输入空间很小,哈希在实践中就是可逆的。
  • 是否有与存储数据隔离的秘密盐值? 无盐的哈希,或盐值与数据存在同一处的哈希,对重新识别没有任何实质屏障。
  • 标识符是否跨会话持续存在? 一个把某人活动连续数周关联起来的稳定键,在任何解读下都是个人数据。每日轮换的键则无法积累出画像。

欧盟法院并未把假名化宣布为安全港,EDPB 也在确保没人这样去解读它。真正经得起时间的立场,是那种无需任何解释也能成立的立场:对一个不可枚举的输入施加加盐、每日轮换的哈希,对任何人都无合理可能被重新识别,因为还原它所需的材料从未被保留。

参考来源

Comments

Loading comments…