हैश कब व्यक्तिगत डेटा बनता है? CJEU का SRB फ़ैसला और एनालिटिक्स में पहचान
CJEU के EDPS बनाम SRB फ़ैसले ने पहचान-योग्यता को एक सापेक्ष, संदर्भ-आधारित परीक्षण बना दिया। जानिए हैश-आधारित एनालिटिक्स के लिए इसका क्या मतलब है — और क्यों रोज़ बदलने वाला साल्टेड हैश अदालत की व्याख्या और EDPB की कड़ी व्याख्या, दोनों पर खरा उतरता है।
हर एनालिटिक्स वेंडर जिस सवाल से कतराता है, उसे पूछना आसान है पर सुलझाना मुश्किल: क्या आपके डेटाबेस में मौजूद identifier व्यक्तिगत डेटा है? 4 सितंबर 2025 को CJEU (यूरोपीय न्यायालय) ने वर्षों का सबसे महत्वपूर्ण जवाब दिया, और पूरे परीक्षण को डेटा को अलग-थलग देखने के बजाय संदर्भ के इर्द-गिर्द फिर से गढ़ दिया।
EDPS बनाम SRB ने असल में क्या तय किया
यह मामला — EDPS बनाम SRB, C-413/23 P — Banco Popular के समाधान से उपजा। Single Resolution Board (SRB) ने शेयरधारकों की टिप्पणियाँ इकट्ठी कीं, हर लेखक की पहचान को एक अल्फ़ान्यूमेरिक कोड से बदला, और कोडित टिप्पणियाँ एक स्वतंत्र मूल्यांकनकर्ता के रूप में Deloitte को भेज दीं। Deloitte के पास कोड उलटने की कोई कुंजी नहीं थी और लेखकों तक पहुँचने का कोई अन्य रास्ता भी नहीं था।
CJEU ने माना कि छद्मनामीकृत (pseudonymised) डेटा उसे छूने वाले हर पक्ष के लिए अपने-आप व्यक्तिगत डेटा नहीं होता। कोई डेटासेट व्यक्तिगत है या नहीं, इसका मूल्यांकन धारक के सापेक्ष होता है — विशिष्ट प्राप्तकर्ता की स्थिति से, उसके लिए वास्तव में उपलब्ध तकनीकी, संगठनात्मक और कानूनी साधनों को ध्यान में रखते हुए।
यही सापेक्ष (या संदर्भगत) पहचान-योग्यता का परीक्षण है, और यह Recital 26 के "उचित रूप से उपयोग किए जाने की संभावना वाले साधन" की व्यावहारिक व्याख्या है। जो डेटा कंट्रोलर के हाथ में व्यक्तिगत है, वह ऐसे प्राप्तकर्ता के हाथ में गैर-व्यक्तिगत हो सकता है जो वास्तव में किसी की दोबारा पहचान नहीं कर सकता।
EDPB के साथ तनाव
अदालत ने वेंडरों को खुली छूट नहीं दी। छद्मनामीकरण पर EDPB के Guidelines 01/2025 जान-बूझकर कड़ा रुख अपनाते हैं: जब तक कोई भी — कंट्रोलर या कोई तीसरा पक्ष — दोबारा पहचान के साधन रखता है, तब तक छद्मनामीकृत डेटा व्यक्तिगत डेटा ही रहता है। अनामीकरण और छद्मनामीकरण पर फ़रवरी 2026 की EDPB रिपोर्ट दरअसल बोर्ड का अपने रुख और अदालत के रुख के बीच की इसी खाई पर काम करना है।
डेवलपरों के लिए व्यावहारिक व्याख्या रूढ़िवादी है। यह न मान लें कि कोई hashed मान सिर्फ़ इसलिए GDPR के दायरे से बाहर है क्योंकि आपकी सेवा उसे उलट नहीं सकती। सही सवाल यह है कि क्या अतिरिक्त जानकारी रखने वाले किसी के लिए दोबारा पहचान उचित रूप से संभावित है — और क्या वह अतिरिक्त जानकारी अब भी मौजूद है।
अधिकांश एनालिटिक्स हैश परीक्षण में क्यों विफल होते हैं
किसी identifier का हैश बनाना अनामीकरण नहीं है। किसी ईमेल पते का SHA-256 नियतात्मक (deterministic) है: वही ईमेल हमेशा वही digest देता है। संभावित ईमेलों की सूची रखने वाला कोई भी उन्हें हैश करके मिलान कर सकता है। यह हैश एक स्थिर, जोड़ने-योग्य कुंजी है — बेहतर से बेहतर छद्मनामीकरण, और दोनों व्याख्याओं में व्यक्तिगत डेटा, क्योंकि दोबारा पहचान के साधन आसानी से उपलब्ध हैं।
यही जाल एक hashed IP, एक hashed device ID, या किसी छोटे, गणनीय स्थान से लिए गए input के किसी भी digest को पकड़ता है। नियतात्मकता और अनुमान-योग्य input मिलकर दोबारा पहचान बन जाते हैं। हैश फ़ंक्शन बाइट्स बदलता है, जोड़ने-योग्यता नहीं।
हैश को वास्तव में बचाव-योग्य क्या बनाता है
दो गुण हैश को "छद्मनामीकृत व्यक्तिगत डेटा" से "उचित रूप से दोबारा पहचान न होने योग्य" की ओर ले जाते हैं: एक गुप्त salt जो कभी डेटा के साथ संग्रहीत नहीं होता, और एक input जिसका संपूर्ण अनुमान नहीं लगाया जा सकता और जो समय के साथ बना नहीं रहता। Monoid का पहचान मॉडल ठीक इसी पर बना है:
SHA-256(IP | UA | SALT_SECRET | YYYY-MM-DD)
कच्चा IP और User-Agent केवल digest की गणना के लिए ज़रूरी समय तक Worker की मेमोरी में रहते हैं; D1 हैश संग्रहीत करता है, input कभी नहीं। SALT_SECRET सर्वर-साइड रखा जाता है और कभी डेटा के बगल में नहीं लिखा जाता, इसलिए संग्रहीत हैश पर rainbow-table या brute-force हमले को कोई आधार नहीं मिलता। और चूँकि तारीख एक input है, उसी विज़िटर का digest हर UTC मध्यरात्रि बदल जाता है। सहसंबंध (correlate) करने के लिए कोई स्थिर, दिन-पार कुंजी नहीं होती।
इस रचना को दोनों परीक्षणों से गुज़ारिए। CJEU के सापेक्ष मानक के तहत, संग्रहीत हैश का कोई भी प्राप्तकर्ता — अपने ही D1 से क्वेरी करने वाला Monoid भी — दोबारा पहचान के लिए उचित रूप से संभावित साधन नहीं रखता, क्योंकि salt अलग है और input गणनीय नहीं है। EDPB के कड़े "किसी भी" मानक के तहत, ज़रूरी अतिरिक्त जानकारी (कच्चा IP, साथ में UA, साथ में उस विशिष्ट तारीख का गुप्त salt) request पूरा होने के बाद कहीं भी संग्रहीत नहीं रहती। दोबारा पहचान के साधन केवल सीमित नहीं होते; उनका अस्तित्व ही समाप्त हो जाता है।
अपना स्टैक कैसे जाँचें
यह फ़ैसला एक ठोस चेकलिस्ट देता है जिसे आप किसी भी एनालिटिक्स पर लागू कर सकते हैं जिस पर आप निर्भर हैं:
- क्या hashed input गणनीय है? एक ईमेल, एक फ़ोन नंबर, या एक कच्चा IP हैश करके किसी संभावित सूची से मिलाया जा सकता है। यदि input स्थान छोटा है, तो हैश व्यवहार में उलटा जा सकता है।
- क्या एक गुप्त salt संग्रहीत डेटा से अलग है? बिना salt का हैश, या उसी स्टोर में पड़े salt वाला हैश, दोबारा पहचान के विरुद्ध कोई वास्तविक बाधा नहीं देता।
- क्या identifier सत्रों के पार बना रहता है? एक स्थिर कुंजी जो किसी व्यक्ति की गतिविधि को हफ़्तों तक जोड़ती है, हर व्याख्या में व्यक्तिगत डेटा है। रोज़ बदलने वाली कुंजी प्रोफ़ाइल जमा नहीं कर सकती।
CJEU ने छद्मनामीकरण को सुरक्षित ठिकाना घोषित नहीं किया, और EDPB यह सुनिश्चित कर रहा है कि कोई इसे वैसा न पढ़े। टिकाऊ रुख वही है जिसे जीतने के लिए किसी व्याख्या की ज़रूरत नहीं: किसी गणनीय-नहीं input पर साल्टेड, रोज़ बदलने वाला हैश किसी के लिए भी उचित रूप से दोबारा पहचान-योग्य नहीं है, क्योंकि उसे उलटने के लिए ज़रूरी सामग्री कभी रखी ही नहीं गई।
Comments
Loading comments…