Qué significa realmente 'privacy-first' en tu stack de analytics
La frase está en todas partes, pero la mayoría de las herramientas que la usan todavía almacenan identificadores, fingerprints o emails hasheados. Así es como se ve un modelo de datos con privacidad técnicamente sólida.
"Privacy-first" se ha convertido en una frase de marketing. Las herramientas que la usan van desde las que genuinamente no almacenan datos personales hasta las que simplemente movieron sus cookies al almacenamiento del lado del servidor y se declararon conformes. Para evaluar la afirmación, necesitas examinar tres cosas específicas: qué se recopila, cómo se almacena y si puede revertirse.
Nivel 1: Qué se recopila
Cada herramienta de analytics recopila algo. La pregunta es si alguno de esos datos califica como datos personales bajo el RGPD, LGPD o CCPA. Los siguientes son generalmente seguros — son agregados o no identificables por sí solos:
- URL y ruta de la página
- Dominio del referidor (no la URL completa)
- País (inferido del IP en el edge, nunca almacenado)
- Tipo de dispositivo (móvil o escritorio, inferido por el ancho de pantalla)
- Familia de navegador (Chrome, Safari, Firefox y otras familias amplias derivadas en el servidor desde el User-Agent de la solicitud)
Lo que hace seguros a estos datos es que ninguno de ellos, individualmente o combinados, identifica de manera confiable a una persona específica. Un dominio de referidor te dice que alguien vino de Hacker News — no qué usuario de Hacker News fue.
La línea se cruza cuando empiezas a almacenar direcciones IP, user agents completos, fingerprints de dispositivos o cualquier tipo de identificador persistente — incluso uno hasheado que retienes entre sesiones.
Nivel 2: Cómo se almacenan los datos
Recopilar datos de forma segura es diferente a almacenarlos de forma segura. Muchas herramientas afirman que no usan cookies, luego almacenan un ID de visitante en una sesión del lado del servidor vinculada a una dirección IP. La dirección IP es un dato personal bajo el RGPD. El hecho de que la cookie se haya movido al servidor no cambia lo que se está rastreando.
Un almacenamiento genuinamente privacy-first contiene solo lo que se enumeró arriba — y un identificador de visitante que no puede vincularse a ningún individuo. El enfoque de Monoid es un hash diario unidireccional:
visitor_hash = SHA-256(IP + UA + SALT_SECRET + YYYY-MM-DD)
Tres propiedades lo hacen seguro:
Unidireccional: SHA-256 no es reversible. No puedes recuperar la dirección IP del hash. Con salt: El SALT_SECRET del lado del servidor significa que el hash no puede ser atacado con tablas rainbow aunque se conozca el algoritmo. Diario: La fecha en la entrada significa que el mismo visitante produce un hash diferente mañana. No hay un identificador persistente entre sesiones.
El hash no es útil para rastrear a una persona a lo largo del tiempo. Solo es útil para deduplicar visitantes dentro de un solo día — que es lo único que necesita hacer.
Nivel 3: ¿Puede revertirse?
Esta es la prueba que separa las herramientas genuinamente privacy-first de las afirmaciones de marketing. Si un adversario suficientemente motivado — incluido un gobierno con una orden legal — obtuviera tu base de datos de analytics, ¿qué podría aprender?
Con el modelo de datos de Monoid: podría saber qué páginas se visitaron, de qué países, en qué dispositivos y en qué días. No podría saber qué individuo específico visitó qué página específica. El hash no revela nada sin la IP original, el user agent original, el salt secreto y la fecha correcta — ninguno de los cuales se almacena junto.
Compara esto con los datos "anonimizados" de GA4, que retienen client IDs (identificadores persistentes basados en cookies), timestamps de eventos con precisión de milisegundos y componentes de fingerprint de dispositivo. Esos datos no son anónimos — son seudónimos en el mejor caso y vinculables a usuarios reales con esfuerzo moderado.
Cómo se ve realmente la base de datos
Un registro de pageview de Monoid contiene: site_id, path, referrer, country, device, browser_family, visitor_hash (el hash diario unidireccional) y un timestamp. Ese es el registro completo. No hay columna de dirección IP, User-Agent completo, versión de navegador, ID de usuario persistente ni token de sesión. No hay nada en el esquema que mapee a una persona real.
Así es como se ve privacy-first a nivel del modelo de datos. Todo lo demás — dashboards, conteos en tiempo real, distribución por países — se calcula a partir de esos campos.
Por qué la distinción importa en la práctica
Si tu herramienta de analytics almacena datos personales, eres un responsable del tratamiento de datos bajo el RGPD con obligaciones: debes publicar una base legal para el tratamiento, mantener registros de las actividades de tratamiento y responder a las solicitudes de acceso de los interesados. También necesitas un mecanismo de consentimiento si tu base legal es el consentimiento.
Si tu herramienta de analytics almacena solo datos agregados no personales, esas obligaciones no se aplican — porque no hay datos personales que controlar. La carga legal desaparece junto con el banner de consentimiento.