Voltar ao blog

O que 'privacy-first' realmente significa na sua stack de analytics

A expressão está em todo lugar, mas a maioria das ferramentas que a usam ainda armazena identificadores, fingerprints ou e-mails hasheados. Veja como é um modelo de dados com privacidade sólida de verdade.

"Privacy-first" virou jargão de marketing. As ferramentas que usam essa expressão vão desde as que genuinamente não armazenam dados pessoais até as que simplesmente moveram seus cookies para armazenamento server-side e se declararam conformes. Para avaliar a afirmação, você precisa examinar três coisas específicas: o que é coletado, como é armazenado e se pode ser revertido.

Nível 1: O que é coletado

Toda ferramenta de analytics coleta algo. A questão é se algum desses dados se qualifica como dado pessoal sob a LGPD, GDPR ou CCPA. Os itens a seguir são geralmente seguros — são agregados ou não identificáveis por si só:

  • URL e caminho da página
  • Domínio do referrer (não a URL completa)
  • País (inferido do IP na borda, nunca armazenado)
  • Tipo de dispositivo (mobile ou desktop, inferido pela largura da tela)
  • Família de navegador (Chrome, Safari, Firefox e outras famílias amplas derivadas no servidor a partir do User-Agent da requisição)

O que torna esses dados seguros é que nenhum deles, individualmente ou combinados, identifica de forma confiável uma pessoa específica. Um domínio de referrer te diz que alguém veio do Hacker News — não qual usuário do Hacker News foi.

A linha é cruzada quando você começa a armazenar endereços IP, user agents completos, fingerprints de dispositivos ou qualquer tipo de identificador persistente — mesmo um hasheado que você mantém entre sessões.

Nível 2: Como os dados são armazenados

Coletar dados com segurança é diferente de armazená-los com segurança. Muitas ferramentas afirmam que não usam cookies, mas armazenam um ID de visitante em uma sessão server-side vinculada a um endereço IP. O endereço IP é dado pessoal sob a LGPD. O fato de o cookie ter migrado para o servidor não muda o que está sendo rastreado.

Um armazenamento genuinamente privacy-first contém apenas o que foi listado acima — e um identificador de visitante que não pode ser vinculado a nenhum indivíduo. A abordagem do Monoid é um hash diário unidirecional:

visitor_hash = SHA-256(IP + UA + SALT_SECRET + YYYY-MM-DD)

Três propriedades tornam isso seguro:

Unidirecional: SHA-256 não é reversível. Você não pode recuperar o endereço IP a partir do hash. Com salt: O SALT_SECRET server-side significa que o hash não pode ser atacado por rainbow table, mesmo que o algoritmo seja conhecido. Diário: A data na entrada significa que o mesmo visitante produz um hash diferente amanhã. Não há identificador persistente entre sessões.

O hash não é útil para rastrear uma pessoa ao longo do tempo. É útil apenas para desduplicar visitantes dentro de um único dia — que é a única coisa que ele precisa fazer.

Nível 3: Pode ser revertido?

Este é o teste que separa as ferramentas genuinamente privacy-first das afirmações de marketing. Se um adversário suficientemente motivado — incluindo um governo com uma ordem legal — obtivesse seu banco de dados de analytics, o que poderia aprender?

Com o modelo de dados do Monoid: poderia saber quais páginas foram visitadas, de quais países, em quais dispositivos e em quais dias. Não poderia saber qual indivíduo específico visitou qual página específica. O hash não revela nada sem o IP original, o user agent original, o salt secreto e a data correta — nenhum dos quais é armazenado junto.

Compare isso com os dados "anonimizados" do GA4, que retêm client IDs (identificadores persistentes baseados em cookies), timestamps de eventos com precisão de milissegundos e componentes de fingerprint de dispositivo. Esses dados não são anônimos — são pseudônimos na melhor das hipóteses e vinculáveis a usuários reais com esforço moderado.

Como o banco de dados realmente se parece

Um registro de pageview do Monoid contém: site_id, path, referrer, country, device, browser_family, visitor_hash (o hash diário unidirecional) e um timestamp. Esse é o registro completo. Não há coluna de endereço IP, User-Agent completo, versão de navegador, ID de usuário persistente nem token de sessão. Não há nada no schema que mapeie para uma pessoa real.

É assim que privacy-first se parece no nível do modelo de dados. Todo o resto — dashboards, contagens em tempo real, distribuição por países — é calculado a partir desses campos.

Por que a distinção importa na prática

Se sua ferramenta de analytics armazena dados pessoais, você é um controlador de dados sob a LGPD com obrigações: deve publicar uma base legal para o tratamento, manter registros das atividades de tratamento e responder a solicitações de acesso de titulares. Também precisa de um mecanismo de consentimento se sua base legal for o consentimento.

Se sua ferramenta de analytics armazena apenas dados agregados não pessoais, essas obrigações não se aplicam — porque não há dados pessoais para controlar. O ônus legal desaparece junto com o banner de consentimento.