Você pode pensar no Uber como uma empresa de corridas ou como um desenvolvedor de carro autônomos dominado por processos judiciais, mas, no seu núcleo, o Uber é uma grande empresa de dados. Ele precisa constantemente mastigar coordenadas de localização, dados de tráfego, informações de pagamento e taxas de impostos — e entregar todos esses dados nas mãos do Uber às vezes deixa os usuários nervosos.
Mas agora a companhia está estreando uma ferramenta de privacidade diferencial que será usada para analisar seus vastos bancos de dados. A privacidade diferencial permite a análise de grandes conjuntos de dados sem revelar a identidade de qualquer indivíduo incluído nos dados e é usada por empresas como a Apple e o Google para obter informações sobre os dados dos usuários sem comprometer a privacidade. A nova ferramenta do Uber possibilitará que seus analistas de dados conheçam as prováveis implicações de privacidade de qualquer consulta que façam nos dados do Uber antes de criá-los.
“Efetivamente, é uma maneira de examinar as consultas e decidir quão sensíveis são os dados resultantes dessa consulta sem ter que executar a consulta”, disse ao Gizmodo o gerente de engenharia de privacidade do Uber, Menotti Minutillo.
É assim que vai funcionar: imagine que os analistas de dados do Uber queiram descobrir qual é a distância média para um passeio em San Francisco. Eles precisarão consultar grandes extensões de dados sobre passeios na cidade, mas puxar esse tópico pode expor muitas informações sobre as pessoas e motoristas individuais. A privacidade diferencial codifica os dados e acrescenta ruído, tornando impossível rastrear informações de viagem até um usuário específico.
Mas algumas consultas são mais sensíveis do que outras e, portanto, exigem mais ruído. “A distância média de viagem em uma cidade menor com muito menos viagens é mais influenciada por uma única viagem e pode exigir mais ruído para fornecer o mesmo grau de privacidade. A privacidade diferencial define a quantidade precisa de ruído exigida segundo a sensibilidade”, explicou Katie Tezapsidis, engenheira de software do Uber na equipe de privacidade, em uma publicação de blog anunciando a mudança.
Para calcular essa sensibilidade, o Uber fez uma parceria com uma equipe de pesquisadores de segurança da Universidade da Califórnia em Berkeley. Os pesquisadores trabalharam por mais de um ano para chegar à técnica de cálculo, apelidada de “Sensibilidade Elástica“, que o Uber está lançando hoje como ferramenta de código aberto.
A Sensibilidade Elástica permitirá aos analistas do Uber e de outros lugares adaptar rapidamente os padrões diferenciais de privacidade a uma variedade de consultas. Anteriormente, um analista precisaria consultar um banco de dados e tentar eliminar dados sensíveis ou desnecessários após o fato. Agora, os dados sairão limpos.
“Nossa equipe está muito, muito interessada em fornecer ferramentas e plataformas para que as pessoas possam fazer seu trabalho de forma adequada à privacidade”, disse Minutillo. A ferramenta poderá fazer sugestões sobre a quantidade de ruído a ser adicionada para preservar a privacidade, ou se a consulta deve ser executada. “Nos casos em que você tem um uso legítimo — precisando recuperar dados para fazer análise —, essa é uma camada adicional de proteção”, acrescentou Minutillo. “Podemos nos sentir confortáveis de que o analista ainda pode obter resultados corretos e reduzir o risco de identificar qualquer indivíduo que esteja nesse conjunto.”