A partir de dados da pesquisa Perfil do Processado e Produç...
Qual técnica de desidentificação de dados sensíveis é a mais adequada para preservar a privacidade dos indivíduos processados, permitindo, ainda, a análise sociodemográfica dos bairros?
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
A alternativa correta é a E, que se refere à técnica de Generalização. Esta técnica consiste em substituir informações detalhadas e específicas por categorias mais amplas, de forma a preservar a privacidade dos indivíduos, mas sem perder a capacidade de realizar análises sociodemográficas relevantes. Na questão em pauta, deseja-se manter as informações que permitem a análise dos padrões sociodemográficos dos bairros em relação às ações criminais por tráfico de drogas, porém, sem expor dados pessoais identificáveis dos processados.
Ao utilizar a generalização, dados como nome, CPF, RG e endereço específico podem ser removidos ou substituídos por categorias mais amplas (por exemplo, "Residente do Bairro X" ou "Pessoa na faixa etária de 20-30 anos"). Isso mantém a integridade dos dados para fins de comparação e análise entre diferentes segmentos sociodemográficos, enquanto protege a identidade dos indivíduos envolvidos. Ao mesmo tempo, preserva-se a possibilidade de investigar diferenças nas ações relacionadas ao direito à inviolabilidade domiciliar entre bairros mais e menos afortunados, bem como entre populações de diferentes composições raciais.
As outras opções falham em algum aspecto crucial para a questão proposta:
- A Anonimização (alternativa A) remove em demasia as informações, incluindo as referências de bairro e características sociodemográficas, tornando impossível a análise proposta.
- A Pseudonimização (alternativa B) inclui a publicação da tabela de correspondência, que comprometeria a privacidade dos indivíduos.
- A Agregação (alternativa C) exclui informações cruciais como cor ou raça e bairro, o que também impediria a análise sociodemográfica desejada.
- A Perturbação (alternativa D) adiciona ruído aos dados, o que pode tornar a análise específica por bairro não confiável ou mesmo inviável.
Portanto, a Generalização é a técnica mais apropriada para equilibrar a preservação da privacidade com a manutenção da utilidade dos dados para fins de análises sociodemográficas.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Na generalização, os dados são modificados para substituir valores específicos por categorias mais amplas. Por exemplo, em vez de ter idades específicas, elas podem ser generalizadas para faixas etárias (por exemplo, 18-25 anos, 26-35 anos, etc.). Da mesma forma, características como renda, raça ou ocupação podem ser agrupadas em categorias amplas.
Essa técnica ajuda a reduzir a precisão dos dados a níveis que impeçam a identificação individual, mas ainda permite a análise de tendências e padrões em um nível mais macro, como níveis de renda, distribuição racial ou composição socioeconômica dos bairros.
Uma técnica comum de desidentificação de dados sensíveis é a anonimização. A anonimização é um processo que envolve a remoção ou alteração de informações identificáveis de um conjunto de dados, de modo que os dados não possam mais ser atribuídos a um indivíduo específico sem o uso de informações adicionais que estejam mantidas separadamente.
Aqui estão algumas técnicas de anonimização comuns:
Supressão: Remover completamente informações identificáveis de um conjunto de dados. Por exemplo, suprimir nomes, endereços de e-mail ou números de telefone.
Generalização: Reduzir a precisão dos dados, substituindo informações identificáveis por categorias mais amplas. Por exemplo, substituir idades exatas por faixas etárias.
Perturbação: Adicionar ruído aos dados de forma controlada para tornar a identificação mais difícil. Por exemplo, adicionar uma pequena quantidade de aleatoriedade aos valores numéricos.
Tokenização: Substituir informações identificáveis por tokens únicos, que podem ser usados para referenciar as informações originais em um sistema seguro. Por exemplo, substituir números de cartão de crédito por tokens exclusivos.
Criptografia: Criptografar informações identificáveis para que só possam ser acessadas com uma chave de descriptografia. Isso permite que os dados sejam armazenados com segurança, mas ainda podem ser acessados quando necessário.
Hashing: Substituir informações identificáveis por hashes criptográficos irreversíveis. Isso é comumente usado para proteger senhas, por exemplo.
Aleatorização: Misturar os dados de forma que não seja possível identificar a correspondência entre os registros e as informações identificáveis originais.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo