No contexto de Qualidade de Dados, o auditor de contas públi...

Próximas questões
Com base no mesmo assunto
Q2398311 Banco de Dados
No contexto de Qualidade de Dados, o auditor de contas públicas João deverá analisar a consistência dos dados da base de dados AUD_CONTAS identificando variações sobre os valores dos atributos, como:

• 30% das entradas de dados na coluna CD_FUNCIONARIO estão marcadas com o caractere “espaço”
• existem 200 linhas na tabela TBL_PROCESSO contendo dados sobre processos sem nenhuma linha contendo os seus detalhes

Para isso, a técnica de diagnóstico sobre a qualidade de dados que João deverá utilizar é: 
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

A alternativa correta é a A - profiling.

No contexto de Qualidade de Dados, é essencial entender várias técnicas para diagnosticar e corrigir problemas presentes em uma base de dados. Vamos detalhar cada técnica mencionada nas alternativas para esclarecer por que a alternativa correta é o "profiling".

Profiling é uma técnica utilizada para analisar a qualidade dos dados de uma base de dados. Esta técnica envolve a avaliação de vários aspectos dos dados, como consistência, unicidade, completude e conformidade. No caso apresentado, João precisa identificar variações nos valores dos atributos, como entradas de dados incorretas ou incompletas (por exemplo, colunas preenchidas com caracteres de espaço e processos sem detalhes). Essas atividades são típicas do processo de data profiling, que visa detectar e quantificar problemas de qualidade.

Agora, vamos discutir as demais alternativas e explicar por que elas estão incorretas:

Matching (Alternativa B) é uma técnica usada para encontrar registros que representam a mesma entidade em diferentes conjuntos de dados, ou seja, é útil para identificar duplicações e correlações entre diferentes fontes de dados. Contudo, não se aplica diretamente à análise de consistência interna de uma única base de dados como a apresentada na questão.

Deduplicação (Alternativa C) refere-se ao processo de eliminar registros duplicados em uma base de dados. Embora seja importante para a qualidade dos dados, não é o foco da questão, que menciona a consistência e a análise de variações nos valores dos atributos.

Data Cleansing (Alternativa D) envolve a correção de dados incorretos ou incompletos. Esta técnica é aplicada após a identificação dos problemas. Embora seja um passo crucial para melhorar a qualidade dos dados, a questão exige uma técnica de diagnóstico, e não de correção.

Enriquecimento (Alternativa E) refere-se ao processo de melhorar a base de dados adicionando informações adicionais de fontes externas. Esta técnica não se aplica ao diagnóstico de problemas de consistência dentro da base de dados existente.

Portanto, a técnica mais adequada para a tarefa de João é o profiling, que foca na identificação e avaliação da qualidade dos dados para detectar variações e inconsistências.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

A resposta é Proffiling de Dados.

Entretanto, existem várias técnicas e abordagens para diagnosticar e melhorar a qualidade de dados. Seguem abaixos umas das principais técnicas de diagnóstico sobre a qualidade de dados:

  1. Profiling de Dados: Esta técnica envolve a análise estatística dos dados para identificar padrões, anomalias, valores nulos, valores extremos e distribuições de dados. O profiling de dados ajuda a entender a qualidade geral dos dados e a identificar áreas problemáticas que precisam de atenção.
  2. Deduplicação: A deduplicação é o processo de identificar e remover registros duplicados de uma base de dados. Isso é importante para garantir a integridade dos dados e evitar inconsistências causadas por duplicatas.
  3. Validação de Dados: Envolve a aplicação de regras e restrições para validar a precisão e a consistência dos dados. Isso pode incluir validação de formato (por exemplo, formato de data), validação de domínio (por exemplo, valores permitidos para um campo), e outras verificações de integridade.
  4. Padronização de Dados: Consiste em uniformizar o formato e a estrutura dos dados para garantir consistência e facilitar a análise. Isso pode incluir a padronização de códigos, formatos de endereço, unidades de medida, entre outros.
  5. Enriquecimento de Dados: É o processo de adicionar informações adicionais aos dados existentes, como enriquecimento geográfico (adicionar coordenadas geográficas a endereços), enriquecimento demográfico (adicionar informações demográficas a registros de clientes), entre outros.
  6. Monitoramento Contínuo: Esta técnica envolve o estabelecimento de processos e ferramentas para monitorar constantemente a qualidade dos dados ao longo do tempo. Isso permite identificar rapidamente problemas e tomar medidas corretivas.
  7. Limpeza de Dados: Envolve a identificação e correção de erros, valores ausentes e inconsistências nos dados. Isso pode incluir a remoção de dados obsoletos, correção de erros de digitação e preenchimento de valores ausentes.
  8. Auditoria de Dados: Consiste em revisar e analisar os dados para garantir conformidade com padrões, políticas e regulamentos. Isso inclui a verificação de integridade, precisão, consistência e segurança dos dados.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo