No contexto de Qualidade de Dados, o auditor de contas públi...
• 30% das entradas de dados na coluna CD_FUNCIONARIO estão marcadas com o caractere “espaço”
• existem 200 linhas na tabela TBL_PROCESSO contendo dados sobre processos sem nenhuma linha contendo os seus detalhes
Para isso, a técnica de diagnóstico sobre a qualidade de dados que João deverá utilizar é:
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
A alternativa correta é a A - profiling.
No contexto de Qualidade de Dados, é essencial entender várias técnicas para diagnosticar e corrigir problemas presentes em uma base de dados. Vamos detalhar cada técnica mencionada nas alternativas para esclarecer por que a alternativa correta é o "profiling".
Profiling é uma técnica utilizada para analisar a qualidade dos dados de uma base de dados. Esta técnica envolve a avaliação de vários aspectos dos dados, como consistência, unicidade, completude e conformidade. No caso apresentado, João precisa identificar variações nos valores dos atributos, como entradas de dados incorretas ou incompletas (por exemplo, colunas preenchidas com caracteres de espaço e processos sem detalhes). Essas atividades são típicas do processo de data profiling, que visa detectar e quantificar problemas de qualidade.
Agora, vamos discutir as demais alternativas e explicar por que elas estão incorretas:
Matching (Alternativa B) é uma técnica usada para encontrar registros que representam a mesma entidade em diferentes conjuntos de dados, ou seja, é útil para identificar duplicações e correlações entre diferentes fontes de dados. Contudo, não se aplica diretamente à análise de consistência interna de uma única base de dados como a apresentada na questão.
Deduplicação (Alternativa C) refere-se ao processo de eliminar registros duplicados em uma base de dados. Embora seja importante para a qualidade dos dados, não é o foco da questão, que menciona a consistência e a análise de variações nos valores dos atributos.
Data Cleansing (Alternativa D) envolve a correção de dados incorretos ou incompletos. Esta técnica é aplicada após a identificação dos problemas. Embora seja um passo crucial para melhorar a qualidade dos dados, a questão exige uma técnica de diagnóstico, e não de correção.
Enriquecimento (Alternativa E) refere-se ao processo de melhorar a base de dados adicionando informações adicionais de fontes externas. Esta técnica não se aplica ao diagnóstico de problemas de consistência dentro da base de dados existente.
Portanto, a técnica mais adequada para a tarefa de João é o profiling, que foca na identificação e avaliação da qualidade dos dados para detectar variações e inconsistências.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
A resposta é Proffiling de Dados.
Entretanto, existem várias técnicas e abordagens para diagnosticar e melhorar a qualidade de dados. Seguem abaixos umas das principais técnicas de diagnóstico sobre a qualidade de dados:
- Profiling de Dados: Esta técnica envolve a análise estatística dos dados para identificar padrões, anomalias, valores nulos, valores extremos e distribuições de dados. O profiling de dados ajuda a entender a qualidade geral dos dados e a identificar áreas problemáticas que precisam de atenção.
- Deduplicação: A deduplicação é o processo de identificar e remover registros duplicados de uma base de dados. Isso é importante para garantir a integridade dos dados e evitar inconsistências causadas por duplicatas.
- Validação de Dados: Envolve a aplicação de regras e restrições para validar a precisão e a consistência dos dados. Isso pode incluir validação de formato (por exemplo, formato de data), validação de domínio (por exemplo, valores permitidos para um campo), e outras verificações de integridade.
- Padronização de Dados: Consiste em uniformizar o formato e a estrutura dos dados para garantir consistência e facilitar a análise. Isso pode incluir a padronização de códigos, formatos de endereço, unidades de medida, entre outros.
- Enriquecimento de Dados: É o processo de adicionar informações adicionais aos dados existentes, como enriquecimento geográfico (adicionar coordenadas geográficas a endereços), enriquecimento demográfico (adicionar informações demográficas a registros de clientes), entre outros.
- Monitoramento Contínuo: Esta técnica envolve o estabelecimento de processos e ferramentas para monitorar constantemente a qualidade dos dados ao longo do tempo. Isso permite identificar rapidamente problemas e tomar medidas corretivas.
- Limpeza de Dados: Envolve a identificação e correção de erros, valores ausentes e inconsistências nos dados. Isso pode incluir a remoção de dados obsoletos, correção de erros de digitação e preenchimento de valores ausentes.
- Auditoria de Dados: Consiste em revisar e analisar os dados para garantir conformidade com padrões, políticas e regulamentos. Isso inclui a verificação de integridade, precisão, consistência e segurança dos dados.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo