A limpeza de dados, data cleansing, é uma tarefa importante ...

Próximas questões
Com base no mesmo assunto
Q2383232 Banco de Dados
A limpeza de dados, data cleansing, é uma tarefa importante que pode ser complexa e demorada, no entanto é um investimento fundamental que pode melhorar a qualidade e a utilidade dos dados para futuras análises.
Seja um conjunto de dados com informações de saúde referentes a uma população. Pode-se limpar esses dados para identificar e tratar valores extremos, discrepantes, contraditórios ou inválidos. Com isso, há maior confiabilidade para estimar a prevalência, a incidência, a mortalidade e os fatores de risco de uma doença naquela população representada por aqueles dados.
Por exemplo, seja o conjunto de dados abaixo referente a uma amostra de 5 indivíduos em uma mesma cidade, na qual um analista percebeu a necessidade de limpeza de dados por conta de potenciais inconsistências.

Indivíduo 1: Sexo: Feminino; Idade: 8 anos; Altura: 1,15m; Peso: 40kg; Batimento Cardíaco em Repouso: 85 bpm
Indivíduo 2: Sexo: Masculino; Idade: 22 anos; Altura: 1,60m; Peso: 60kg; Batimento Cardíaco em Repouso: 72 bpm
Indivíduo 3: Sexo: Feminino; Idade: 40 anos; Altura: 1,60m; Peso: 55kg; Batimento Cardíaco em Repouso: 10 bpm
Indivíduo 4: Sexo: Masculino; Idade: 55 anos; Altura: 1,90m; Peso: 100kg; Batimento Cardíaco em Repouso: 70 bpm
Indivíduo 5: Sexo: Feminino; Idade: 70 anos; Altura: 1,50m; Peso: 60kg; Batimento Cardíaco em Repouso: 70 bpm

Qual ação é a única claramente necessária para realizar data cleansing neste conjunto de dados específico?
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: C - Confirmar o valor do batimento cardíaco no indivíduo 3, que parece anormalmente baixo.

A questão aborda o conceito de data cleansing (limpeza de dados), que é um processo crucial para garantir a qualidade e confiabilidade dos dados em bancos de dados, especialmente quando esses dados serão utilizados para análises e tomada de decisões. Neste processo, identificamos e corrigimos os erros e inconsistências nos dados, tais como valores faltantes, duplicados, incorretos ou fora do escopo esperado.

Para resolver a questão, é necessário analisar os dados providos e identificar qualquer valor que não pareça razoável ou que esteja claramente errado. Este tipo de habilidade é importante, pois no mundo real, os dados muitas vezes vêm com erros e inconsistências que podem afetar severamente a análise se não forem corrigidos.

No caso específico desta questão, é requerido um conhecimento básico sobre os parâmetros vitais humanos para identificar a inconsistência. O valor do batimento cardíaco em repouso para o indivíduo 3 é reportado como 10 batimentos por minuto (bpm), o que é claramente anormal e potencialmente errado, pois os batimentos cardíacos de um adulto saudável em repouso geralmente variam entre 60 e 100 bpm. Um valor tão baixo como 10 bpm é inviável para a sustentação da vida, indicando que provavelmente trata-se de um erro de digitação ou registro, e por isso, precisa ser verificado e corrigido.

As outras alternativas apresentam suposições sobre o que poderia ser considerado um erro baseado em expectativas menos objetivas, como altura e peso, que podem variar significativamente entre indivíduos saudáveis. Por esta razão, a única ação claramente necessária é a verificação do valor anormalmente baixo do batimento cardíaco no indivíduo 3, justificando assim a escolha da alternativa C como correta.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

O valor de 10 bpm para o Batimento Cardíaco em Repouso do Indivíduo 3 parece ser claramente inválido, pois está muito abaixo do que seria esperado para um ser humano em repouso. Portanto, corrigir esse valor para um número mais plausível, ou investigar e corrigir a origem do erro, seria uma ação necessária durante o processo de limpeza de dados

A pergunta é: "Qual ação é a única claramente necessária...", escalando o banco de dados podemos citar a letra C, ou seja, os batimentos do 3º individuo. Entretanto, a idade da primeira chama atenção e também investigaria.

o indivíduo 3 tá morto! kkkkk

A limpeza de dados, também conhecida como data cleansing, é o processo de identificar e corrigir erros, inconsistências e anomalias em conjuntos de dados. Esses erros podem surgir de diversas fontes, como erros de entrada manual, sistemas legados, integração de dados de várias fontes e problemas durante a coleta ou transferência de dados. A limpeza de dados é essencial para garantir a qualidade e a integridade dos dados utilizados em análises, tomadas de decisão e processos automatizados.

Aqui estão algumas técnicas comuns de limpeza de dados:

Remoção de Duplicatas: Identificar e remover registros duplicados em conjuntos de dados, garantindo que cada entrada seja única.

Correção de Erros de Digitação: Identificar e corrigir erros de digitação, como erros ortográficos ou de formatação inconsistente.

Preenchimento de Valores Ausentes: Identificar e preencher valores ausentes ou nulos com base em métodos como a média, mediana, moda ou imputação com base em algoritmos mais avançados.

Padronização de Formatos: Padronizar formatos de dados, como datas, números de telefone e endereços, para garantir consistência e facilitar a análise.

Normalização de Dados: Normalizar dados para remover redundâncias e inconsistências, como variações na capitalização ou uso de sinônimos.

Validação de Dados: Verificar se os dados estão dentro de limites aceitáveis e atendem aos critérios de validade, como valores negativos onde não são esperados.

Detecção e Remoção de Outliers: Identificar e remover valores atípicos que podem distorcer análises estatísticas ou modelos preditivos

Verificação de Integridade Referencial: Verificar se os relacionamentos entre conjuntos de dados estão mantidos, garantindo a integridade referencial.

Consistência de Dados Relacionais: Garantir que as relações entre conjuntos de dados estejam consistentes e que não haja contradições ou inconsistências nos dados relacionais.

Auditoria de Dados: Realizar auditorias regulares nos dados para garantir que os processos de limpeza estejam funcionando conforme o esperado e que os dados permaneçam limpos ao longo do tempo.

Data cleaning ou limpeza é uma prática comum em bancos de dados, business inteligence e afins. Consiste em identificar e corrigir possíveis anomalias e dados equivocados em um grupo de dados, normalemte esses dados são muito destoados dos demais do grupo.

Normalmente há um processo de correção de dados errados, identificação e eliminação de dados duplicados, uniformização dos dados (formatos de datas, idades e afins), basicamente consiste em corrigir erros e padronizar os dados para permitir uma análise mais precisa e correta.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo