Ao analisar um grande volume de dados, João encontrou alguma...

Próximas questões
Com base no mesmo assunto
Q1978813 Banco de Dados
Ao analisar um grande volume de dados, João encontrou algumas anomalias, por exemplo: pessoas com mais de 200 anos de idade e salário de engenheiro menor que salário de pedreiro.
A operação de limpeza da fase de preparação de dados para tratar os pontos extremos existentes em uma série temporal a ser executada por João é:
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: D - Tratamento de outlier.

O tema desta questão aborda o tratamento de dados no contexto de análise de dados, mais especificamente o processo de lidar com pontos de dados que apresentam anomalias ou valores extremos (outliers). Estes outliers podem distorcer análises e modelos estatísticos, sendo crucial identificá-los e tratá-los adequadamente para garantir a qualidade e a confiabilidade dos insights gerados a partir dos dados.

Para entender por que a alternativa D é a correta, é necessário saber que o tratamento de outlier é o processo de modificar ou remover dados que se distanciam significativamente do padrão da amostra de dados, o que é exatamente a situação descrita na questão - casos de pessoas com idade acima de 200 anos e discrepâncias salariais incomuns. Estas são claras indicações de que os dados estão incorretos ou não são representativos da realidade estudada, portanto, justifica-se a aplicação de técnicas para tratar esses outliers.

Esse processo pode incluir métodos estatísticos para identificar valores extremos e ações que vão desde simplesmente excluir esses pontos até aplicar transformações que ajustam tais valores a um intervalo mais plausível ou modelar especificamente essas anomalias, todas com o objetivo de melhorar a precisão da análise ou modelagem posterior.

É importante salientar que as demais alternativas não são apropriadas para o contexto descrito: Normalização refere-se ao ajuste da escala de valores dos dados; Discretização envolve converter variáveis contínuas em variáveis categóricas; Classificação é o processo de identificar a qual categoria um dado pertence; e Redução de dimensionalidade é uma técnica para diminuir o número de variáveis consideradas em um conjunto de dados.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Outlier:

  1. Algo que está afastado ou é classificado diferentemente de um corpo principal ou relacionado.
  2. Uma observação estatística cujo valor na amostragem é marcadamente diferente dos demais.

Os outliers são dados que se diferenciam drasticamente de todos os outros. Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.

Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos:

  1. os outliers podem viesar negativamente todo o resultado de uma análise;
  2. o comportamento dos outliers pode ser justamente o que está sendo procurado.

Os outliers presentes em datasets () possuem diversos outros nomes, como:

  • dados discrepantes;
  • pontos fora da curva; ()
  • observações fora do comum;
  • anomalias;
  • valores atípicos;
  • entre outros.

Letra D

Outliers são pontos de dados que diferem significativamente de outras observações. No exemplo fornecido, as anomalias como pessoas com mais de 200 anos de idade e salários de engenheiro menores do que os salários de pedreiro são outliers.

O processo de limpeza de dados para tratar esses pontos extremos em uma série temporal é chamado de tratamento de outlier. Esse processo pode ajudar a melhorar a precisão da análise, removendo ou corrigindo pontos de dados anômalos.

Mas o engenheiro está ganhando menos que um pedreiro mesmo.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo