Ao analisar um grande volume de dados, João encontrou alguma...
A operação de limpeza da fase de preparação de dados para tratar os pontos extremos existentes em uma série temporal a ser executada por João é:
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: D - Tratamento de outlier.
O tema desta questão aborda o tratamento de dados no contexto de análise de dados, mais especificamente o processo de lidar com pontos de dados que apresentam anomalias ou valores extremos (outliers). Estes outliers podem distorcer análises e modelos estatísticos, sendo crucial identificá-los e tratá-los adequadamente para garantir a qualidade e a confiabilidade dos insights gerados a partir dos dados.
Para entender por que a alternativa D é a correta, é necessário saber que o tratamento de outlier é o processo de modificar ou remover dados que se distanciam significativamente do padrão da amostra de dados, o que é exatamente a situação descrita na questão - casos de pessoas com idade acima de 200 anos e discrepâncias salariais incomuns. Estas são claras indicações de que os dados estão incorretos ou não são representativos da realidade estudada, portanto, justifica-se a aplicação de técnicas para tratar esses outliers.
Esse processo pode incluir métodos estatísticos para identificar valores extremos e ações que vão desde simplesmente excluir esses pontos até aplicar transformações que ajustam tais valores a um intervalo mais plausível ou modelar especificamente essas anomalias, todas com o objetivo de melhorar a precisão da análise ou modelagem posterior.
É importante salientar que as demais alternativas não são apropriadas para o contexto descrito: Normalização refere-se ao ajuste da escala de valores dos dados; Discretização envolve converter variáveis contínuas em variáveis categóricas; Classificação é o processo de identificar a qual categoria um dado pertence; e Redução de dimensionalidade é uma técnica para diminuir o número de variáveis consideradas em um conjunto de dados.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Outlier:
- Algo que está afastado ou é classificado diferentemente de um corpo principal ou relacionado.
- Uma observação estatística cujo valor na amostragem é marcadamente diferente dos demais.
Os outliers são dados que se diferenciam drasticamente de todos os outros. Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.
Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos:
- os outliers podem viesar negativamente todo o resultado de uma análise;
- o comportamento dos outliers pode ser justamente o que está sendo procurado.
Os outliers presentes em datasets () possuem diversos outros nomes, como:
- dados discrepantes;
- pontos fora da curva; ()
- observações fora do comum;
- anomalias;
- valores atípicos;
- entre outros.
Letra D
Outliers são pontos de dados que diferem significativamente de outras observações. No exemplo fornecido, as anomalias como pessoas com mais de 200 anos de idade e salários de engenheiro menores do que os salários de pedreiro são outliers.
O processo de limpeza de dados para tratar esses pontos extremos em uma série temporal é chamado de tratamento de outlier. Esse processo pode ajudar a melhorar a precisão da análise, removendo ou corrigindo pontos de dados anômalos.
Mas o engenheiro está ganhando menos que um pedreiro mesmo.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo