No contexto de pré-processamento de dados, o auditor de cont...
• Produto A (Preço: R$ 50 e Peso: 300g) • Produto B (Preço: R$ 500 e Peso: 1000g)
Além disso, ele observa a presença de outliers nos dados. Nesse sentido, João deverá tratar os dados para garantir que as variáveis tenham uma distribuição normal, isto é, com média igual a zero e desvio padrão igual a um.
Para isso, a técnica de tratamento de dados que João deverá utilizar, levando em consideração a presença de outliers, é:
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: D - padronização (standardization Z-Score).
A questão apresenta um desafio no pré-processamento de dados, onde o auditor João identifica que as variáveis numéricas possuem escalas diferentes e a presença de outliers no conjunto de dados. A tarefa é tratar esses dados para que as variáveis sigam uma distribuição normal, com média zero e desvio padrão igual a um.
Por que a padronização (Z-Score) é a técnica correta?
A padronização é uma técnica que ajusta as escalas das variáveis para que tenham média (μ) igual a zero e desvio padrão (σ) igual a um. O cálculo do Z-Score é feito subtraindo a média da variável e dividindo pelo desvio padrão. A fórmula é expressa da seguinte forma:
Z = (X - μ) / σ
Essa técnica é eficaz não só para padronizar as escalas das variáveis, mas também é robusta em relação à presença de outliers, uma vez que a padronização não é tão afetada por eles quanto outras técnicas, como a normalização min-max (Alternativa C). A normalização min-max é sensível a outliers porque utiliza os valores mínimo e máximo dos dados, os quais podem ser os próprios outliers.
As outras técnicas apresentadas têm finalidades diferentes:
- A discretização (kbins discretization) é usada para transformar variáveis contínuas em categóricas.
- A codificação (one-hot encoding) é utilizada para transformar variáveis categóricas em um formato numérico binário, adequado para alguns modelos de machine learning.
- A transformação logarítmica (log transformation) é útil para diminuir a variação causada por outliers, mas não padroniza os dados com média zero e desvio padrão igual a um.
Por todas essas razões, a Alternativa D - padronização (standardization Z-Score) - é a mais apropriada para o cenário apresentado pela questão, pois leva em conta a presença de outliers e objetiva transformar as variáveis para terem uma distribuição normal.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
A técnica correta a ser utilizada é a padronização (standardization).
A padronização, também conhecida como Z-score normalization, é uma técnica comumente usada para transformar os dados de forma que eles tenham média igual a zero e desvio padrão igual a um. Essa técnica é eficaz para lidar com variáveis que possuem escalas muito diferentes e também ajuda a reduzir o impacto dos outliers, tornando os dados mais apropriados para análises estatísticas. Portanto, João deverá aplicar a padronização para tratar os dados no contexto descrito.
A técnica correta a ser utilizada é a padronização (Z-score).
A normalização (min-max scaling) (alternativa C) também é uma opção viável para pré-processamento de dados quando se deseja colocar as variáveis em uma escala comparável.
- No entanto, a normalização não garante uma distribuição normal dos dados. (pré-requisito no enunciado)
Alternativa Correta:
D) Padronização (Standardization Z-Score)
Justificativa:
Padronização Z-Score transforma os dados para que tenham média 0 e desvio padrão 1, o que ajuda a lidar com variáveis de diferentes escalas e pode ser mais robusto na presença de outliers, comparado à normalização Min-Max.
Resumo:
Padronização Z-Score é a técnica recomendada para ajustar os dados com diferentes escalas e presença de outliers, garantindo que os dados tenham média 0 e desvio padrão 1.
Há um erro no enunciado e resposta correta: transfomração z-score só garante resultado segue Normal se os dados forem normais
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo