No contexto de pré-processamento de dados, o auditor de cont...

Próximas questões
Com base no mesmo assunto
Q2398315 Banco de Dados
No contexto de pré-processamento de dados, o auditor de contas públicas João está trabalhando em um projeto de análise de dados e percebe que as variáveis numéricas no conjunto de dados têm escalas muito diferentes, como a escala dos preços sendo maior do que a escala dos pesos, como demonstrado nos produtos A e B:
 Produto A (Preço: R$ 50 e Peso: 300g)  Produto B (Preço: R$ 500 e Peso: 1000g)

Além disso, ele observa a presença de outliers nos dados. Nesse sentido, João deverá tratar os dados para garantir que as variáveis tenham uma distribuição normal, isto é, com média igual a zero e desvio padrão igual a um.
Para isso, a técnica de tratamento de dados que João deverá utilizar, levando em consideração a presença de outliers, é:
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: D - padronização (standardization Z-Score).

A questão apresenta um desafio no pré-processamento de dados, onde o auditor João identifica que as variáveis numéricas possuem escalas diferentes e a presença de outliers no conjunto de dados. A tarefa é tratar esses dados para que as variáveis sigam uma distribuição normal, com média zero e desvio padrão igual a um.

Por que a padronização (Z-Score) é a técnica correta?

A padronização é uma técnica que ajusta as escalas das variáveis para que tenham média (μ) igual a zero e desvio padrão (σ) igual a um. O cálculo do Z-Score é feito subtraindo a média da variável e dividindo pelo desvio padrão. A fórmula é expressa da seguinte forma:

Z = (X - μ) / σ

Essa técnica é eficaz não só para padronizar as escalas das variáveis, mas também é robusta em relação à presença de outliers, uma vez que a padronização não é tão afetada por eles quanto outras técnicas, como a normalização min-max (Alternativa C). A normalização min-max é sensível a outliers porque utiliza os valores mínimo e máximo dos dados, os quais podem ser os próprios outliers.

As outras técnicas apresentadas têm finalidades diferentes:

  • A discretização (kbins discretization) é usada para transformar variáveis contínuas em categóricas.
  • A codificação (one-hot encoding) é utilizada para transformar variáveis categóricas em um formato numérico binário, adequado para alguns modelos de machine learning.
  • A transformação logarítmica (log transformation) é útil para diminuir a variação causada por outliers, mas não padroniza os dados com média zero e desvio padrão igual a um.

Por todas essas razões, a Alternativa D - padronização (standardization Z-Score) - é a mais apropriada para o cenário apresentado pela questão, pois leva em conta a presença de outliers e objetiva transformar as variáveis para terem uma distribuição normal.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

A técnica correta a ser utilizada é a padronização (standardization).

A padronização, também conhecida como Z-score normalization, é uma técnica comumente usada para transformar os dados de forma que eles tenham média igual a zero e desvio padrão igual a um. Essa técnica é eficaz para lidar com variáveis que possuem escalas muito diferentes e também ajuda a reduzir o impacto dos outliers, tornando os dados mais apropriados para análises estatísticas. Portanto, João deverá aplicar a padronização para tratar os dados no contexto descrito.

A técnica correta a ser utilizada é a padronização (Z-score).

A normalização (min-max scaling) (alternativa C) também é uma opção viável para pré-processamento de dados quando se deseja colocar as variáveis em uma escala comparável.

  • No entanto, a normalização não garante uma distribuição normal dos dados. (pré-requisito no enunciado)

Alternativa Correta:

D) Padronização (Standardization Z-Score)

Justificativa:

Padronização Z-Score transforma os dados para que tenham média 0 e desvio padrão 1, o que ajuda a lidar com variáveis de diferentes escalas e pode ser mais robusto na presença de outliers, comparado à normalização Min-Max.

Resumo:

Padronização Z-Score é a técnica recomendada para ajustar os dados com diferentes escalas e presença de outliers, garantindo que os dados tenham média 0 e desvio padrão 1.

Há um erro no enunciado e resposta correta: transfomração z-score só garante resultado segue Normal se os dados forem normais

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo