Considere um conjunto de dados que inclui as variáveis idad...
Qual das seguintes técnicas de normalização numérica é mais adequada para esse conjunto de dados?
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Gabarito: A - Normalização Min-Max, para transformar os dados de modo que os valores fiquem entre 0 e 1.
A questão aborda técnicas de normalização numérica, um conceito fundamental em Algoritmos e Estrutura de Dados, especialmente no contexto de preparação de dados para análise em Banco de Dados. A normalização é importante para garantir que diferentes variáveis sejam comparáveis e para melhorar o desempenho de algoritmos de aprendizado de máquina.
Vamos analisar a alternativa correta e as alternativas incorretas:
Alternativa A: Normalização Min-Max – Correta. Esta técnica ajusta os dados para que todos os valores fiquem dentro de um intervalo específico, geralmente entre 0 e 1. Dado que as variáveis idade, altura e peso possuem intervalos diferentes, essa normalização é ideal para padronizá-las, facilitando comparações e análises. A fórmula utilizada é:
NormalizedValue = (Value - MinValue) / (MaxValue - MinValue)
Alternativa B: Normalização Z-Score – Incorreta. Esta técnica transforma os dados de modo que a média seja 0 e o desvio padrão seja 1. Apesar de ser útil em muitos casos, não é a mais adequada aqui, pois busca-se simplesmente ajustar os dados dentro de um intervalo fixo.
Alternativa C: Normalização de Binário – Incorreta. Esta normalização transforma valores em 0 ou 1 com base em um limite específico, o que não é apropriado para os dados idade, altura e peso, pois perderíamos muita informação detalhada que esses dados carregam.
Alternativa D: Normalização de Decil – Incorreta. Esta técnica transforma os dados para um intervalo entre 0 e 100, mas não é comum para esse tipo de dados contínuos e pode complicar a análise ao invés de simplificar.
Alternativa E: Normalização de Quantil – Incorreta. Embora esta técnica também transforme os dados para um intervalo entre 0 e 100, é mais adequada para distribuições específicas e não é tão direta quanto a Normalização Min-Max para os dados apresentados.
Portanto, a Normalização Min-Max é a mais adequada para esse conjunto de dados, facilitando a análise e comparações entre as variáveis idade, altura e peso.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Para normalizar os dados de idade, altura e peso, considerando as faixas especificadas (idade entre 0 e 100 anos, altura entre 1,50 e 2,00 metros, peso entre 50 e 100 kg), uma técnica comumente utilizada é a normalização min-max.
A normalização min-max dimensiona os dados para um intervalo específico (geralmente entre 0 e 1), mantendo a proporção relativa entre os valores originais.
Gabarito: A
- A necessidade de normalização vem do fato de termos dados em 'escalas' diferentes: um varia de 0 a 100, o outro de 1,5 a 2. Isso pode causar erros no treinamento de dados, por exemplo, então o melhor a se fazer é ter os dados, mantendo a estrutura e espaçamento entre eles, porém normalizados todos de 0 até 1.
Por que não as outras?
- Não utilizaríamos o Z-Score, por exemplo, pois não sabemos se os dados são normalmente distribuídos, logo não seria a melhor opção.
- A normalização binária faria com que perdêssemos muita informação.
- As normalizações de Decil e Quantil eu particularmente não conhecia, porém se transformássemos os dados para que tivessem decis / quantis fixos entre 0 e 100, poderíamos também estar desconsiderando estruturas importantes do dado e perderíamos informações.
Como temos unidades diferentes, a melhor forma de organizar esses dados é pela normalização MIN MAX colocando todos na mesma escala.
Nomalização Min-Max: Suponha que você tenha um conjunto de dados com diferentes escalas, como a idade das pessoas em anos e a renda em milhares de dólares. Para tornar os dados comparáveis, é necessário normalizar a escala dos dados. Uma das técnicas mais comuns é a escala de Min-Max, que transforma os dados em uma escala de 0 a 1. Para isso, você pode usar a seguinte fórmula:
X' = (X - Xmin) / (Xmax - Xmin)
onde X' é o valor normalizado, X é o valor original, Xmin é o valor mínimo do conjunto de dados e Xmax é o valor máximo do conjunto de dados.
Normalização Z-score: esta técnica é usada para normalizar dados com distribuição normal ou aproximadamente normal. O Z-score representa a diferença entre um valor e a média do conjunto de dados, dividido pelo desvio padrão. Isso ajuda a destacar valores que são muito diferentes da média e a tornar os dados comparáveis.
A fórmula para calcular o Z-score é: z = (x - μ) / σ, onde x é o valor a ser normalizado, μ é a média do conjunto de dados e σ é o desvio padrão.
Normalização por quantis: A normalização por quantis divide os dados em grupos com base na porcentagem de dados em cada grupo. Cada valor é atribuído a um dos grupos, com base em sua posição percentual nos dados. A técnica é útil quando existem outliers extremos que podem afetar a normalização com outras técnicas.
A técnica de Normalização Min-Max é mais adequada para esse conjunto de dados, pois permite
transformar os dados de modo que os valores fiquem entre 0 e 1, o que se ajusta bem aos
intervalos fornecidos para as variáveis idade, altura e peso.
A normalização Min-Max, também conhecida como escala min-max, é uma técnica que reescala
os dados para um intervalo específico, comumente entre 0 e 1. Ela é calculada usando a seguinte
fórmula:
Xnorm = X −Xmin /Xmax −Xmin
Onde:
● X é o valor original do dado.
● Xmin é o valor mínimo do dado no conjunto de dados.
● Xmax é o valor máximo do dado no conjunto de dados.
● Xnorm é o valor normalizado, ou seja, o valor reescalado entre 0 e 1.
Essa técnica é amplamente utilizada para garantir que todos os atributos ou variáveis tenham a
mesma escala, o que é importante para muitos algoritmos de aprendizado de máquina que
assumem que todas as características têm o mesmo peso.
No contexto deste problema, em que as variáveis idade, altura e peso têm intervalos diferentes,
a normalização Min-Max é adequada, pois permite ajustar todos os valores dentro do intervalo
de 0 a 1, preservando as relações de proporção entre eles. Isso é importante para garantir que
nenhuma variável tenha um impacto desproporcional sobre a análise devido à sua escala original.
Resposta: A
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo