Considere um conjunto de dados que inclui as variáveis idad...

Próximas questões
Com base no mesmo assunto
Q2383236 Banco de Dados
Considere um conjunto de dados que inclui as variáveis idade, altura e peso. Os dados de idade estão entre 0 e 100 anos, os dados de altura estão entre 1,50 e 2,00 metros e os dados de peso estão entre 50 e 100 kg.
Qual das seguintes técnicas de normalização numérica é mais adequada para esse conjunto de dados?
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Gabarito: A - Normalização Min-Max, para transformar os dados de modo que os valores fiquem entre 0 e 1.

A questão aborda técnicas de normalização numérica, um conceito fundamental em Algoritmos e Estrutura de Dados, especialmente no contexto de preparação de dados para análise em Banco de Dados. A normalização é importante para garantir que diferentes variáveis sejam comparáveis e para melhorar o desempenho de algoritmos de aprendizado de máquina.

Vamos analisar a alternativa correta e as alternativas incorretas:

Alternativa A: Normalização Min-MaxCorreta. Esta técnica ajusta os dados para que todos os valores fiquem dentro de um intervalo específico, geralmente entre 0 e 1. Dado que as variáveis idade, altura e peso possuem intervalos diferentes, essa normalização é ideal para padronizá-las, facilitando comparações e análises. A fórmula utilizada é:

NormalizedValue = (Value - MinValue) / (MaxValue - MinValue)

Alternativa B: Normalização Z-Score – Incorreta. Esta técnica transforma os dados de modo que a média seja 0 e o desvio padrão seja 1. Apesar de ser útil em muitos casos, não é a mais adequada aqui, pois busca-se simplesmente ajustar os dados dentro de um intervalo fixo.

Alternativa C: Normalização de Binário – Incorreta. Esta normalização transforma valores em 0 ou 1 com base em um limite específico, o que não é apropriado para os dados idade, altura e peso, pois perderíamos muita informação detalhada que esses dados carregam.

Alternativa D: Normalização de Decil – Incorreta. Esta técnica transforma os dados para um intervalo entre 0 e 100, mas não é comum para esse tipo de dados contínuos e pode complicar a análise ao invés de simplificar.

Alternativa E: Normalização de Quantil – Incorreta. Embora esta técnica também transforme os dados para um intervalo entre 0 e 100, é mais adequada para distribuições específicas e não é tão direta quanto a Normalização Min-Max para os dados apresentados.

Portanto, a Normalização Min-Max é a mais adequada para esse conjunto de dados, facilitando a análise e comparações entre as variáveis idade, altura e peso.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Para normalizar os dados de idade, altura e peso, considerando as faixas especificadas (idade entre 0 e 100 anos, altura entre 1,50 e 2,00 metros, peso entre 50 e 100 kg), uma técnica comumente utilizada é a normalização min-max.

A normalização min-max dimensiona os dados para um intervalo específico (geralmente entre 0 e 1), mantendo a proporção relativa entre os valores originais.

Gabarito: A

  • A necessidade de normalização vem do fato de termos dados em 'escalas' diferentes: um varia de 0 a 100, o outro de 1,5 a 2. Isso pode causar erros no treinamento de dados, por exemplo, então o melhor a se fazer é ter os dados, mantendo a estrutura e espaçamento entre eles, porém normalizados todos de 0 até 1.

Por que não as outras?

  • Não utilizaríamos o Z-Score, por exemplo, pois não sabemos se os dados são normalmente distribuídos, logo não seria a melhor opção.

  • A normalização binária faria com que perdêssemos muita informação.

  • As normalizações de Decil e Quantil eu particularmente não conhecia, porém se transformássemos os dados para que tivessem decis / quantis fixos entre 0 e 100, poderíamos também estar desconsiderando estruturas importantes do dado e perderíamos informações.

Como temos unidades diferentes, a melhor forma de organizar esses dados é pela normalização MIN MAX colocando todos na mesma escala.

Nomalização Min-Max: Suponha que você tenha um conjunto de dados com diferentes escalas, como a idade das pessoas em anos e a renda em milhares de dólares. Para tornar os dados comparáveis, é necessário normalizar a escala dos dados. Uma das técnicas mais comuns é a escala de Min-Max, que transforma os dados em uma escala de 0 a 1. Para isso, você pode usar a seguinte fórmula:

X' = (X - Xmin) / (Xmax - Xmin)

onde X' é o valor normalizado, X é o valor original, Xmin é o valor mínimo do conjunto de dados e Xmax é o valor máximo do conjunto de dados.

Normalização Z-score: esta técnica é usada para normalizar dados com distribuição normal ou aproximadamente normal. O Z-score representa a diferença entre um valor e a média do conjunto de dados, dividido pelo desvio padrão. Isso ajuda a destacar valores que são muito diferentes da média e a tornar os dados comparáveis.

A fórmula para calcular o Z-score é: z = (x - μ) / σ, onde x é o valor a ser normalizado, μ é a média do conjunto de dados e σ é o desvio padrão.

Normalização por quantis: A normalização por quantis divide os dados em grupos com base na porcentagem de dados em cada grupo. Cada valor é atribuído a um dos grupos, com base em sua posição percentual nos dados. A técnica é útil quando existem outliers extremos que podem afetar a normalização com outras técnicas.

A técnica de Normalização Min-Max é mais adequada para esse conjunto de dados, pois permite

transformar os dados de modo que os valores fiquem entre 0 e 1, o que se ajusta bem aos

intervalos fornecidos para as variáveis idade, altura e peso.

A normalização Min-Max, também conhecida como escala min-max, é uma técnica que reescala

os dados para um intervalo específico, comumente entre 0 e 1. Ela é calculada usando a seguinte

fórmula:

Xnorm = X −Xmin /Xmax −Xmin

Onde:

● X é o valor original do dado.

● Xmin é o valor mínimo do dado no conjunto de dados.

● Xmax é o valor máximo do dado no conjunto de dados.

● Xnorm é o valor normalizado, ou seja, o valor reescalado entre 0 e 1.

Essa técnica é amplamente utilizada para garantir que todos os atributos ou variáveis tenham a

mesma escala, o que é importante para muitos algoritmos de aprendizado de máquina que

assumem que todas as características têm o mesmo peso.

No contexto deste problema, em que as variáveis idade, altura e peso têm intervalos diferentes,

a normalização Min-Max é adequada, pois permite ajustar todos os valores dentro do intervalo

de 0 a 1, preservando as relações de proporção entre eles. Isso é importante para garantir que

nenhuma variável tenha um impacto desproporcional sobre a análise devido à sua escala original.

Resposta: A

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo