Na etapa de preparação de dados a serem submetidos ao proce...

Próximas questões
Com base no mesmo assunto
Q1090452 Banco de Dados
Na etapa de preparação de dados a serem submetidos ao processo de data mining, uma importante tarefa consiste no processo de normalização dos dados numéricos. Com isso, leva-se o conjunto de dados a uma mesma escala, evitando distorções na execução dos algoritmos de aprendizado de máquina utilizados na descoberta de conhecimento de dados e, com isso, afetando a análise dos resultados.
Seja então um atributo numérico A com n valores observados {v1 , v2 , ... , vn }, média Imagem associada para resolução da questão e desvio-padrão σA.
Nesse contexto, a técnica de normalização de dados que gera Imagem associada para resolução da questão, dado um valor vi ϵ A , é a
Alternativas

Comentários

Veja os comentários dos nossos alunos

Gabarito: E.

Curiosamente, é uma questão de Data Mining, mas que tem conhecimentos de estatística.

Em suma, a fórmula dada no enunciado é para que qualquer variável de distribuição normal possa ser convertida para a distribuição normal padrão. O "z-score" nada mais é o quanto uma medida se afasta da média em termos de desvio padrão.

Bons estudos!

Existe vários tipos de normalização. a Z-score é mais utilizada em exames laboratoriais, por exemplo.

Contudo o valor Z carece de se comparar à uma tabela normal. Já a mais comum em DM é a normalização:

y = Xi - Min

Max - Min

onde Xi é o valor da amostra, Min é o valor mínimo da amostra, Max é o valor máximo.

Fonte: http://professor.ufabc.edu.br/~ronaldo.prati/DataMining/DataPreparation.pdf

Z-Score é, basicamente, representar um dado pela sua diferença da média e medida em desvios padrões.

Dessa forma, os dados assumem a forma de uma reta numérica aonde a média é o zero e todos os números negativos são abaixo da média e os positivos, acima da média.

Esses valores são medidos em desvio padrão, o quadrado da variância de um conjunto.

Na prática, se eu pego um dataset com a altura de pessoas entre 1,50 e 2,00 metros e descubro, por exemplo, que a média é 1,70 e o desvio padrão é 5cm, uma pessoa com 1,80 será representado pelo valor 2, enquanto uma de 1,50 será representada pelo valor -4.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo