Na etapa de preparação de dados a serem submetidos ao proce...
Seja então um atributo numérico A com n valores observados {v1 , v2 , ... , vn }, média e desvio-padrão σA.
Nesse contexto, a técnica de normalização de dados que gera , dado um valor vi ϵ A , é a
Comentários
Veja os comentários dos nossos alunos
Gabarito: E.
Curiosamente, é uma questão de Data Mining, mas que tem conhecimentos de estatística.
Em suma, a fórmula dada no enunciado é para que qualquer variável de distribuição normal possa ser convertida para a distribuição normal padrão. O "z-score" nada mais é o quanto uma medida se afasta da média em termos de desvio padrão.
Bons estudos!
Existe vários tipos de normalização. a Z-score é mais utilizada em exames laboratoriais, por exemplo.
Contudo o valor Z carece de se comparar à uma tabela normal. Já a mais comum em DM é a normalização:
y = Xi - Min
Max - Min
onde Xi é o valor da amostra, Min é o valor mínimo da amostra, Max é o valor máximo.
Fonte: http://professor.ufabc.edu.br/~ronaldo.prati/DataMining/DataPreparation.pdf
Z-Score é, basicamente, representar um dado pela sua diferença da média e medida em desvios padrões.
Dessa forma, os dados assumem a forma de uma reta numérica aonde a média é o zero e todos os números negativos são abaixo da média e os positivos, acima da média.
Esses valores são medidos em desvio padrão, o quadrado da variância de um conjunto.
Na prática, se eu pego um dataset com a altura de pessoas entre 1,50 e 2,00 metros e descubro, por exemplo, que a média é 1,70 e o desvio padrão é 5cm, uma pessoa com 1,80 será representado pelo valor 2, enquanto uma de 1,50 será representada pelo valor -4.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo