Análise de agrupamento, ou clustering, é um grupo de técnica...

Próximas questões
Com base no mesmo assunto
Ano: 2019 Banca: COMPERVE - UFRN Órgão: UFRN Prova: COMPERVE - 2019 - UFRN - Estatístico |
Q2045101 Estatística
Análise de agrupamento, ou clustering, é um grupo de técnicas multivariadas cujo propósito consiste em separar unidades em grupos, de acordo com diversas variáveis. A ideia básica é colocar em um mesmo grupo unidades similares de acordo com um critério especificado. Em relação a esse tipo de técnica de análise multivariada, avalie as afirmações abaixo.
I O conceito de similaridade é fundamental, e as medidas de similaridade em geral envolvem associação e distância.
II A suposição de normalidade dos dados é fundamental.
III Para aplicação de análise de agrupamento, as variáveis precisam ser quantitativas.
IV Para aplicar o método das k-médias, é necessário decidir preliminarmente em quantos grupos o conjunto de unidades será dividido.
Em relação às técnicas de análise de agrupamento, estão corretas as afirmativas
Alternativas

Comentários

Veja os comentários dos nossos alunos

A análise de cluster é uma técnica estatística usada para classificar elementos em grupos, de forma que elementos dentro de um mesmo cluster sejam muito parecidos, e os elementos em diferentes clusters sejam distintos entre si.

 

Para definir a semelhança – ou diferença – entre os elementos é usada uma função de distância, que precisa ser definida considerando o contexto do problema em questão.

 

Podemos dividir a análise de cluster em dois grandes tipos de métodos: hierárquicos e não hierárquicos.

 

Os métodos hierárquicos da análise de cluster tem como principal característica um algoritmo capaz de fornecer mais de um tipo de partição dos dados. Ele gera vários agrupamentos possíveis, onde um cluster pode ser mesclado a outro em determinado passo do algoritmo.

 

Esses métodos não exigem que já se tenha um número inicial de clusters e são considerados inflexíveis uma vez que não se pode trocar um elemento de grupo. Eles podem ser classificados em dois tipos: Aglomerativos e Divisivos.

  • Métodos Aglomerativos: nesse caso, todos os elementos começam separados e vão sendo agrupados em etapas, um a um, até que tenhamos um único cluster com todos os elementos. O número ideal de clusters é escolhido dentre todas as opções.
  • Métodos Divisivos: no método divisivo todos os elementos começam juntos em um único cluster, e vão sendo separados um a um, até que cada elemento seja seu próprio cluster. Assim como no método aglomerativo, escolhemos o número ótimo de clusters dentre todas as possíveis combinações.

Os métodos não-hierárquicos da análise de cluster são caracterizados pela necessidade de definir uma partição inicial e pela flexibilidade, uma vez que os elementos podem ser trocados de grupo durante a execução do algoritmo.

O procedimento geral adotado para os métodos não hierárquicos é:

  • escolher uma partição inicial (baseada em conhecimentos anteriores do problema);
  • realizar o deslocamento do objeto de seu grupo para outros grupos;
  • verificar o valor do critério utilizado, decidindo pela clusterização que apresentar melhoria.

Esse processo é repetido até que não se obtenha mais nenhuma melhoria com os deslocamentos. Os métodos das k-médias e o Fuzzy c-Médias são alguns exemplos conhecidos desses métodos, que tem como vantagem a possibilidade de mover um elemento de um cluster para o outro, o que não é possível no método hierárquico.

 

Usualmente, os métodos não hierárquicos são mais eficientes na análise de bancos de dados com maior número de observações.

 

 

Gabarito: Letra D

O método das k-médias é um algoritmo de agrupamento (clustering) que visa dividir um conjunto de dados em k clusters, onde k é um número pré-especificado. Aqui está um resumo do funcionamento do método das k-médias:

Inicialização:

  • Escolha aleatoriamente k pontos no conjunto de dados como os centros iniciais dos clusters. Esses pontos são chamados de centróides.

Atribuição:

  • Associe cada ponto de dados ao centróide mais próximo. Isso cria k clusters iniciais.

Atualização:

  • Recalcule os centróides de cada cluster, usando a média dos pontos pertencentes a esse cluster.

Iteração:

  • Repita os passos 2 e 3 até que os centróides não mudem significativamente ou até que um número máximo de iterações seja atingido.

O método busca minimizar a variabilidade intra-cluster (a variabilidade dos pontos dentro de um cluster) e maximizar a variabilidade inter-cluster (a variabilidade entre clusters).

Quanto à afirmativa IV da sua pergunta, ela está correta. No método das k-médias, é necessário decidir previamente em quantos grupos (k) o conjunto de unidades será dividido, pois isso influenciará diretamente nos centróides iniciais e no número final de clusters.

A afirmativa "A suposição de normalidade dos dados é fundamental na análise de agrupamento" é geralmente falsa. A análise de agrupamento, ou clustering, é uma técnica que se concentra na identificação de padrões de similaridade entre os dados, independentemente de sua distribuição. Diferentemente de técnicas paramétricas, como a análise de variância (ANOVA) ou a regressão linear, a análise de agrupamento não assume que os dados seguem uma distribuição normal.

A maioria dos métodos de análise de agrupamento, como o método das k-médias, hierárquicos, DBSCAN, entre outros, não requerem que os dados sigam uma distribuição normal. Esses métodos são não paramétricos e baseiam-se em medidas de dissimilaridade ou similaridade entre os pontos de dados.

No entanto, é importante observar que a escolha da métrica de dissimilaridade ou similaridade pode influenciar os resultados da análise de agrupamento. Alguns métodos podem ser sensíveis à escala das variáveis, e a normalização ou padronização dos dados pode ser útil nesses casos. Além disso, a interpretação dos resultados também pode depender da natureza dos dados e da escolha apropriada de métricas.

Em resumo, a suposição de normalidade dos dados não é fundamental na análise de agrupamento, mas é necessário considerar outras questões relacionadas à escala e à escolha das métricas para garantir interpretações adequadas.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo