Analise as assertivas abaixo sobre o método de agrupamento k...

Próximas questões
Com base no mesmo assunto
Q2172377 Banco de Dados
Analise as assertivas abaixo sobre o método de agrupamento k-means:
I. Dada uma coleção de objetos, cada um com n atributos, k-means é um método que, para I - um valor escolhido de k, identifica k grupos de objetos com base na proximidade dos objetos com relação ao centroide do grupo. O centro é determinado como a média do vetor n-dimensional de atributos de cada grupo.
II. Por ser um método supervisionado, o K-means ajuda a excluir a subjetividade das análises.
III. K-means é um método para definir agrupamentos. Uma vez que os agrupamentos e os seus centroides são identificados, é fácil classificar novos objetivos para um cluster baseado na distância do objeto do centroide mais próximo.
Quais estão corretas?
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

A alternativa correta é a C - Apenas I e III. Vamos entender o porquê:

O k-means é um popular método de agrupamento (ou clustering) utilizado em Data Mining. O objetivo do método é particionar um conjunto de dados em k grupos distintos. Para cada grupo é calculado um ponto central, chamado de centroide, que é a média de todos os pontos no grupo. Assim, cada objeto é atribuído ao grupo cujo centroide é o mais próximo, minimizando a soma das distâncias quadradas de cada objeto ao centroide do seu grupo.

A primeira assertiva (I) está correta porque descreve exatamente como o método k-means opera. Ele identifica k grupos baseando-se na proximidade dos objetos em relação ao centroide do grupo, que é determinado pela média dos atributos dos objetos do grupo. Note que a questão menciona que cada objeto tem n atributos, o que é comum em conjunto de dados multidimensionais.

A segunda assertiva (II) está incorreta porque afirma que o k-means é um método supervisionado. Na verdade, k-means é um método não supervisionado, pois ele não requer nenhum dado de treino etiquetado ou classificado previamente. Sua função é descobrir a estrutura nos dados por meio da formação dos grupos de forma automática.

A terceira assertiva (III) está correta porque uma vez que os grupos são definidos pelo k-means, é realmente simples classificar novos objetos atribuindo-os ao grupo cujo centroide é o mais próximo. Isso facilita a tarefa de categorizar novas observações em conjuntos de dados já existentes.

Portanto, com base na análise das assertivas, confirmamos que a alternativa C é a que apresenta as duas assertivas corretas.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Gabarito: C

I. Dada uma coleção de objetos, cada um com n atributos, k-means é um método que, para I - um valor escolhido de k, identifica k grupos de objetos com base na proximidade dos objetos com relação ao centroide do grupo. O centro é determinado como a média do vetor n-dimensional de atributos de cada grupo. (Certo)

II. Por ser um método supervisionado, o K-means ajuda a excluir a subjetividade das análises. (Errado)

K-means é não supervisionado.

III. K-means é um método para definir agrupamentos. Uma vez que os agrupamentos e os seus centroides são identificados, é fácil classificar novos objetivos para um cluster baseado na distância do objeto do centroide mais próximo. (Certo)

Ou seja, bastava saber que o K-means é não supervisionado que você acertava a questão.

O Plano é não desistir!!

c-

k-means - nao-supervisionado

Its an unsupervised learning algorithm, meaning it is used to find patterns or groupings in data without any prior knowledge of the labels.

O k-means é um algoritmo de agrupamento (clustering) não supervisionado usado para particionar um conjunto de dados em k grupos ou clusters, onde k é um parâmetro escolhido pelo usuário. O objetivo principal do k means é dividir os dados em clusters de forma que os pontos dentro de cada cluster sejam o mais parecidos possíveis (ou seja, com pequena variância interna) e os clusters diferentes sejam tão distintos quanto possíveis.

Como o K-means funciona?

1- Escolha o número de clusters k, ou seja, a quantidade de grupos que deseja formar.

2- Inicialização do centroide - O algoritmo começa selecionado k pontos iniciais (centroides) de forma aleatória no espaço dos dados. Esses pontos aturarão inicialmente como centro dos clusters.

O que é um centroide? é o ponto médio ou o "centro de massa" de um conjunto de pontos em um espaço de múltiplas dimensões. Ele é calculado como a média aritmética de todas as coordenadas dos pontos pertencentes a um grupo ou cluster. No K-means, o centroide é o ponto central de cada cluster e é usado como referência para determinar quais pontos pertencem a esse cluster.

3- Atribuição dos pontos aos clusters - Aqui cada ponto do conjunto de dados é atribuído ao cluster cujo centroide está mais próximo, usando uma medida de distância, geralmente a distância euclidiana.

Dito isso, vamos analisar as afirmativas:

I. Dada uma coleção de objetos, cada um com n atributos, k-means é um método que, para I - um valor escolhido de k, identifica k grupos de objetos com base na proximidade dos objetos com relação ao centroide do grupo. O centro é determinado como a média do vetor n-dimensional de atributos de cada grupo.

Certo - Como falado acima, o centroide é calculado como a média aritmética de todas as coordenadas dos pontos pertencentes a um grupo ou cluster.

Ex.: Se tivermos três pontos em 2D:

P1(2,3); P2(4,6); P3(3,5) - O centroide seria calculado como

Centroide x = (2+4+6)/3 =3

Centroide y = (3+6+5) /3 = 4,67

Assim, o centroide desses três pontos seria C (4, 4.67)

II. Por ser um método supervisionado, o K-means ajuda a excluir a subjetividade das análises.

Errado - Como descrito acima, o K-means é um método não supervisionado. No entanto, ele apresenta certa subjetividade, pois depende de quais são os atributos que serão analisados para que o agrupamento seja feito. Lembrando que um mesmo grupo de pessoas(homens, mulheres, crianças, adultos, idosos) pode ser dividido em gênero (homem, mulher), faixa etária (jovem, adulto e idosos).

III. K-means é um método para definir agrupamentos. Uma vez que os agrupamentos e os seus centroides são identificados, é fácil classificar novos objetivos para um cluster baseado na distância do objeto do centroide mais próximo.

Certo - Essa afirmativa é excelente, pois caracteriza o que é o k-means. Ele tenta agrupar os dados com o máximo possível de semelhantes intra-grupos, e com a maior diferença entre dados de grupos diferentes.

Gabarito: C

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo