Analise as assertivas abaixo sobre o método de agrupamento k...
I. Dada uma coleção de objetos, cada um com n atributos, k-means é um método que, para I - um valor escolhido de k, identifica k grupos de objetos com base na proximidade dos objetos com relação ao centroide do grupo. O centro é determinado como a média do vetor n-dimensional de atributos de cada grupo.
II. Por ser um método supervisionado, o K-means ajuda a excluir a subjetividade das análises.
III. K-means é um método para definir agrupamentos. Uma vez que os agrupamentos e os seus centroides são identificados, é fácil classificar novos objetivos para um cluster baseado na distância do objeto do centroide mais próximo.
Quais estão corretas?
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
A alternativa correta é a C - Apenas I e III. Vamos entender o porquê:
O k-means é um popular método de agrupamento (ou clustering) utilizado em Data Mining. O objetivo do método é particionar um conjunto de dados em k grupos distintos. Para cada grupo é calculado um ponto central, chamado de centroide, que é a média de todos os pontos no grupo. Assim, cada objeto é atribuído ao grupo cujo centroide é o mais próximo, minimizando a soma das distâncias quadradas de cada objeto ao centroide do seu grupo.
A primeira assertiva (I) está correta porque descreve exatamente como o método k-means opera. Ele identifica k grupos baseando-se na proximidade dos objetos em relação ao centroide do grupo, que é determinado pela média dos atributos dos objetos do grupo. Note que a questão menciona que cada objeto tem n atributos, o que é comum em conjunto de dados multidimensionais.
A segunda assertiva (II) está incorreta porque afirma que o k-means é um método supervisionado. Na verdade, k-means é um método não supervisionado, pois ele não requer nenhum dado de treino etiquetado ou classificado previamente. Sua função é descobrir a estrutura nos dados por meio da formação dos grupos de forma automática.
A terceira assertiva (III) está correta porque uma vez que os grupos são definidos pelo k-means, é realmente simples classificar novos objetos atribuindo-os ao grupo cujo centroide é o mais próximo. Isso facilita a tarefa de categorizar novas observações em conjuntos de dados já existentes.
Portanto, com base na análise das assertivas, confirmamos que a alternativa C é a que apresenta as duas assertivas corretas.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Gabarito: C
I. Dada uma coleção de objetos, cada um com n atributos, k-means é um método que, para I - um valor escolhido de k, identifica k grupos de objetos com base na proximidade dos objetos com relação ao centroide do grupo. O centro é determinado como a média do vetor n-dimensional de atributos de cada grupo. (Certo)
II. Por ser um método supervisionado, o K-means ajuda a excluir a subjetividade das análises. (Errado)
K-means é não supervisionado.
III. K-means é um método para definir agrupamentos. Uma vez que os agrupamentos e os seus centroides são identificados, é fácil classificar novos objetivos para um cluster baseado na distância do objeto do centroide mais próximo. (Certo)
Ou seja, bastava saber que o K-means é não supervisionado que você acertava a questão.
O Plano é não desistir!!
c-
k-means - nao-supervisionado
Its an unsupervised learning algorithm, meaning it is used to find patterns or groupings in data without any prior knowledge of the labels.
O k-means é um algoritmo de agrupamento (clustering) não supervisionado usado para particionar um conjunto de dados em k grupos ou clusters, onde k é um parâmetro escolhido pelo usuário. O objetivo principal do k means é dividir os dados em clusters de forma que os pontos dentro de cada cluster sejam o mais parecidos possíveis (ou seja, com pequena variância interna) e os clusters diferentes sejam tão distintos quanto possíveis.
Como o K-means funciona?
1- Escolha o número de clusters k, ou seja, a quantidade de grupos que deseja formar.
2- Inicialização do centroide - O algoritmo começa selecionado k pontos iniciais (centroides) de forma aleatória no espaço dos dados. Esses pontos aturarão inicialmente como centro dos clusters.
O que é um centroide? é o ponto médio ou o "centro de massa" de um conjunto de pontos em um espaço de múltiplas dimensões. Ele é calculado como a média aritmética de todas as coordenadas dos pontos pertencentes a um grupo ou cluster. No K-means, o centroide é o ponto central de cada cluster e é usado como referência para determinar quais pontos pertencem a esse cluster.
3- Atribuição dos pontos aos clusters - Aqui cada ponto do conjunto de dados é atribuído ao cluster cujo centroide está mais próximo, usando uma medida de distância, geralmente a distância euclidiana.
Dito isso, vamos analisar as afirmativas:
I. Dada uma coleção de objetos, cada um com n atributos, k-means é um método que, para I - um valor escolhido de k, identifica k grupos de objetos com base na proximidade dos objetos com relação ao centroide do grupo. O centro é determinado como a média do vetor n-dimensional de atributos de cada grupo.
Certo - Como falado acima, o centroide é calculado como a média aritmética de todas as coordenadas dos pontos pertencentes a um grupo ou cluster.
Ex.: Se tivermos três pontos em 2D:
P1(2,3); P2(4,6); P3(3,5) - O centroide seria calculado como
Centroide x = (2+4+6)/3 =3
Centroide y = (3+6+5) /3 = 4,67
Assim, o centroide desses três pontos seria C (4, 4.67)
II. Por ser um método supervisionado, o K-means ajuda a excluir a subjetividade das análises.
Errado - Como descrito acima, o K-means é um método não supervisionado. No entanto, ele apresenta certa subjetividade, pois depende de quais são os atributos que serão analisados para que o agrupamento seja feito. Lembrando que um mesmo grupo de pessoas(homens, mulheres, crianças, adultos, idosos) pode ser dividido em gênero (homem, mulher), faixa etária (jovem, adulto e idosos).
III. K-means é um método para definir agrupamentos. Uma vez que os agrupamentos e os seus centroides são identificados, é fácil classificar novos objetivos para um cluster baseado na distância do objeto do centroide mais próximo.
Certo - Essa afirmativa é excelente, pois caracteriza o que é o k-means. Ele tenta agrupar os dados com o máximo possível de semelhantes intra-grupos, e com a maior diferença entre dados de grupos diferentes.
Gabarito: C
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo