Questões de Concurso Sobre análise de cluster em estatística

Foram encontradas 9 questões

Q3154825 Estatística
No campo da mineração de dados existem alguns problemas fundamentais que costumam aparecer com frequência em variados cenários de aplicação. O estudo desses problemas fornece ferramentas ao analista de dados que são aplicáveis em diferentes projetos de mineração de dados. Nesse conjunto se encontram os problemas de determinação de padrões, classificação de dados, segmentação de dados (clustering) e detecção de valores discrepantes (outliers).
Considerando os problemas citados, analise as afirmativas a seguir.

I. Em uma tabela binária esparsa, que representa uma base de dados de transações de clientes, em que as colunas representam cada produto e as linhas cada transação, verifica-se que, frequentemente, três das colunas apresentam simultaneamente o valor 1 para vários registros. Este tipo de análise é um problema de detecção de valores discrepantes.

II. A identificação de consumidores que são similares entre si, para uso no contexto de aplicação de promoções orientadas, constitui um problema de segmentação de dados.

III. O problema de classificação de dados pode ser considerado como supervisionado, pelo fato das relações entre as classes definidas e os demais atributos dos dados serem “aprendidas” pelo modelo.


Está correto o que se afirma em
Alternativas
Q2885036 Estatística

Os dados a seguir referem-se às questões de 26 a 29.

Para analisar o consumo de combustível de um automóvel foram efetuadas 7 viagens, tendo-se registrado a distância percorrida (km) e o consumo (l), obtendo-se, então, os 7 pares de valores seguintes:

As variáveis de agrupamento usadas numa Análise de Conglomerados pelos métodos k-means (quick cluster) e hierárquico são:

Alternativas
Q2567316 Estatística
Na Análise de Agrupamento, os grupos são formados com base em medidas de “proximidade - distância” ou “similaridade” entre os itens que podem ser representados por vetores aleatórios quando suas características são quantitativas. Os agrupamentos podem ser do tipo Aglomerativo Hierárquico e do tipo Não Hierárquico, sendo que Dendrograma do Método Aglomerativo Hierárquico pode ser feito usando 
Alternativas
Q2382972 Estatística
Considere o texto sobre economias de aglomeração no Brasil.

Quanto maior a escala da urbanização, maiores tendem a ser os ganhos de produtividade das firmas. Do mesmo modo, a maior diversidade de bens e serviços ofertados, de interações sociais e econômicas e de serviços públicos disponíveis para consumo da coletividade torna-se um diferencial de grande significado para a localização empresarial. Para o Brasil, no processo de desconcentração produtiva, mostrou-se que a localização de firmas industriais adquiriu um comportamento fortemente associado a economias de aglomeração dadas pelo estoque de infraestrutura e mão de obra qualificada: o tecido industrial tornou-se concentrado — e desconcentrou concentradamente — em uma grande porção do território entre o Sul e o Sudeste. Consideradas, de um lado, as motivações e lógicas do setor privado e os estímulos do mercado mundial e do território inercial do desenvolvimento brasileiro e, de outro lado, as motivações e os esforços governamentais, em sentido amplo, para atuação sobre novas geografias econômicas nacionais, identificam-se cinco tipos preferenciais de territórios predominantemente impactados e redefinidos pela potência das forças em atuação.
MONTEIRO NETO, A.; SILVA, R.; SEVERIAN, D. O território das atividades industriais no Brasil: a força das economias de aglomeração e urbanização. In: MONTEIRO NETO, A. (org.). Brasil, Brasis: reconfigurações territoriais da indústria no século XXI. Brasília, DF: Ipea, 2021, p. 256-258. Adaptado.

Na tipologia mencionada acima, encontram-se rearranjos territoriais que se prestam à análise das formas de aglomeração e os que concorrem para a desaglomeração.
Considerando-se especificamente os vetores que levam à concentração produtiva, identificam-se territórios predominantemente impactados e (re)definidos por
Alternativas
Q2353403 Estatística
A respeito da análise de conglomerados, analise as afirmativas a seguir.
I. Na execução do algoritmo K-means, é possível que a alocação de observações aos clusters não mude entre duas iterações sucessivas.
II. O uso de duas medidas de similaridade distintas pode produzir dois dendrogramas diferentes ao se aplicar um algoritmo de agrupamento aglomerativo para o mesmo conjunto de dados.
III. Em uma análise envolvendo duas variáveis, considere que, após a primeira iteração do algoritmo K-Means aplicado para agrupar sete observações em três clusters, C1, C2 e C3, obteve-se a seguinte configuração: C1={(2,2), (4,4), (6,6)}; C2={(0,4), (4,0)} e C3={(5,5), (9,9)}. Então, os respectivos centroides que darão seguimento à próxima iteração serão C1=(4,4), C2=(2,2) e C3=(7,7).
Está correto o que se afirma em
Alternativas
Q2214166 Estatística
Utilizou-se o método de agrupamento de Ward para separar em k=3 grupos, um conjunto de dados composto por n=230 elementos, tendo-se utilizado para agrupamento oito variáveis quantitativas medidas para cada elemento amostral. A partição resultou em valores de Soma de Quadrados entre grupos igual a 11.458,00 e Soma de Quadrados dentro dos grupos igual a 5.392,00.
Portanto, o valor do coeficiente de correlação intraclasse é igual a
Alternativas
Q2214159 Estatística
Uma análise de agrupamento (cluster) foi realizada pelo método de ligação completa. A distância euclidiana ao quadrado foi utilizada na comparação dos elementos amostrais. Três variáveis aleatórias foram medidas em cada elemento amostral. Na tabela 2 apresentam-se os valores observados de dois elementos da amostra.
                 Tabela 2. Dados da questão 40    Elemento        Variável 1       Variável 2       Variável 3    1                     2                     3                     2    2                    -2                     2                     3
O valor da distância entre esses dois elementos amostrais é igual a
Alternativas
Ano: 2013 Banca: NC-UFPR Órgão: UFPR Prova: NC-UFPR - 2013 - UFPR - Estatístico |
Q827153 Estatística

A respeito das medidas de similaridade e dissimilaridade no âmbito da teoria de análise de agrupamentos (cluster), considere as seguintes afirmativas:

1. A distância de Minkowsky entre dois pontos Xl e Xk é muito mais afetada pela presença de valores discrepantes na amostra do que a distância euclidiana. Para λ = 1, a distância de Minkowsky é conhecida como city-block ou Manhattan.

2. O coeficiente de concordância positiva é definido como o número de pares realmente concordantes em relação ao número total de pares. Quanto maior o seu valor, maior é a concordância entre os elementos comparados, razão pela qual é um índice de similaridade.

3. A distância euclidiana média revela que, quanto menor o valor da distância, maior será a similaridade dos elementos comparados; portanto é um índice de discordância ou de dissimilaridade.

4. O coeficiente de Jaccard tem o mesmo objetivo que o coeficiente de concordância positiva. A diferença é que a proporção de pares concordantes é calculada em relação ao número total de pares, excluindo-se os pares do tipo (0 0).

Assinale a alternativa correta.

Alternativas
Q417740 Estatística
Em relação à análise de agrupamentos, considere os seguintes critérios:

I. análise do nível de fusão;
II. análise do nível de similaridade;
III. análise do coeficiente R2 ;
IV. estatística pseudo F.

Para auxiliar na decisão do número final de grupos que define a partição dos dados, pode-se utilizar os critérios apresentados nas alternativas
Alternativas
Respostas
1: D
2: A
3: D
4: C
5: A
6: D
7: D
8: D
9: A