Questões de Concurso
Sobre análise multivariada em estatística
Foram encontradas 135 questões
Um estudo de análise fatorial considerou um conjunto de dados constituído por cinco variáveis. Restringindo-se aos dois primeiros fatores, a tabela a seguir mostra as cargas fatoriais correspondentes a essas variáveis e as respectivas comunalidades.
As comunalidades c1 e c2 são iguais.
Julgue o item que se segue, relativo a análise multivariada.
Em uma análise de componente principal (PCA), o primeiro
componente principal será aquele determinado pelo autovetor
do maior autovalor entre aqueles da matriz de variâncias e
covariâncias do conjunto em análise.
A respeito das medidas de similaridade e dissimilaridade no âmbito da teoria de análise de agrupamentos (cluster), considere as seguintes afirmativas:
1. A distância de Minkowsky entre dois pontos Xl e Xk é muito mais afetada pela presença de valores discrepantes na amostra do que a distância euclidiana. Para λ = 1, a distância de Minkowsky é conhecida como city-block ou Manhattan.
2. O coeficiente de concordância positiva é definido como o número de pares realmente concordantes em relação ao número total de pares. Quanto maior o seu valor, maior é a concordância entre os elementos comparados, razão pela qual é um índice de similaridade.
3. A distância euclidiana média revela que, quanto menor o valor da distância, maior será a similaridade dos elementos comparados; portanto é um índice de discordância ou de dissimilaridade.
4. O coeficiente de Jaccard tem o mesmo objetivo que o coeficiente de concordância positiva. A diferença é que a proporção de pares concordantes é calculada em relação ao número total de pares, excluindo-se os pares do tipo (0 0).
Assinale a alternativa correta.
I. A análise fatorial é, geralmente, aplicada sobre variáveis métricas, apesar de existirem métodos especiais para o emprego dessa técnica a variáveis dicotômicas. II. Na análise discriminante, a variável dependente deve ser não métrica e as variáveis independentes devem indicar diferenças entre, pelo menos, dois grupos. III. A análise de correspondência não é adequada para pesquisa aleatória e não é sensível a observações atípicas. IV. Na análise de agrupamentos, as medidas de similaridade mais utilizadas são as correlacionais.
Está correto o que consta APENAS em
matriz de correlação:
sdmed salário tempo idade
sdmed 1,00000000 0,93303483 0,6038786 -0,01126878salário 0,93303483 1,00000000 0,5845924 0,06371626
tempo 0,60387857 0,58459235 1,0000000 0,49093437idade -0,01126878 0,06371626 0,4909344 1,00000000
comp. 1 comp. 2 comp. 3 comp. 4
padrão 1,576085 1,0866016 0,52563869 0,24281048
proporção davariância 0,621011 0,2951758 0,06907401 0,01473923
proporçãoacumulada 0,621011 0,9161868 0,98526077 1,00000000
comp.1 comp.2 comp.3 comp.4
sdmed 0,582 0,322 0,145 0,733salário 0,584 0,271 0,390 -0,659
tempo 0,532 -0,338 -0,767 -0,122idade 0,196 -0,842 0,488 0,117
matriz de correlação:
sdmed salário tempo idade
sdmed 1,00000000 0,93303483 0,6038786 -0,01126878salário 0,93303483 1,00000000 0,5845924 0,06371626
tempo 0,60387857 0,58459235 1,0000000 0,49093437idade -0,01126878 0,06371626 0,4909344 1,00000000
comp. 1 comp. 2 comp. 3 comp. 4
padrão 1,576085 1,0866016 0,52563869 0,24281048
proporção davariância 0,621011 0,2951758 0,06907401 0,01473923
proporçãoacumulada 0,621011 0,9161868 0,98526077 1,00000000
comp.1 comp.2 comp.3 comp.4
sdmed 0,582 0,322 0,145 0,733salário 0,584 0,271 0,390 -0,659
tempo 0,532 -0,338 -0,767 -0,122idade 0,196 -0,842 0,488 0,117
No que se refere aos métodos estatísticos de análise multivariada empregados na situação descrita acima, julgue o seguinte item.
Empregando-se a análise discriminante, é possível separar estatisticamente os usuários insatisfeitos daqueles que se consideram satisfeitos, com base nas características do usuário. Essa técnica é uma forma especializada de regressão em que se ajusta a probabilidade de um indivíduo pertencer a um grupo ou a outro grupo com base no seu perfil (como, por exemplo, idade, gênero, renda e escolaridade).
Considere:
I. O dendograma é uma representação gráfica útil na análise de agrupamentos que mostra como os agrupamentos são combinados em cada passo do procedimento.
II. Na análise fatorial os métodos de rotação têm por objetivo simplificar as linhas e colunas da matriz fatorial para facilitar a sua interpretação. Os métodos de rotação podem ser ortogonais ou oblíquos.
III. Sabe-se que a variável aleatória tem distribuição multivariada com vetor de medias μ e matriz de covariâncias V dadas por: μ = e V = . Sendo Z = 2X1 + X2, a variância de Z é igual a 9.
IV. As técnicas de análise multivariada podem ser classificadas como técnicas de dependência e de interdependência. A análise fatorial é uma técnica de interdependência.
Está correto o que se afirma APENAS em
I. Na análise de componentes principais, quando a distribuição de probabilidade do vetor em estudo é normal multivariada, as componentes principais além de não correlacionadas são também independentes e têm distribuição normal.
II. é a matriz de covariâncias do vetor aleatório X de dimensão (2X1), então a matriz de correlações de X é P =
III. Na análise fatorial, quando a suposição de ortogonalidade dos fatores não puder ser considerada, pode-se utilizar o recurso da transformação ortogonal dos fatores originais na tentativa de se obter uma estrutura mais simples de ser interpretada.
IV. A análise de agrupamentos trabalha com medidas de similaridade e dissimilaridade, não comportando por isso o uso de variáveis qualitativas.
Está correto o que se afirma APENAS em
Selecionou-se uma amostra aleatória simples, de tamanho 16, Y1 , Y2 , ..., Y16 , para se estudar uma característica tal que:
Sabe-se que ocorreram 10 sucessos.
A variância dessa amostra é
I. Na análise fatorial nenhuma variável é definida como dependente ou independente.
II. Na análise de agrupamentos deve haver bastante homogeneidade interna (dentro do agrupamento) em cada um dos agrupamentos resultantes.
III. Na análise de correlação canônica o princípio subjacente é desenvolver uma combinação linear de cada conjunto de variáveis dependentes e independentes para minimizar a correlação entre esses dois conjuntos.
IV. O escalamento multidimensional é uma técnica multivariada apropriada para representar n elementos em um espaço dimensional menor que o original, levando em consideração a similaridade que os elementos têm entre si.
Está correto o que consta APENAS em
( ) No modelo fatorial ortogonal, as variáveis não observáveis F e e são independentes, E(F) = 0, V(F) = E(F´F) = I, E(e) = 0, V(e) = E(e´e) = ?. A matriz ? é não diagonal, V(X) = S = L´L + ? e Cov (X, F) = L.
( ) Um método de estimação para as cargas do modelo fatorial ortogonal é através de componentes principais, onde se utiliza a decomposição espectral da matriz S.
( ) Para se utilizar o método de máxima verossimilhança para estimar as cargas, é acrescida a suposição de que F e e têm distribuição normal multivariada. As comunalidades (elementos da diagonal LL´) têm como estimadores a proporção da variância total estimada pelo particular fator.
( ) Para melhorar a explicação do modelo fatorial, sem alterar a ortogonalidade dos fatores, muitas vezes, usa- se uma transformação ortogonal das cargas fatoriais, que, consequentemente, transforma os fatores. Esse procedimento é conhecido como rotação fatorial.
( ) Dependendo da natureza dos dados, os fatores não precisam ser ortogonais. Assim, para melhorar a explicação do modelo fatorial, pode-se utilizar a rotação oblíqua, onde cada variável é expressa em termos de um número máximo de fatores.
A sequência está correta em
I. O primeiro componente principal, Z1 é dado pela combinação linear das variáveis originais X = [ X1 X2, ..., Xp] com maior variância possível.
II. Todos os componentes principais subsequentes são escolhidos para que não sejam correlacionados a todos os componentes principais anteriores.
III. Em razão de a análise de componentes principais buscar maximizar a variância, ela pode ser altamente sensível às diferenças de escala entre variáveis. Assim, é uma boa ideia padronizar os dados e representá-los por Xs.
IV. A solução para o problema dos componentes principais é obtida realizando-se uma decomposição de autovalor da matriz de correlação. Cada autovetor, indicado por Ui, representa a direção de um desses eixos principais. O vetor u controla os pesos usados para formar a combinação linear de Xs, que resulta em zi= Xs.Ui.
VI. No caso mais geral, só faz sentido utilizar a análise dos componentes principais quando os dados não são independentes. Barlett fornece um teste de qui- quadrado para determinar a esfericidade dos dados, 2 representado por X 2 = - [ n - 1 + (2p + 6)/5]ln | R|, com 2 (p2 - p)/2 graus de liberdade, onde p é o número de variáveis, n é o tamanho da amostra, e R é a matriz de correlação.
Dentre as seis afirmações dadas, quantas são falsas?
I. O estimador de intensidade é útil para nos fornecer uma visão geral da distribuição em primeira ordem dos eventos.
II. O kernel é dependente do raio e pode ser utilizado na avaliação da distribuição de eventos pontuais.
III. Akrigagem é um método de interpolação aplicado apenas para análises de dados quantitativos.
Está(ão) correta(s) a(s) afirmativa(s):