Questões de Estatística para Concurso

Foram encontradas 2.026 questões

Q1949126 Estatística
Para evitar a polarização dos modelos de aprendizado de máquina, as técnicas de balanceamento buscam equilibrar a quantidade de instâncias de cada classe do conjunto de dados. Dentre as diversas técnicas existentes, podemos citar: Seleção aleatória pela menor classe, Seleção por agrupamento pela menor classe e Replicação de instâncias. Sobre o assunto, analise as assertivas a seguir: 
I. Dado dois conjuntos de registros com N e M registros (onde N<<M) vinculados a duas classes, o balanceamento por seleção aleatória ocorre selecionando de forma aleatória N registros dentro do conjunto contendo M registros.
II. Dado dois conjuntos de registros com N e M registros (onde N<<M) vinculados a duas classes, o balanceamento por seleção de grupo ocorre selecionando por meio de uma técnica de agrupamento os N registros mais representativos dentro do conjunto contendo M registros.
III. Dado dois conjuntos de registros com N e M registros (onde N<<M) vinculados a duas classes, o balanceamento ocorre gerando artificialmente instâncias a partir das instâncias do conjunto contendo M registros (classe maioritária).
Quais estão INCORRETAS?

Alternativas
Q1949114 Estatística
Sobre os modelos de aprendizagem de máquina supervisionada, analise as assertivas abaixo e assinale a alternativa correta.
I. Em modelos de aprendizado de máquina do tipo classificação a ideia é prever variáveis categóricas, e numéricas.
II. Um exemplo básico de aprendizado de máquina supervisionado por classificação é o uso da regressão logística.
III. Os modelos de regressão não buscam encontrar como uma variável se comporta na medida em que outra variável sofre oscilações.
IV. Nos modelos de aprendizagem de máquina supervisionado, não temos uma variável específica a ser respondida, pois estamos apenas buscando encontrar os indivíduos, itens ou elementos semelhantes. 
Alternativas
Q1949113 Estatística
Antes mesmo de entrar na parte da estatística descritiva, após a coleta dos dados, é importante saber qual o tipo de dados que irá trabalhar. Em uma pesquisa, foram coletadas as seguintes variáveis de um total de 200 pessoas:

• Idade.
• Renda.
• Estado Civil.
• Escolaridade.
• Número de Aparelhos de TV na Residência.
• Grau de Satisfação sobre a TV a Cabo (1 – Péssimo a 5 – Ótimo).

A classificação correta dessas seis variáveis é:
Alternativas
Q1940376 Estatística
Em relação aos procedimentos técnicos relacionados aos procedimentos de amostragem, julgue os itens a seguir.
I Quando se adiciona variáveis explicativas no modelo de regressão linear, espera-se o incremento da estatística R2
II Ao se comparar modelos com diferentes quantidades de variáveis explicativas, deve-se analisar o valor de Rajustado. 
III O aumento de variáveis explicativas aumenta o R2 ajustado.
IV Ao se estimar um modelo com quatro variáveis explicativas e compará-lo com um modelo com três variáveis explicativas, escolhe-se o modelo que retornar o maior valor de R2 ajustado, tudo o mais constante.
Estão corretos apenas os itens
Alternativas
Q1936781 Estatística
Um analista é contratado para analisar dados de volume de suco de laranja produzido em duas fábricas da mesma empresa.
Suponha que sejam medidos 16 lotes na fábrica A e 61 lotes na fábrica B, e que as médias amostrais tenham sido A_bar = 104 e B_bar = 112, com somas de desvios quadráticos em relação à média S^2_A = 40.000 e S^2_B = 100.000, respectivamente.
A chefia quer saber se uma fábrica tem menor variabilidade em relação à outra.
O teste a ser usado e o valor da sua estatística de teste são, respectivamente:
Alternativas
Q1936779 Estatística
A chance de um evento que ocorre com probabilidade p é definida como c = p/(1-p).
Quando queremos entender a associação de um fator com um evento de interesse, em geral computamos a razão de chances, r = c_0/c_1, onde c_0 é a chance sem a exposição e c_1 é a chance com a exposição.
Suponha que um analista dispõe de um conjunto de dados binários Y = (Y_1,..., Y_n), com Y_i tomando valores em {0, 1} contendo o resultado de um teste de Covid-19 em n pacientes e que X = (X_1, ..., X_n) é um conjunto de covariáveis também binárias que indicam se o indivíduo foi (X_i = 1) ou não (X_i = 0) a uma festa nos últimos dez dias.
O analista quer determinar se a variável X está significativamente associada com o resultado do teste, Y.
Para tanto, ajusta um modelo de regressão logística utilizando Y como variável resposta, um termo de intercepto e X como covariável.
Ele obtém uma estimativa b0 para o intercepto, com erro padrão s0 e, para o coeficiente de X, uma estimativa b1 erro padrão s1.
O intervalo de confiança de 90% para a razão de chances é:
Alternativas
Ano: 2022 Banca: NC-UFPR Órgão: UFPR Prova: NC-UFPR - 2022 - UFPR - Estatístico |
Q1936135 Estatística
Numa pesquisa de opinião pública, uma amostra aleatória de tamanho n = 100 foi selecionada de uma população com o objetivo de estimar a proporção de indivíduos favoráveis a um projeto de lei. Na amostra, 50 indivíduos afirmaram ser favoráveis ao projeto. O erro padrão associado à proporção amostral de favoráveis é igual a: 
Alternativas
Q1934395 Estatística

Considere as duas listas de números a seguir.


Lista 1: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11


Lista 2: 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15


Sejam D1 e D2 os desvios padrão das Listas 1 e 2, respectivamente.


É correto concluir que

Alternativas
Q1933796 Estatística
Situação hipotética 12A3-I

   Deseja-se avaliar, por experimentos laboratoriais, amostras contendo uma mistura de proteínas e peptídeos, juntamente com outras moléculas, obtidas a partir de extratos vegetais. Em uma das etapas experimentais, os peptídeos foram enriquecidos nas amostras. Em outra etapa, a mistura de peptídeos foi diluída em ácido fórmico e submetida a uma análise cromatográfica e, em uma terceira etapa, peptídeos isolados por cromatografia foram analisados por espectrometria de massas. Sabe-se que em todas as amostras há um peptídeo de maior interesse, que é composto por 10 aminoácidos, sem repetições, e apresenta absorção máxima de luz no comprimento de onda de 215 nm.
    Com pertinência à situação hipotética 12A3-I, considere que amostras de 30 plantas nativas (chamadas de N), 30 plantas transgênicas (chamadas de T) e 30 plantas cultivadas em hidroponia (chamadas de H) tenham sido analisadas e tenha sido feita a quantificação da concentração em quantidade de matéria do peptídeo-alvo em cada amostra, com o objetivo de se determinar se há diferença estatisticamente significativa entre as plantas N, T e H. Observou-se que a distribuição dos valores de concentração do peptídeo é compatível com a distribuição normal, que as amostras foram obtidas de forma aleatória e independente e que há homogeneidade de variâncias.
Assinale a opção que corresponde ao teste estatístico que deve ser aplicado para detectar se há diferença significativa quanto à concentração do peptídeo entre quaisquer dos tipos de plantas, sendo este capaz de detectar a diferença se aplicado e calculado apenas uma vez, sem repetições do teste.
Alternativas
Q1933596 Estatística
No contexto da linguagem de programação R, analise as afirmativas a seguir.

I. Vetores (vectors) são listas de itens que devem ter o mesmo tipo.
II. R trabalha com vários tipos de dados (data types), numéricos, lógicos e textuais, mas as variáveis podem mudar de tipo mesmo depois da instanciação.
III. Os itens de uma lista (list) não podem ser substituídos. São permitidas apenas a inserção e a remoção de itens.

Está correto somente o que se afirma em:
Alternativas
Q1933594 Estatística
No contexto da linguagem de programação R, analise o código a seguir.

for (x in 1:10) {    if (x >= 4) {        print(x)        next }    if (x == 8) {break} }

O número de linhas exibidas pela execução desse código é:
Alternativas
Q1933592 Estatística
O método Latent Dirichlet Allocation (LDA) é popularmente utilizado para a construção de modelos de tópicos devido a sua flexibilidade e robustez, particularmente em grandes quantidades de texto. Ao mencionar a escolha do LDA em um projeto, um analista foi questionado sobre que aspectos caracterizam a flexibilidade do modelo, especialmente em comparação a um modelo pLSA.
O analista respondeu corretamente:
Alternativas
Q1933590 Estatística
A atividade de classificação de documentos envolve um grande número de tarefas de processamento de linguagem natural, o que pode levar a dúvidas quanto a sua aplicação.
A alternativa que contém apenas tarefas que sejam exemplos de classificação de documentos é:
Alternativas
Q1933585 Estatística
Em um trabalho de pesquisa, as idades das pessoas são: 23, 27, 32, 33, 34, 35, 36, 38, 42, 56 e 58. Deseja-se construir um boxplot similar ao gráfico a seguir. 

Imagem associada para resolução da questão

No boxplot acima, os valores das estatísticas nas posições indicadas pelas letras A, B, C, D, E e F são: 
Alternativas
Q1933584 Estatística
Uma prefeitura recebeu uma denúncia de que o número de autuações feitas pela equipe de fiscalização variava conforme o dia da semana. Para verificar a procedência da denúncia, as autuações foram agregadas por dia de semana, como mostra a tabela a seguir.

Segundas      6     Terças       12   Quartas       9   Quintas       8     Sextas      15   Sábados    13 Domingos    7

Realizando um teste estatístico adequado para verificar se essas autuações ocorrem com a mesma frequência, teremos: 
Alternativas
Q1933583 Estatística
Uma empresa recebeu um lote muito grande, milhões de peças de refugo, e deseja saber quantas peças deverá examinar para estimar a proporção de itens defeituosos, de modo que o erro de estimação seja no máximo 2%. Será empregada uma seleção aleatória de itens onde cada um será classificado como defeituoso ou não defeituoso. Deseja-se extrair uma amostra aleatória de tamanho n.
Tendo como padrão um grau de confiança de 95%, o tamanho da amostra necessário para garantir o processo é:
Alternativas
Q1933579 Estatística
Na avaliação de um modelo para detecção de fraude, foi utilizado um conjunto de dados conhecido que resultou na matriz de confusão abaixo.

Imagem associada para resolução da questão

É correto afirmar que o modelo apresenta:
Alternativas
Q1933577 Estatística
Seja x uma amostra aleatória de tamanho 12. Foram então geradas 10 amostras aleatórias com reposição de tamanho 12 de x e para cada uma delas foi calculada a mediana gerando os seguintes valores: 3, 4, 4, 4 ,4, 5, 5 ,6 ,7 e 8.
A estimativa do erro padrão da mediana amostral é, aproximadamente: 
Alternativas
Q1933575 Estatística
O tempo, em horas diárias, que homens com idades entre os 40 e 50 anos acessam redes sociais segue uma distribuição Normal com média 2,5 e desvio padrão 1,5. Para o mesmo grupo etário de mulheres, esse tempo segue também uma distribuição Normal com média 3 e desvio padrão 1. Serão retiradas duas amostras casuais e independentes, uma de homens e outra de mulheres.
O tamanho mínimo da amostra da população das mulheres que se pretende com probabilidade pelo menos 0,95 e cuja diferença em valor absoluto entre a média amostral e a média populacional não exceda 0,1 é, aproximadamente:
Alternativas
Q1933574 Estatística
É possível que o comportamento das bolsas de valores em determinado mês prediga o seu comportamento o ano inteiro. Considere que a variável explicativa X seja a variação percentual do índice da bolsa em janeiro e que a variável de resposta Y seja a variação desse índice para o ano inteiro. O cálculo feito com dados do período de 5 anos teve como resultados:

Imagem associada para resolução da questão

O percentual de variação observado nas alterações anuais do índice que é explicado pela relação linear com a alteração de janeiro é:
Alternativas
Respostas
741: B
742: C
743: D
744: A
745: E
746: A
747: D
748: A
749: B
750: D
751: B
752: A
753: C
754: A
755: A
756: E
757: D
758: B
759: D
760: C