Questões de Concurso Público SEBRAE-NACIONAL 2024 para Analista Técnico II – Cientista de Dados

Foram encontradas 50 questões

Q3015567 Estatística

    Um modelo de regressão linear múltipla com dez coeficientes foi ajustado pelo método de mínimos quadrados ordinários, tendo produzido um coeficiente de determinação (R2) igual a 80%.


Nessa hipótese, caso o tamanho da amostra utilizado para esse ajuste tenha sido igual a 46, então o valor correspondente do coeficiente conhecido como “R2 ajustado” deve ter sido igual a

Alternativas
Q3015568 Estatística

Supondo-se que a variável aleatória X possa assumir valores 0, 1, 2 ou 3 conforme a função de distribuição de probabilidade P(X = h)Imagem associada para resolução da questão na qual h ∈ {0, 1, 2, 3}, é correto afirmar que o valor esperado de X seja igual a

Alternativas
Q3015569 Estatística

Se N for uma variável aleatória que siga uma distribuição normal com média igual a 10 e desvio padrão igual a 5 e se Z =Imagem associada para resolução da questão, então a probabilidade de ocorrência do evento “Z = 1,96” será igual a

Alternativas
Q3015570 Estatística

    O conjunto de dados {0, 4, 3, 3, 0} é uma realização de uma amostra aleatória simples retirada de uma população binomial com parâmetros n e p, sendo n = 4 e p uma probabilidade desconhecida.


Com base nessas informações, é correto afirmar que a estimativa de máxima verossimilhança para a probabilidade de ocorrência do valor 2 na população em questão é igual a

Alternativas
Q3015571 Estatística

    10 ± 4 representa a estimativa intervalar de 95% de confiança para a média de uma população normal, tendo sido obtida a partir de uma amostra aleatória de tamanho n . Para a obtenção dessa estimativa, considerou-se que a variância populacional fosse conhecida. Em novo levantamento feito sobre essa mesma população, mas, dessa vez, tendo-se quadruplicado o tamanho da amostra (4n), foi obtida média amostral igual a 8.


Nesse caso, se 8 ± ε representar a nova estimativa intervalar de 95% de confiança para a média dessa população, é correto afirmar que ε deverá ser igual a

Alternativas
Q3015572 Programação

     O seguinte código Python utiliza o algoritmo KNN (k-nearest neighbors) para classificação, em que o parâmetro Imagem associada para resolução da questão define o número de vizinhos que o classificador KNN irá considerar para realizar a previsão.

  Imagem associada para resolução da questão


Com base no código precedente, é correto afirmar que, caso o valor de Imagem associada para resolução da questão fosse alterado de 3 para 4, o modelo

Alternativas
Q3015573 Algoritmos e Estrutura de Dados

Imagem associada para resolução da questão


Considerando a figura precedente, assinale a opção correta em relação ao algoritmo de SVM (support vector machine). 

Alternativas
Q3015574 Algoritmos e Estrutura de Dados

    Em aprendizado de máquina, especialmente em algoritmos de árvores de decisão, é fundamental avaliar como os dados são organizados e classificados em diferentes níveis da árvore. Três conceitos-chave que auxiliam na construção e otimização dessas árvores são o gini impurity, a entropy e o information gain. A respeito desses conceitos, julgue os itens a seguir.


I Gini impurity mede a redução da entropy após a divisão de um conjunto de dados com base em um atributo.


II Entropy mede a quantidade de incerteza ou impureza no conjunto de dados.


III Information gain mede a probabilidade de uma nova instância ser classificada incorretamente, com base na distribuição de classes no conjunto de dados.


Assinale a opção correta.

Alternativas
Q3015575 Algoritmos e Estrutura de Dados
A respeito dos diferentes tipos de algoritmos naive Bayes, assinale a opção correta. 
Alternativas
Q3015576 Algoritmos e Estrutura de Dados
Assinale a opção em que é apresentado exemplo no qual o uso prático do gaussian naive Bayes é mais apropriado.
Alternativas
Q3015577 Algoritmos e Estrutura de Dados

Em relação aos conceitos do algoritmo k-means, julgue os itens a seguir.


I É importante continuar as iterações do algoritmo k-means até que a mudança na posição dos centroides entre as iterações seja menor que um limite predefinido.


II No coeficiente de silhueta, quanto mais próximo o coeficiente estiver de 1, menor a distância entre os clusters; 0 indica que os dados podem estar no cluster errado; valores negativos sugerem que o ponto está na borda.


III Apesar de um maior número clusters sempre reduzir o SSE (sum of squared errors), isso não significa que mais clusters sempre sejam melhores, pois um número muito grande de clusters pode levar a overfitting do modelo.


Assinale a opção correta. 

Alternativas
Q3015578 Programação

A respeito da linguagem R, é correto afirmar que  

Alternativas
Q3015579 Programação

Imagem associada para resolução da questão


Considerando o código precedente, escrito em Python, assinale a opção que corresponde à sua correta execução.

Alternativas
Q3015580 Programação

Imagem associada para resolução da questão



Assinale a opção que corresponde à correta execução do código precedente, escrito em Python. 

Alternativas
Q3015581 Programação

Assinale a opção correta a respeito da implantação de um modelo de classificação de árvore de decisão em Python.

Alternativas
Q3015582 Banco de Dados

    Caso um cientista de dados precise extrair, transformar e analisar grandes volumes de dados em um banco de dados relacional, usando SQL, a prática mais recomendável para garantir que as operações de análise sejam eficientes e precisas consiste em

Alternativas
Q3015583 Banco de Dados

Texto 14A3


Em certa base de dados de e-commerce, as tabelas  e  possuem as seguintes estruturas:



    Um cientista de dados precisa analisar o comportamento de compra dos clientes na base de dados descrita no texto 14A3. O objetivo dessa análise é calcular o valor total gasto por cliente em pedidos feitos no mês anterior ao atual.


Com base nessa situação hipotética, assinale a opção em que consta o comando que executará corretamente o cálculo requerido. 

Alternativas
Q3015584 Banco de Dados

Texto 14A3


Em certa base de dados de e-commerce, as tabelas  e  possuem as seguintes estruturas:



Assinale a opção em que é indicada a consulta SQL que, na base de dados descrita no texto 14A3, retorna o nome dos clientes e o valor total de seus pedidos, apenas para aqueles que tenham realizado mais de 5 pedidos no ano de 2023.

Alternativas
Q3015585 Banco de Dados

    Um analista está criando um dashboard no Power BI para visualizar as vendas mensais de uma empresa e necessita criar uma medida que calcule a média móvel de 3 meses de vendas.


Nessa situação, a fórmula DAX mais adequada para a tarefa mencionada é 

Alternativas
Q3015586 Banco de Dados
A respeito das semelhanças e diferenças entre o Power BI e o Qlik Sense na construção de dashboards, assinale a opção correta.
Alternativas
Respostas
21: C
22: B
23: A
24: D
25: C
26: B
27: A
28: A
29: D
30: A
31: C
32: A
33: A
34: C
35: B
36: A
37: C
38: D
39: A
40: C