Questões de Concurso Público SEBRAE-NACIONAL 2024 para Analista Técnico II – Cientista de Dados
Foram encontradas 50 questões
Um modelo de regressão linear múltipla com dez coeficientes foi ajustado pelo método de mínimos quadrados ordinários, tendo produzido um coeficiente de determinação (R2) igual a 80%.
Nessa hipótese, caso o tamanho da amostra utilizado para esse ajuste tenha sido igual a 46, então o valor correspondente do coeficiente conhecido como “R2 ajustado” deve ter sido igual a
Supondo-se que a variável aleatória X possa assumir valores 0, 1, 2 ou 3 conforme a função de distribuição de probabilidade P(X = h) = na qual h ∈ {0, 1, 2, 3}, é correto afirmar que o valor esperado de X seja igual a
Se N for uma variável aleatória que siga uma distribuição normal com média igual a 10 e desvio padrão igual a 5 e se Z =, então a probabilidade de ocorrência do evento “Z = 1,96” será igual a
O conjunto de dados {0, 4, 3, 3, 0} é uma realização de uma amostra aleatória simples retirada de uma população binomial com parâmetros n e p, sendo n = 4 e p uma probabilidade desconhecida.
Com base nessas informações, é correto afirmar que a estimativa de máxima verossimilhança para a probabilidade de ocorrência do valor 2 na população em questão é igual a
10 ± 4 representa a estimativa intervalar de 95% de confiança para a média de uma população normal, tendo sido obtida a partir de uma amostra aleatória de tamanho n . Para a obtenção dessa estimativa, considerou-se que a variância populacional fosse conhecida. Em novo levantamento feito sobre essa mesma população, mas, dessa vez, tendo-se quadruplicado o tamanho da amostra (4n), foi obtida média amostral igual a 8.
Nesse caso, se 8 ± ε representar a nova estimativa intervalar de 95% de confiança para a média dessa população, é correto afirmar que ε deverá ser igual a
O seguinte código Python utiliza o algoritmo KNN (k-nearest neighbors) para classificação, em que o parâmetro define o número de vizinhos que o classificador KNN irá considerar para realizar a previsão.
Com base no código precedente, é correto afirmar que, caso o valor de fosse alterado de 3 para 4, o modelo
Considerando a figura precedente, assinale a opção correta em
relação ao algoritmo de SVM (support vector machine).
Em aprendizado de máquina, especialmente em algoritmos de árvores de decisão, é fundamental avaliar como os dados são organizados e classificados em diferentes níveis da árvore. Três conceitos-chave que auxiliam na construção e otimização dessas árvores são o gini impurity, a entropy e o information gain. A respeito desses conceitos, julgue os itens a seguir.
I Gini impurity mede a redução da entropy após a divisão de um conjunto de dados com base em um atributo.
II Entropy mede a quantidade de incerteza ou impureza no conjunto de dados.
III Information gain mede a probabilidade de uma nova instância ser classificada incorretamente, com base na distribuição de classes no conjunto de dados.
Assinale a opção correta.
Em relação aos conceitos do algoritmo k-means, julgue os itens a seguir.
I É importante continuar as iterações do algoritmo k-means até que a mudança na posição dos centroides entre as iterações seja menor que um limite predefinido.
II No coeficiente de silhueta, quanto mais próximo o coeficiente estiver de 1, menor a distância entre os clusters; 0 indica que os dados podem estar no cluster errado; valores negativos sugerem que o ponto está na borda.
III Apesar de um maior número clusters sempre reduzir o SSE (sum of squared errors), isso não significa que mais clusters sempre sejam melhores, pois um número muito grande de clusters pode levar a overfitting do modelo.
Assinale a opção correta.
A respeito da linguagem R, é correto afirmar que
Considerando o código precedente, escrito em Python, assinale a
opção que corresponde à sua correta execução.
Assinale a opção que corresponde à correta execução do código
precedente, escrito em Python.
Assinale a opção correta a respeito da implantação de um modelo
de classificação de árvore de decisão em Python.
Caso um cientista de dados precise extrair, transformar e
analisar grandes volumes de dados em um banco de dados
relacional, usando SQL, a prática mais recomendável para
garantir que as operações de análise sejam eficientes e precisas
consiste em
Texto 14A3
Em certa base de dados de e-commerce, as tabelas e possuem as seguintes estruturas:
Um cientista de dados precisa analisar o comportamento de compra dos clientes na base de dados descrita no texto 14A3. O objetivo dessa análise é calcular o valor total gasto por cliente em pedidos feitos no mês anterior ao atual.
Com base nessa situação hipotética, assinale a opção em que
consta o comando que executará corretamente o cálculo
requerido.
Texto 14A3
Em certa base de dados de e-commerce, as tabelas e possuem as seguintes estruturas:
Assinale a opção em que é indicada a consulta SQL que, na base
de dados descrita no texto 14A3, retorna o nome dos clientes e o
valor total de seus pedidos, apenas para aqueles que tenham
realizado mais de 5 pedidos no ano de 2023.
Um analista está criando um dashboard no Power BI para visualizar as vendas mensais de uma empresa e necessita criar uma medida que calcule a média móvel de 3 meses de vendas.
Nessa situação, a fórmula DAX mais adequada para a tarefa
mencionada é