Questões de Concurso Público IPEA 2024 para Técnico de Planejamento e Pesquisa -Ciência de Dados

Foram encontradas 70 questões

Q2383238 Engenharia de Software
Outliers são pontos ou observações em um conjunto de dados que diferem significativamente da maioria dos demais outros pontos. Eles podem ser resultados de variações na medição, erros de entrada de dados ou, ainda, podem indicar uma variação genuína da fonte de coleta.
Em preparação para análise de um conjunto de dados, o tratamento de outliers
Alternativas
Q2383239 Banco de Dados
Considere o seguinte texto sobre integração de dados.
Como viabilizar o compartilhamento efetivo de dados e informações das cadeias agropecuárias entre instituições de governo e dessas com a sociedade? Esta foi a principal questão que os participantes do 1º Painel de Cadeias Agropecuárias e Dados Abertos buscaram responder na tarde de quinta-feira (2/12), durante webinar realizado pelo Instituto de Pesquisa Econômica Aplicada (Ipea). 
Disponível em: https://www.ipea.gov.br/portal/categorias/45-todas-as-noticias/noticias/11394-especialistas-debatem-abertura- -e-integracao-de-dados-de-cadeias-agropecuarias?highlight= WyJhYmFzdGVjaW1lbnRvIiwiYWd1YSIsIidcdTAwZTFndWEiLCJhZ3VhJywiXQ==. Acesso em: 5 jan. 2024.

Considerando-se o questionamento apresentado no texto e sabendo-se que, quando da integração de conjuntos de dados de múltiplas fontes, matching é uma questão relevante, o problema de identificação de entidades em múltiplas fontes de dados remete ao desafio de 
Alternativas
Q2383240 Algoritmos e Estrutura de Dados
Considere um conjunto de dados estruturados composto por colunas, que refletem as características desses dados, e por linhas, que combinam essas características.
No tratamento desses dados, o processo de enriquecimento consiste em
Alternativas
Q2383241 Programação
Fazendo seu primeiro programa na linguagem Scala, um programador experiente em Python criou o seguinte código:

Imagem associada para resolução da questão


De acordo com a especificação de Scala, a palavra-chave return, nesse caso, é
Alternativas
Q2383242 Programação
Em Python 3, existem várias formas de se imprimir um número float com um formato específico. Por exemplo, para imprimir o número 12.45667 aproximado para 1 casa decimal, isto é, como 12.5, é possível usar a formatação no estilo da linguagem C, como em
print("%.1f" % 12.45667)
Outra forma correta de, em Python, imprimir o número 12.45667 exatamente como 12.5 é
Alternativas
Q2383243 Banco de Dados
A paralelização em rotinas de ciência de dados traz benefícios importantes, especialmente quando é necessário tratar uma grande quantidade de dados.
O principal motivador para paralelizar uma rotina é
Alternativas
Q2383244 Programação
Considere a função em Python a seguir.
Imagem associada para resolução da questão


Qual função retorna os mesmos valores quando recebe uma lista de inteiros positivos?
Alternativas
Q2383245 Programação
Analise o seguinte programa em Python:

Imagem associada para resolução da questão

Quando esse programa for executado, sua saída será 
Alternativas
Q2383246 Programação
Em Python, a classe list implementa o conceito genérico de lista, que tem como uma de suas características permitir acessar cada item unicamente por um índice.
Outra propriedade importante das listas em Python é
Alternativas
Q2383247 Programação
Um analista de dados está utilizando R e o pacote ggplot2 para criar um gráfico XY apenas com pontos. Ele possui dois vetores, vetor_x e vetor_y, ambos com o mesmo tamanho, representando os valores dos eixos X e Y, respectivamente.
Uma forma correta de criar um gráfico XY básico, apenas com pontos, passando esses vetores como parâmetros é
Alternativas
Q2383248 Programação
Um cientista de dados está trabalhando com um conjunto de dados e usando a linguagem de programação R. O conjunto de dados, chamado dados, consiste em três colunas: ID, Idade e Salario, em que Idade indica um grupo de idade. O cientista de dados precisa calcular a média de Salario para cada grupo de idade. No entanto, ele deve realizar essa tarefa utilizando apenas as funções base do R, sem pacotes adicionais.
Qual função ou conjunto de funções do R ele deve usar para realizar essa tarefa de forma eficiente?
Alternativas
Q2383249 Programação
Um projeto de saúde utiliza a biblioteca Pandas, em Python, para analisar dados biométricos. O conjunto de dados é trabalhado em um DataFrame chamado saude_df, com várias colunas representando medidas típicas de saúde, como o peso e a pressão arterial. Cada linha representa o valor dessas medidas para uma pessoa.
Para selecionar aleatoriamente 20% das linhas do DataFrame e apenas as colunas Peso e Pressão Arterial, pode ser usada a expressão
Alternativas
Q2383250 Programação
Um cientista de dados recebeu um vetor chamado dados contendo valores da renda mensal da população de uma cidade e resolveu obter algumas estatísticas que descrevessem os dados recebidos.
A linha de código em R que calcula corretamente a média do vetor dados é
Alternativas
Q2383251 Programação
Na programação funcional, que é um paradigma suportado pela Linguagem Scala, uma das práticas fundamentais é o uso de funções puras.
A principal propriedade que caracteriza uma função pura é a(o)
Alternativas
Q2383252 Programação
Um programa em Python contém um vetor unidimensional, de tamanho 20, chamado vetor, criado com o Numpy. Deseja-se obter, em apenas uma expressão, uma matriz de 4 linhas e 5 colunas criada linha a linha a partir dos elementos desse vetor.
Para tal fim, a expressão a ser utilizada é
Alternativas
Q2383253 Programação
Python é dinamicamente tipado, o que significa que os tipos de variáveis são determinados em tempo de execução com base nos valores atribuídos, proporcionando flexibilidade durante o desenvolvimento. Essa dinamicidade permite a criação de código versátil e adaptável.
Nesse contexto, considere o seguinte trecho de código:

a = 5
b = 5
c = '5'
d = (a + b) + c

Qual é o resultado da variável d?
Alternativas
Q2383254 Programação
Uma lista é uma estrutura de dados versátil e fundamental usada para organizar e armazenar coleções de itens. As listas em Python oferecem uma maneira dinâmica e eficiente de lidar com sequências de itens. Por terem a capacidade de adicionar, remover e modificar elementos, essas listas desempenham um papel crucial em muitos programas em Python, tornando-se uma ferramenta essencial para tarefas que vão desde o armazenamento simples de dados até algoritmos mais complexos e manipulação de dados.
Nesse contexto, considere duas listas, L1 e L2, que foram implementadas em Python. As configurações iniciais dessas listas são as seguintes: 

L1 = [1, 2, 3]
L2 = [3, 4, 5]

Em seguida, foram feitas as seguintes operações:

L1.append(3)
L3 = L1
L3.append(7)
L1.append(8)
L4 = L1 + L2

Qual é o valor de L4?
Alternativas
Q2383255 Estatística
Em um estudo sobre tráfico de pessoas realizado pelo Ipea, os autores trazem as seguintes afirmações:

I - “Na medida em que haja desacordo sobre a definição de tráfico de pessoas entre diferentes países [...], os números globais do tráfico de pessoas são provavelmente enviesados” (p.23).
II - “Em tese, identificar as vítimas do tráfico de pessoas poderia ser difícil, pois estas fazem parte de populações com baixa visibilidade (por exemplo, profissionais do sexo, imigrantes indocumentados)” (p.24).

MORAES, R. F. de et al. Uma solução em busca de um problema: repensando o enfrentamento ao tráfico de pessoas no Brasil. Rio de Janeiro: Ipea, 2022.

Ambas as afirmações se referem a vieses de seleção da amostra, e esses vieses
Alternativas
Q2383256 Estatística
Sejam Y e Z variáveis aleatórias independentes e identicamente distribuídas, assumindo valores inteiros.
Considere as seguintes informações:

* Prob(Y + Z > 4) = 0;
* Prob(Y + Z > -3) = 1;
* Prob(YZ = 0) = 0;
* E(Z) = 0;
* E(Y2 + Z2) = 16/5.

Quanto vale Prob(Y2 + Z2 > 16/5)? 
Alternativas
Q2383257 Estatística
Considere um exame para detectar o uso de uma droga. Suponha que, para um usuário da droga, o exame tenha probabilidade 0,95 de dar, corretamente, positivo. Suponha que, para um não usuário, o exame tenha probabilidade 0,9 de dar, corretamente, negativo.
Para um certo indivíduo, a probabilidade de que ele use a droga é estimada, antes do exame, como sendo de 0,8. Após a aplicação do exame, o resultado foi positivo. Seja P a probabilidade que se deve estimar, com os dados acima, de que o resultado do exame esteja errado, ou seja, de que o resultado seja um falso positivo.
Quanto vale, aproximadamente, P? 
Alternativas
Respostas
21: D
22: B
23: A
24: E
25: A
26: C
27: A
28: C
29: E
30: D
31: D
32: E
33: B
34: B
35: C
36: E
37: E
38: B
39: D
40: C