Questões de Concurso para IPEA

Q2383250

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383250 Programação

Um cientista de dados recebeu um vetor chamado dados contendo valores da renda mensal da população de uma cidade e resolveu obter algumas estatísticas que descrevessem os dados recebidos.
A linha de código em R que calcula corretamente a média do vetor dados é

A

media <- sum(dados)/len(dados)

B

media <- mean(dados)

C

media <- average(dados)

D

media <- sapply(dados, function(x) length(x))

E

media <- sapply(dados, function(x) x/len(dados))

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383249

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383249 Programação

Um projeto de saúde utiliza a biblioteca Pandas, em Python, para analisar dados biométricos. O conjunto de dados é trabalhado em um DataFrame chamado saude_df, com várias colunas representando medidas típicas de saúde, como o peso e a pressão arterial. Cada linha representa o valor dessas medidas para uma pessoa.
Para selecionar aleatoriamente 20% das linhas do DataFrame e apenas as colunas Peso e Pressão Arterial, pode ser usada a expressão

A

saude_df['Peso', 'Pressão Arterial'].sample(0.2)

B

saude_df[['Peso', 'Pressão Arterial']].sample(0.2)

C

saude_df.sample(0.2)['Peso', 'Pressão Arterial']

D

saude_df.sample(frac=0.2)['Peso', 'Pressão Arterial']

E

saude_df.sample(frac=0.2)[['Peso', 'Pressão Arterial']]

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383248

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383248 Programação

Um cientista de dados está trabalhando com um conjunto de dados e usando a linguagem de programação R. O conjunto de dados, chamado dados, consiste em três colunas: ID, Idade e Salario, em que Idade indica um grupo de idade. O cientista de dados precisa calcular a média de Salario para cada grupo de idade. No entanto, ele deve realizar essa tarefa utilizando apenas as funções base do R, sem pacotes adicionais.
Qual função ou conjunto de funções do R ele deve usar para realizar essa tarefa de forma eficiente?

A

mean(dados$Salario)

B

split(dados$Salario, dados$Idade)

C

tapply(dados$Salario, dados$Idade, sum)

D

aggregate(Salario ~ Idade, dados, mean)

E

sum(dados$Salario) / length(unique(dados$Idade))

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383247

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383247 Programação

Um analista de dados está utilizando R e o pacote ggplot2 para criar um gráfico XY apenas com pontos. Ele possui dois vetores, vetor_x e vetor_y, ambos com o mesmo tamanho, representando os valores dos eixos X e Y, respectivamente.
Uma forma correta de criar um gráfico XY básico, apenas com pontos, passando esses vetores como parâmetros é

A

ggplot(data = vetor_y, aes(x = vetor_x, y = vetor_y))

B

ggplot(vetor_x, vetor_y, geom = "point")

C

ggplot(aes(x = vetor_x, y = vetor_y))

D

ggplot()+ geom_point(aes(x = vetor_x, y = vetor_y))

E

ggplot()+ geom_point (x = vetor_x, y = vetor_y)

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383246

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383246 Programação

Em Python, a classe list implementa o conceito genérico de lista, que tem como uma de suas características permitir acessar cada item unicamente por um índice.
Outra propriedade importante das listas em Python é

A

exigir que todos os objetos da lista sejam da mesma classe.

B

garantir que cada elemento só esteja presente uma vez na lista.

C

guardar pares chave-valor, que permitem achar um valor por meio da chave.

D

manter os elementos sempre ordenados, do menor para o maior.

E

permitir a alteração do tamanho da lista pela inserção e pela remoção de elementos.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383245

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383245 Programação

Analise o seguinte programa em Python:

Imagem associada para resolução da questão

Quando esse programa for executado, sua saída será

A

XY

B

YX

C

YZ

D

ZY

E

Z

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383244

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383244 Programação

Considere a função em Python a seguir.
Imagem associada para resolução da questão

Qual função retorna os mesmos valores quando recebe uma lista de inteiros positivos?

A

B

C

D

E

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383243

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383243 Banco de Dados

A paralelização em rotinas de ciência de dados traz benefícios importantes, especialmente quando é necessário tratar uma grande quantidade de dados.
O principal motivador para paralelizar uma rotina é

A

aumentar a segurança sobre o valor correto do resultado.

B

reduzir a memória total utilizada.

C

reduzir o tempo para que as rotinas sejam completadas.

D

simplificar o código das rotinas.

E

diminuir o custo total do processamento.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383242

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383242 Programação

Em Python 3, existem várias formas de se imprimir um número float com um formato específico. Por exemplo, para imprimir o número 12.45667 aproximado para 1 casa decimal, isto é, como 12.5, é possível usar a formatação no estilo da linguagem C, como em
print("%.1f" % 12.45667)
Outra forma correta de, em Python, imprimir o número 12.45667 exatamente como 12.5 é

A

print("{:.1f}".format(12.45667))

B

print(f"{12.45667:.1g}")

C

print(f"{12.45667:.1e}")

D

print(round(12.45667,0))

E

print("%1f" % 12.45667)

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383241

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383241 Programação

Fazendo seu primeiro programa na linguagem Scala, um programador experiente em Python criou o seguinte código:

Imagem associada para resolução da questão

De acordo com a especificação de Scala, a palavra-chave return, nesse caso, é

A

exigida, e sua ausência causa erro de compilação.

B

exigida, e sua ausência causa erro de execução.

C

errada, e sua presença causa erro de compilação.

D

errada, e sua presença causa erro de execução.

E

possível, mas desnecessária.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383240

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383240 Algoritmos e Estrutura de Dados

Considere um conjunto de dados estruturados composto por colunas, que refletem as características desses dados, e por linhas, que combinam essas características.
No tratamento desses dados, o processo de enriquecimento consiste em

A

adicionar dados externos ao conjunto de dados.

B

expandir ou adernar os dados de um conjunto, sem interferência externa.

C

verificar a integridade dos relacionamentos entre as colunas.

D

normalizar os dados, mitigando a diferença de escala entre as colunas.

E

imputar dados em linhas de dados que apresentem valores ausentes.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383239

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383239 Banco de Dados

Considere o seguinte texto sobre integração de dados.
Como viabilizar o compartilhamento efetivo de dados e informações das cadeias agropecuárias entre instituições de governo e dessas com a sociedade? Esta foi a principal questão que os participantes do 1º Painel de Cadeias Agropecuárias e Dados Abertos buscaram responder na tarde de quinta-feira (2/12), durante webinar realizado pelo Instituto de Pesquisa Econômica Aplicada (Ipea).
Disponível em: https://www.ipea.gov.br/portal/categorias/45-todas-as-noticias/noticias/11394-especialistas-debatem-abertura- -e-integracao-de-dados-de-cadeias-agropecuarias?highlight= WyJhYmFzdGVjaW1lbnRvIiwiYWd1YSIsIidcdTAwZTFndWEiLCJhZ3VhJywiXQ==. Acesso em: 5 jan. 2024.

Considerando-se o questionamento apresentado no texto e sabendo-se que, quando da integração de conjuntos de dados de múltiplas fontes, matching é uma questão relevante, o problema de identificação de entidades em múltiplas fontes de dados remete ao desafio de

A

agregar os objetos do conjunto de dados, oferecendo versões consolidadas de suas ocorrências.

B

detectar a ocorrência de uma mesma entidade do mundo real.

C

determinar a correlação entre os identificadores dos objetos.

D

reduzir o conjunto de dados a ser submetido ao processo de análise.

E

selecionar as variáveis mais significativas do conjunto de dados, eliminando as irrelevantes ou redundantes.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383238

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383238 Engenharia de Software

Outliers são pontos ou observações em um conjunto de dados que diferem significativamente da maioria dos demais outros pontos. Eles podem ser resultados de variações na medição, erros de entrada de dados ou, ainda, podem indicar uma variação genuína da fonte de coleta.
Em preparação para análise de um conjunto de dados, o tratamento de outliers

A

é sempre necessário, independentemente do tamanho do conjunto de dados ou do objetivo da análise.

B

é sempre uma tarefa simples que pode ser realizada por qualquer analista de dados, sem risco de perder informações valiosas.

C

é sempre uma tarefa complexa que requer um conhecimento profundo de estatística e que independe do conjunto de dados e do objetivo da análise.

D

deve ser realizado antes de realizar agregações, pois os outliers podem afetar os resultados da análise que inclua uma agregação.

E

deve ser realizado após realizar agregações, pois os outliers podem obscurecer os resultados da agregação.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383237

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383237 Estatística

Em um estudo de saúde pública, um pesquisador está analisando um conjunto de dados que inclui informações sobre idade, peso, altura e nível de atividade física dos participantes, no entanto ele percebe que alguns dados referentes ao peso estão ausentes.
Considerando-se a necessidade de manter a precisão e a confiabilidade do estudo, qual das seguintes abordagens seria a mais apropriada para tratar esses dados ausentes sobre o peso dos participantes?

A

Interpolação de dados, para estimar os valores de peso ausentes, com base em um modelo matemático que leva em conta as tendências e os padrões dos dados existentes.

B

Remoção de registros, para excluir todos os registros de participantes que não incluíram informações de peso, mesmo que as outras informações estejam completas.

C

Substituição por zero, para substituir os dados de peso ausentes por zero, assumindo que a ausência de informação indica a menor medida possível.

D

Substituição por valores extremos, para substituir os dados de peso ausentes pelos valores máximos ou mínimos observados no conjunto de dados.

E

Uso de dados de outra pesquisa, para substituir os dados de peso ausentes por dados de peso de um estudo similar.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383236

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383236 Banco de Dados

Considere um conjunto de dados que inclui as variáveis idade, altura e peso. Os dados de idade estão entre 0 e 100 anos, os dados de altura estão entre 1,50 e 2,00 metros e os dados de peso estão entre 50 e 100 kg.
Qual das seguintes técnicas de normalização numérica é mais adequada para esse conjunto de dados?

A

Normalização Min-Max, para transformar os dados de modo que os valores fiquem entre 0 e 1.

B

Normalização Z-Score, para transformar os dados de modo que a média seja 0 e o desvio padrão seja 1.

C

Normalização de Binário, para transformar os dados de modo que os valores fiquem entre 0 e 1, sendo 0 para valores menores ou iguais a um determinado limite e 1 para valores maiores que esse limite.

D

Normalização de Decil, para transformar os dados de modo que os valores fiquem entre 0 e 100, sendo 0 para o menor valor e 100 para o maior valor.

E

Normalização de Quantil, para transformar os dados de modo que os valores fiquem entre 0 e 100, sendo 0 para o primeiro percentil e 100 para o último percentil.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383235

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383235 Banco de Dados

A deduplicação de dados é uma técnica importante no gerenciamento de informações, especialmente em ambientes onde grandes volumes de dados são gerados e armazenados. Essa técnica é necessária em ambientes onde grandes volumes de dados são gerados porque pode ajudar a reduzir o consumo de armazenamento e a aumentar a eficiência dos processos de análise de dados.
A deduplicação de dados é útil, por exemplo, no domínio da medicina, em que há grandes conjuntos de dados genômicos que são analisados para identificar padrões e mutações associadas a doenças específicas. Nesse cenário, a deduplicação é vital para assegurar a precisão das análises, pois, se amostras de DNA de um mesmo paciente são coletadas e sequenciadas em diferentes momentos e locais, pode haver uma repetição inadvertida dessas amostras no banco de dados. Nesse contexto, a deduplicação de dados é crucial para a integridade da pesquisa, pois dados duplicados podem levar a interpretações errôneas, como a superestimação da prevalência de uma mutação genética rara.
A técnica de deduplicação de dados consiste em um processo de

A

agregação de dados, que combina duplicatas em um único conjunto de dados.

B

compactação de dados, que reduz o tamanho de um conjunto de dados, eliminando duplicatas.

C

restauração de dados, que recupera dados duplicados e otimiza o processo de backup.

D

replicação de dados, que permite gerar cópias de um conjunto de dados, aumentando a disponibilidade dos mesmos.

E

redução de dados, que remove duplicatas de um conjunto de dados, mantendo apenas uma única instância de cada dado.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383234

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383234 Banco de Dados

A partir de dados da pesquisa Perfil do Processado e Produção de Provas nas Ações Criminais por Tráfico de Drogas, realizada em dezembro de 2023 pelo Instituto de Pesquisa Econômica Aplicada (Ipea), é possível levantar informações sociodemográficas sobre os bairros em que o direito à inviolabilidade domiciliar é relativizado. Os resultados revelam que os bairros mais ricos e aqueles de população predominantemente branca são praticamente imunes às entradas em domicílio, as quais se concentram substancialmente nos bairros mais pobres e naqueles com população predominantemente negra ou minoritariamente branca.
Qual técnica de desidentificação de dados sensíveis é a mais adequada para preservar a privacidade dos indivíduos processados, permitindo, ainda, a análise sociodemográfica dos bairros?

A

Anonimização: remover todos os identificadores diretos dos indivíduos, incluindo nome, CPF, RG e endereço, e também remover qualquer referência a bairro ou características sociodemográficas.

B

Pseudonimização: substituir os identificadores diretos dos indivíduos por códigos ou símbolos, mas publicar a tabela de correspondência junto com os dados.

C

Agregação: agrupar os dados dos indivíduos em categorias amplas, como faixa etária e classe social, mas excluir informações sobre cor ou raça e bairro.

D

Perturbação: adicionar ruído ou alterar aleatoriamente todos os valores dos dados, incluindo informações sociodemográficas e de bairro, de forma a tornar os dados inúteis para análise específica de bairro.

E

Generalização: substituir informações detalhadas de identificação pessoal por categorias mais amplas, mantendo dados sobre bairro e características sociodemográficas, como faixa etária, classe social, cor ou raça.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383233

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383233 Engenharia de Software

Algoritmos fuzzy matching em processamento de linguagem natural são métodos que permitem encontrar correspondências aproximadas entre strings, ou seja, sequências de caracteres, como palavras ou frases. Esses algoritmos são úteis para lidar com situações, tais como erros de digitação, variações ortográficas, sinônimos, abreviações. Eles também podem ser aplicados para comparar textos, extrair informações, classificar sentimentos, entre outras finalidades. Existem diferentes tipos de algoritmos fuzzy matching, como a Similaridade de Jaccard, que mede a proporção de elementos comuns entre dois conjuntos de strings.
Qual das palavras a seguir apresenta o maior valor da similaridade de Jaccard, quando comparada com a palavra “computador”?

A

amputar

B

amplificador

C

calcular

D

deputado

E

senador

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383232

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383232 Banco de Dados

A limpeza de dados, data cleansing, é uma tarefa importante que pode ser complexa e demorada, no entanto é um investimento fundamental que pode melhorar a qualidade e a utilidade dos dados para futuras análises.
Seja um conjunto de dados com informações de saúde referentes a uma população. Pode-se limpar esses dados para identificar e tratar valores extremos, discrepantes, contraditórios ou inválidos. Com isso, há maior confiabilidade para estimar a prevalência, a incidência, a mortalidade e os fatores de risco de uma doença naquela população representada por aqueles dados.
Por exemplo, seja o conjunto de dados abaixo referente a uma amostra de 5 indivíduos em uma mesma cidade, na qual um analista percebeu a necessidade de limpeza de dados por conta de potenciais inconsistências.

Indivíduo 1: Sexo: Feminino; Idade: 8 anos; Altura: 1,15m; Peso: 40kg; Batimento Cardíaco em Repouso: 85 bpm
Indivíduo 2: Sexo: Masculino; Idade: 22 anos; Altura: 1,60m; Peso: 60kg; Batimento Cardíaco em Repouso: 72 bpm
Indivíduo 3: Sexo: Feminino; Idade: 40 anos; Altura: 1,60m; Peso: 55kg; Batimento Cardíaco em Repouso: 10 bpm
Indivíduo 4: Sexo: Masculino; Idade: 55 anos; Altura: 1,90m; Peso: 100kg; Batimento Cardíaco em Repouso: 70 bpm
Indivíduo 5: Sexo: Feminino; Idade: 70 anos; Altura: 1,50m; Peso: 60kg; Batimento Cardíaco em Repouso: 70 bpm

Qual ação é a única claramente necessária para realizar data cleansing neste conjunto de dados específico?

A

Corrigir o valor da altura no indivíduo 1, pois parece anormalmente alto.

B

Verificar o peso no indivíduo 2, pois nessa idade e altura deveria ser um valor maior.

C

Confirmar o valor do batimento cardíaco no indivíduo 3, que parece anormalmente baixo.

D

Alterar o peso no indivíduo 4, pois não condiz com os valores de sexo, idade e altura indicados.

E

Modificar o valor da altura do indivíduo 5, pois é anormalmente baixo para a idade e sexo.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Q2383231

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |

Q2383231 Banco de Dados

Um cientista de dados precisa discretizar uma variável, representando distâncias entre cidades em quilômetros em 10 intervalos com, aproximadamente, o mesmo número de observações.
Nesse contexto, a técnica mais adequada é a discretização

A

Binária

B

K-Means

C

de Entropia

D

de Largura Igual

E

de Frequência Igual

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

🚨 ÚLTIMOS DESCONTOS: ATÉ 67% OFF! 🚨

🚨 ÚLTIMOS DESCONTOS: ATÉ 67% OFF! 🚨

Foram encontradas 1.406 questões

Resolva questões gratuitamente!

, continue estudando de graça!