Questões de Concurso
Comentadas para ipea
Foram encontradas 547 questões
Resolva questões gratuitamente!
Junte-se a mais de 4 milhões de concurseiros!
A linha de código em R que calcula corretamente a média do vetor dados é
Para selecionar aleatoriamente 20% das linhas do DataFrame e apenas as colunas Peso e Pressão Arterial, pode ser usada a expressão
Qual função ou conjunto de funções do R ele deve usar para realizar essa tarefa de forma eficiente?
Uma forma correta de criar um gráfico XY básico, apenas com pontos, passando esses vetores como parâmetros é
Outra propriedade importante das listas em Python é
O principal motivador para paralelizar uma rotina é
print("%.1f" % 12.45667)
Outra forma correta de, em Python, imprimir o número 12.45667 exatamente como 12.5 é
No tratamento desses dados, o processo de enriquecimento consiste em
Como viabilizar o compartilhamento efetivo de dados e informações das cadeias agropecuárias entre instituições de governo e dessas com a sociedade? Esta foi a principal questão que os participantes do 1º Painel de Cadeias Agropecuárias e Dados Abertos buscaram responder na tarde de quinta-feira (2/12), durante webinar realizado pelo Instituto de Pesquisa Econômica Aplicada (Ipea).
Disponível em: https://www.ipea.gov.br/portal/categorias/45-todas-as-noticias/noticias/11394-especialistas-debatem-abertura- -e-integracao-de-dados-de-cadeias-agropecuarias?highlight= WyJhYmFzdGVjaW1lbnRvIiwiYWd1YSIsIidcdTAwZTFndWEiLCJhZ3VhJywiXQ==. Acesso em: 5 jan. 2024.
Considerando-se o questionamento apresentado no texto e sabendo-se que, quando da integração de conjuntos de dados de múltiplas fontes, matching é uma questão relevante, o problema de identificação de entidades em múltiplas fontes de dados remete ao desafio de
Em preparação para análise de um conjunto de dados, o tratamento de outliers
Considerando-se a necessidade de manter a precisão e a confiabilidade do estudo, qual das seguintes abordagens seria a mais apropriada para tratar esses dados ausentes sobre o peso dos participantes?
Qual das seguintes técnicas de normalização numérica é mais adequada para esse conjunto de dados?
A deduplicação de dados é útil, por exemplo, no domínio da medicina, em que há grandes conjuntos de dados genômicos que são analisados para identificar padrões e mutações associadas a doenças específicas. Nesse cenário, a deduplicação é vital para assegurar a precisão das análises, pois, se amostras de DNA de um mesmo paciente são coletadas e sequenciadas em diferentes momentos e locais, pode haver uma repetição inadvertida dessas amostras no banco de dados. Nesse contexto, a deduplicação de dados é crucial para a integridade da pesquisa, pois dados duplicados podem levar a interpretações errôneas, como a superestimação da prevalência de uma mutação genética rara.
A técnica de deduplicação de dados consiste em um processo de
Qual técnica de desidentificação de dados sensíveis é a mais adequada para preservar a privacidade dos indivíduos processados, permitindo, ainda, a análise sociodemográfica dos bairros?
Qual das palavras a seguir apresenta o maior valor da similaridade de Jaccard, quando comparada com a palavra “computador”?
Seja um conjunto de dados com informações de saúde referentes a uma população. Pode-se limpar esses dados para identificar e tratar valores extremos, discrepantes, contraditórios ou inválidos. Com isso, há maior confiabilidade para estimar a prevalência, a incidência, a mortalidade e os fatores de risco de uma doença naquela população representada por aqueles dados.
Por exemplo, seja o conjunto de dados abaixo referente a uma amostra de 5 indivíduos em uma mesma cidade, na qual um analista percebeu a necessidade de limpeza de dados por conta de potenciais inconsistências.
Indivíduo 1: Sexo: Feminino; Idade: 8 anos; Altura: 1,15m; Peso: 40kg; Batimento Cardíaco em Repouso: 85 bpm
Indivíduo 2: Sexo: Masculino; Idade: 22 anos; Altura: 1,60m; Peso: 60kg; Batimento Cardíaco em Repouso: 72 bpm
Indivíduo 3: Sexo: Feminino; Idade: 40 anos; Altura: 1,60m; Peso: 55kg; Batimento Cardíaco em Repouso: 10 bpm
Indivíduo 4: Sexo: Masculino; Idade: 55 anos; Altura: 1,90m; Peso: 100kg; Batimento Cardíaco em Repouso: 70 bpm
Indivíduo 5: Sexo: Feminino; Idade: 70 anos; Altura: 1,50m; Peso: 60kg; Batimento Cardíaco em Repouso: 70 bpm
Qual ação é a única claramente necessária para realizar data cleansing neste conjunto de dados específico?
Nesse contexto, a técnica mais adequada é a discretização
PRODUTO (cod-produto, nome-produto, grupo-alimentar) FORNECEDOR (CNPJ, nome-empresa, tipo) COMPRADO (CNPJ, cod-produto, data, quantidade, valor)
Os atributos que formam as chaves primárias de cada tabela estão sublinhados.
Nesse contexto, considere o comando SQL apresentado a seguir.
SELECT P.cod-produto, SUM (quantidade) FROM PRODUTO P, FORNECEDOR F, COMPRADO C WHERE P.cod-produto = C.cod-produto AND C.CNPJ = F.CNPJ AND F.tipo = 'agricultura familiar' GROUP BY P.cod-produto HAVING SUM (quantidade) > 10000
Os resultados produzidos pela execução desse comando apresentam o código do produto e a soma das quantidades compradas dos produtos de
ESCOLA (cod-escola, nome-escola, cod-municipio, quantidade-alunos)
PROFESSOR (CPF, nome-prof, data-nascimento, cod-municipio-residencia, cod-escola-prof)
A chave primária de ESCOLA é cod-escola, e a de PROFESSOR é CPF. A coluna cod-escola-prof em PROFESSOR é uma chave estrangeira e indica em que escola o professor leciona. Considere a utilização dos operadores de Projeção (π ou PROJETE), Seleção (σ ou SELECIONE) e Junção ( ou JUNTE) da Álgebra Relacional.
Que sequência de operações, em Álgebra Relacional, produz como resultado uma relação R-X com CPF e nome dos professores que NÃO residem no mesmo município onde lecionam?
O esquema de um SGBD NoSQL ser flexível ou não existente tem como consequência o fato de que