Questões de Concurso Público IPEA 2024 para Técnico de Planejamento e Pesquisa -Ciência de Dados
Foram encontradas 70 questões
1 - Extração, ou coleta, de dados das fontes disponíveis;
2 - Transformação dos dados coletados para que atendam às necessidades específicas de processamento e análise; e
3 - Carga dos dados em algum repositório de destino, como um banco de dados relacional ou um data lake.
Essas três etapas podem variar dependendo de os dados serem estruturados ou não.
Nesse contexto, verifica-se que, na etapa de
O componente Spark Core
No caso da ingestão de dados em tempo real, streaming, os dados são
O sharding é necessário para garantir a
Do Banco Nossa Caixa
Disponível em: https://www.saopaulo.sp.gov.br/ultimas-noticias/ nossa-caixa-usa-sistema-pioneiro-de-processamento-de-dados/. Acesso em: 5 jan. 2024.
No modelo de arquitetura Massively Parallel Processor, MPP, extensibilidade e escalabilidade são características comuns e vantajosas no armazenamento e no processamento de dados paralelos.
Nesse contexto, qual modelo de processamento se enquadra à arquitetura MPP?
Nesse contexto, uma importante questão de projeto refere-se à
Esses resultados vieram com a adoção da tecnologia nos processos cotidianos, e também com o investimento em pesquisas [...]. Agora, o agronegócio pode estar diante de um novo salto de produtividade; big data e machine learning são ferramentas que estão ganhando espaço e que podem, novamente, transformar o cenário do campo.
Disponível em: https://summitagro.estadao.com.br/tendencias-e- -tecnologia/como-big-data-e-machine-learning-sao-aplicados-no- -agronegocio/. Acesso em: 5 jan. 2024. Adaptado.
A utilização da plataforma paralela de processamento MapReduce aplica-se adequadamente como um framework de processamento de Big Data, visando à escalabilidade para as aplicações.
Nesse contexto, uma característica inerente à MapReduce é a
Nesse contexto, considere o seguinte comando:
pg_dump -a -Fp Alfa > Beta
Esse comando gera um backup
O esquema de um SGBD NoSQL ser flexível ou não existente tem como consequência o fato de que
ESCOLA (cod-escola, nome-escola, cod-municipio, quantidade-alunos)
PROFESSOR (CPF, nome-prof, data-nascimento, cod-municipio-residencia, cod-escola-prof)
A chave primária de ESCOLA é cod-escola, e a de PROFESSOR é CPF. A coluna cod-escola-prof em PROFESSOR é uma chave estrangeira e indica em que escola o professor leciona. Considere a utilização dos operadores de Projeção (π ou PROJETE), Seleção (σ ou SELECIONE) e Junção ( ou JUNTE) da Álgebra Relacional.
Que sequência de operações, em Álgebra Relacional, produz como resultado uma relação R-X com CPF e nome dos professores que NÃO residem no mesmo município onde lecionam?
PRODUTO (cod-produto, nome-produto, grupo-alimentar) FORNECEDOR (CNPJ, nome-empresa, tipo) COMPRADO (CNPJ, cod-produto, data, quantidade, valor)
Os atributos que formam as chaves primárias de cada tabela estão sublinhados.
Nesse contexto, considere o comando SQL apresentado a seguir.
SELECT P.cod-produto, SUM (quantidade) FROM PRODUTO P, FORNECEDOR F, COMPRADO C WHERE P.cod-produto = C.cod-produto AND C.CNPJ = F.CNPJ AND F.tipo = 'agricultura familiar' GROUP BY P.cod-produto HAVING SUM (quantidade) > 10000
Os resultados produzidos pela execução desse comando apresentam o código do produto e a soma das quantidades compradas dos produtos de
Nesse contexto, a técnica mais adequada é a discretização
Seja um conjunto de dados com informações de saúde referentes a uma população. Pode-se limpar esses dados para identificar e tratar valores extremos, discrepantes, contraditórios ou inválidos. Com isso, há maior confiabilidade para estimar a prevalência, a incidência, a mortalidade e os fatores de risco de uma doença naquela população representada por aqueles dados.
Por exemplo, seja o conjunto de dados abaixo referente a uma amostra de 5 indivíduos em uma mesma cidade, na qual um analista percebeu a necessidade de limpeza de dados por conta de potenciais inconsistências.
Indivíduo 1: Sexo: Feminino; Idade: 8 anos; Altura: 1,15m; Peso: 40kg; Batimento Cardíaco em Repouso: 85 bpm
Indivíduo 2: Sexo: Masculino; Idade: 22 anos; Altura: 1,60m; Peso: 60kg; Batimento Cardíaco em Repouso: 72 bpm
Indivíduo 3: Sexo: Feminino; Idade: 40 anos; Altura: 1,60m; Peso: 55kg; Batimento Cardíaco em Repouso: 10 bpm
Indivíduo 4: Sexo: Masculino; Idade: 55 anos; Altura: 1,90m; Peso: 100kg; Batimento Cardíaco em Repouso: 70 bpm
Indivíduo 5: Sexo: Feminino; Idade: 70 anos; Altura: 1,50m; Peso: 60kg; Batimento Cardíaco em Repouso: 70 bpm
Qual ação é a única claramente necessária para realizar data cleansing neste conjunto de dados específico?
Qual das palavras a seguir apresenta o maior valor da similaridade de Jaccard, quando comparada com a palavra “computador”?
Qual técnica de desidentificação de dados sensíveis é a mais adequada para preservar a privacidade dos indivíduos processados, permitindo, ainda, a análise sociodemográfica dos bairros?
A deduplicação de dados é útil, por exemplo, no domínio da medicina, em que há grandes conjuntos de dados genômicos que são analisados para identificar padrões e mutações associadas a doenças específicas. Nesse cenário, a deduplicação é vital para assegurar a precisão das análises, pois, se amostras de DNA de um mesmo paciente são coletadas e sequenciadas em diferentes momentos e locais, pode haver uma repetição inadvertida dessas amostras no banco de dados. Nesse contexto, a deduplicação de dados é crucial para a integridade da pesquisa, pois dados duplicados podem levar a interpretações errôneas, como a superestimação da prevalência de uma mutação genética rara.
A técnica de deduplicação de dados consiste em um processo de
Qual das seguintes técnicas de normalização numérica é mais adequada para esse conjunto de dados?
Considerando-se a necessidade de manter a precisão e a confiabilidade do estudo, qual das seguintes abordagens seria a mais apropriada para tratar esses dados ausentes sobre o peso dos participantes?