Questões de Concurso Público IPEA 2024 para Técnico de Planejamento e Pesquisa -Ciência de Dados
Foram encontradas 9 questões
Ano: 2024
Banca:
CESGRANRIO
Órgão:
IPEA
Prova:
CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |
Q2383218
Banco de Dados
O processo de ingestão de dados é normalmente dividido
em três etapas principais:
1 - Extração, ou coleta, de dados das fontes disponíveis;
2 - Transformação dos dados coletados para que atendam às necessidades específicas de processamento e análise; e
3 - Carga dos dados em algum repositório de destino, como um banco de dados relacional ou um data lake.
Essas três etapas podem variar dependendo de os dados serem estruturados ou não.
Nesse contexto, verifica-se que, na etapa de
1 - Extração, ou coleta, de dados das fontes disponíveis;
2 - Transformação dos dados coletados para que atendam às necessidades específicas de processamento e análise; e
3 - Carga dos dados em algum repositório de destino, como um banco de dados relacional ou um data lake.
Essas três etapas podem variar dependendo de os dados serem estruturados ou não.
Nesse contexto, verifica-se que, na etapa de
Ano: 2024
Banca:
CESGRANRIO
Órgão:
IPEA
Prova:
CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |
Q2383231
Banco de Dados
Um cientista de dados precisa discretizar uma variável, representando distâncias entre cidades em quilômetros em
10 intervalos com, aproximadamente, o mesmo número
de observações.
Nesse contexto, a técnica mais adequada é a discretização
Nesse contexto, a técnica mais adequada é a discretização
Ano: 2024
Banca:
CESGRANRIO
Órgão:
IPEA
Prova:
CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |
Q2383232
Banco de Dados
A limpeza de dados, data cleansing, é uma tarefa importante que pode ser complexa e demorada, no entanto é
um investimento fundamental que pode melhorar a qualidade e a utilidade dos dados para futuras análises.
Seja um conjunto de dados com informações de saúde referentes a uma população. Pode-se limpar esses dados para identificar e tratar valores extremos, discrepantes, contraditórios ou inválidos. Com isso, há maior confiabilidade para estimar a prevalência, a incidência, a mortalidade e os fatores de risco de uma doença naquela população representada por aqueles dados.
Por exemplo, seja o conjunto de dados abaixo referente a uma amostra de 5 indivíduos em uma mesma cidade, na qual um analista percebeu a necessidade de limpeza de dados por conta de potenciais inconsistências.
Indivíduo 1: Sexo: Feminino; Idade: 8 anos; Altura: 1,15m; Peso: 40kg; Batimento Cardíaco em Repouso: 85 bpm
Indivíduo 2: Sexo: Masculino; Idade: 22 anos; Altura: 1,60m; Peso: 60kg; Batimento Cardíaco em Repouso: 72 bpm
Indivíduo 3: Sexo: Feminino; Idade: 40 anos; Altura: 1,60m; Peso: 55kg; Batimento Cardíaco em Repouso: 10 bpm
Indivíduo 4: Sexo: Masculino; Idade: 55 anos; Altura: 1,90m; Peso: 100kg; Batimento Cardíaco em Repouso: 70 bpm
Indivíduo 5: Sexo: Feminino; Idade: 70 anos; Altura: 1,50m; Peso: 60kg; Batimento Cardíaco em Repouso: 70 bpm
Qual ação é a única claramente necessária para realizar data cleansing neste conjunto de dados específico?
Seja um conjunto de dados com informações de saúde referentes a uma população. Pode-se limpar esses dados para identificar e tratar valores extremos, discrepantes, contraditórios ou inválidos. Com isso, há maior confiabilidade para estimar a prevalência, a incidência, a mortalidade e os fatores de risco de uma doença naquela população representada por aqueles dados.
Por exemplo, seja o conjunto de dados abaixo referente a uma amostra de 5 indivíduos em uma mesma cidade, na qual um analista percebeu a necessidade de limpeza de dados por conta de potenciais inconsistências.
Indivíduo 1: Sexo: Feminino; Idade: 8 anos; Altura: 1,15m; Peso: 40kg; Batimento Cardíaco em Repouso: 85 bpm
Indivíduo 2: Sexo: Masculino; Idade: 22 anos; Altura: 1,60m; Peso: 60kg; Batimento Cardíaco em Repouso: 72 bpm
Indivíduo 3: Sexo: Feminino; Idade: 40 anos; Altura: 1,60m; Peso: 55kg; Batimento Cardíaco em Repouso: 10 bpm
Indivíduo 4: Sexo: Masculino; Idade: 55 anos; Altura: 1,90m; Peso: 100kg; Batimento Cardíaco em Repouso: 70 bpm
Indivíduo 5: Sexo: Feminino; Idade: 70 anos; Altura: 1,50m; Peso: 60kg; Batimento Cardíaco em Repouso: 70 bpm
Qual ação é a única claramente necessária para realizar data cleansing neste conjunto de dados específico?
Ano: 2024
Banca:
CESGRANRIO
Órgão:
IPEA
Prova:
CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |
Q2383234
Banco de Dados
A partir de dados da pesquisa Perfil do Processado e
Produção de Provas nas Ações Criminais por Tráfico de
Drogas, realizada em dezembro de 2023 pelo Instituto de
Pesquisa Econômica Aplicada (Ipea), é possível levantar
informações sociodemográficas sobre os bairros em que
o direito à inviolabilidade domiciliar é relativizado. Os resultados revelam que os bairros mais ricos e aqueles de
população predominantemente branca são praticamente
imunes às entradas em domicílio, as quais se concentram
substancialmente nos bairros mais pobres e naqueles
com população predominantemente negra ou minoritariamente branca.
Qual técnica de desidentificação de dados sensíveis é a mais adequada para preservar a privacidade dos indivíduos processados, permitindo, ainda, a análise sociodemográfica dos bairros?
Qual técnica de desidentificação de dados sensíveis é a mais adequada para preservar a privacidade dos indivíduos processados, permitindo, ainda, a análise sociodemográfica dos bairros?
Ano: 2024
Banca:
CESGRANRIO
Órgão:
IPEA
Prova:
CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa -Ciência de Dados |
Q2383235
Banco de Dados
A deduplicação de dados é uma técnica importante no gerenciamento de informações, especialmente em ambientes onde grandes volumes de dados são gerados e armazenados. Essa técnica é necessária em ambientes onde
grandes volumes de dados são gerados porque pode ajudar a reduzir o consumo de armazenamento e a aumentar
a eficiência dos processos de análise de dados.
A deduplicação de dados é útil, por exemplo, no domínio da medicina, em que há grandes conjuntos de dados genômicos que são analisados para identificar padrões e mutações associadas a doenças específicas. Nesse cenário, a deduplicação é vital para assegurar a precisão das análises, pois, se amostras de DNA de um mesmo paciente são coletadas e sequenciadas em diferentes momentos e locais, pode haver uma repetição inadvertida dessas amostras no banco de dados. Nesse contexto, a deduplicação de dados é crucial para a integridade da pesquisa, pois dados duplicados podem levar a interpretações errôneas, como a superestimação da prevalência de uma mutação genética rara.
A técnica de deduplicação de dados consiste em um processo de
A deduplicação de dados é útil, por exemplo, no domínio da medicina, em que há grandes conjuntos de dados genômicos que são analisados para identificar padrões e mutações associadas a doenças específicas. Nesse cenário, a deduplicação é vital para assegurar a precisão das análises, pois, se amostras de DNA de um mesmo paciente são coletadas e sequenciadas em diferentes momentos e locais, pode haver uma repetição inadvertida dessas amostras no banco de dados. Nesse contexto, a deduplicação de dados é crucial para a integridade da pesquisa, pois dados duplicados podem levar a interpretações errôneas, como a superestimação da prevalência de uma mutação genética rara.
A técnica de deduplicação de dados consiste em um processo de