Acerca da modelagem de dados para DataWarehouse e do Data La...

Próximas questões
Com base no mesmo assunto
Q2348252 Banco de Dados
Acerca da modelagem de dados para DataWarehouse e do Data Lake, julgue o item.

A operação do Data Lake que tem como finalidade permitir importar qualquer quantidade de dados em tempo real de múltiplas fontes é denominada exploração/visualização.

Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: E - Errado.

A questão se refere à operação em um Data Lake, que é um repositório de armazenamento de dados projetado para armazenar grandes quantidades de dados em sua forma bruta e nativa. A operação mencionada na questão trata da importação de dados de múltiplas fontes em tempo real, o que não é chamado de exploração/visualização, mas sim de ingestão de dados.

A ingestão é o processo de obter e importar dados para armazenamento imediato ou para uso futuro. Pode ocorrer em tempo real ou em lotes. Já a exploração/visualização refere-se à fase posterior, onde os dados armazenados são analisados e visualizados para obter insights e informação sobre os mesmos.

Portanto, a assertiva está errada porque misturou conceitos de etapas diferentes no gerenciamento de dados de um Data Lake. A capacidade de importar dados em tempo real de várias fontes é uma característica importante dos Data Lakes, mas não é denominada exploração/visualização, e sim ingestão de dados.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Ingestão de dados

A técnica utilizada em operações do Data Lake que permite importar qualquer quantidade de dados em tempo real de múltiplas fontes é chamada de Ingestão de Dados.

Além da ingestão de dados em tempo real, outras técnicas comuns utilizadas em um Data Lake incluem:

  1. Armazenamento de dados não estruturados: Capacidade de armazenar uma variedade de tipos de dados, como texto, áudio, vídeo e imagens, sem a necessidade de pré-definir um esquema.
  2. Processamento distribuído: Utilização de frameworks de processamento distribuído, como Apache Hadoop e Spark, para realizar operações de processamento em grande escala de forma distribuída em clusters de computadores.
  3. Metadados: Utilização de metadados para catalogar e organizar os dados armazenados no Data Lake, facilitando a descoberta, compreensão e governança dos dados.
  4. Segurança e governança: Implementação de políticas de segurança e governança para proteger os dados e garantir conformidade com regulamentações, políticas internas e requisitos de privacidade.
  5. Processamento de fluxo de dados em tempo real: Capacidade de processar e analisar dados em tempo real à medida que são gerados, permitindo a detecção de padrões e insights em tempo hábil.
  6. Escalabilidade: Arquitetura escalável que permite o armazenamento e processamento eficiente de grandes volumes de dados, com capacidade de expansão conforme necessário.

(ChatGPT)

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo