Acerca da modelagem de dados para DataWarehouse e do Data La...
A operação do Data Lake que tem como finalidade permitir importar qualquer quantidade de dados em tempo real de múltiplas fontes é denominada exploração/visualização.
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: E - Errado.
A questão se refere à operação em um Data Lake, que é um repositório de armazenamento de dados projetado para armazenar grandes quantidades de dados em sua forma bruta e nativa. A operação mencionada na questão trata da importação de dados de múltiplas fontes em tempo real, o que não é chamado de exploração/visualização, mas sim de ingestão de dados.
A ingestão é o processo de obter e importar dados para armazenamento imediato ou para uso futuro. Pode ocorrer em tempo real ou em lotes. Já a exploração/visualização refere-se à fase posterior, onde os dados armazenados são analisados e visualizados para obter insights e informação sobre os mesmos.
Portanto, a assertiva está errada porque misturou conceitos de etapas diferentes no gerenciamento de dados de um Data Lake. A capacidade de importar dados em tempo real de várias fontes é uma característica importante dos Data Lakes, mas não é denominada exploração/visualização, e sim ingestão de dados.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Ingestão de dados
A técnica utilizada em operações do Data Lake que permite importar qualquer quantidade de dados em tempo real de múltiplas fontes é chamada de Ingestão de Dados.
Além da ingestão de dados em tempo real, outras técnicas comuns utilizadas em um Data Lake incluem:
- Armazenamento de dados não estruturados: Capacidade de armazenar uma variedade de tipos de dados, como texto, áudio, vídeo e imagens, sem a necessidade de pré-definir um esquema.
- Processamento distribuído: Utilização de frameworks de processamento distribuído, como Apache Hadoop e Spark, para realizar operações de processamento em grande escala de forma distribuída em clusters de computadores.
- Metadados: Utilização de metadados para catalogar e organizar os dados armazenados no Data Lake, facilitando a descoberta, compreensão e governança dos dados.
- Segurança e governança: Implementação de políticas de segurança e governança para proteger os dados e garantir conformidade com regulamentações, políticas internas e requisitos de privacidade.
- Processamento de fluxo de dados em tempo real: Capacidade de processar e analisar dados em tempo real à medida que são gerados, permitindo a detecção de padrões e insights em tempo hábil.
- Escalabilidade: Arquitetura escalável que permite o armazenamento e processamento eficiente de grandes volumes de dados, com capacidade de expansão conforme necessário.
(ChatGPT)
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo