Acerca da modelagem de dados para DataWarehouse e do Data La...

Próximas questões
Com base no mesmo assunto
Q2348251 Banco de Dados
Acerca da modelagem de dados para DataWarehouse e do Data Lake, julgue o item.

Com a finalidade de manter organizado o repositório, o Data Lake exige que o usuário defina, no mínimo, dois esquemas (schema) para os dados, sendo um para armazenar os metadados e o outro para os dados.
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Gabarito: E - Errado

A questão aborda a temática de organização de repositórios de dados em ambientes de Big Data, especificamente comparando o modelo tradicional de Data Warehouse com o conceito mais recente de Data Lake. Para resolver essa questão, é necessário compreender a natureza desses dois ambientes e como eles gerenciam dados e metadados.

No contexto de Data Warehouses, espera-se uma estrutura de dados bem definida, com esquemas pré-definidos (schema-on-write), onde os metadados (informações sobre os dados) e os dados em si são organizados de acordo com o modelo de dados estabelecido previamente. Trata-se de um ambiente altamente estruturado e otimizado para análises e relatórios.

Em contrapartida, um Data Lake é um grande repositório de dados armazenados em seu formato natural (raw), que pode ser estruturado, semi-estruturado ou não estruturado. O conceito chave do Data Lake é a flexibilidade e a capacidade de armazenar grandes volumes de dados sem a necessidade de definir um esquema fixo previamente (schema-on-read). Assim, essa afirmação de que o Data Lake exige a definição de dois esquemas distintos, um para metadados e outro para os dados, é incorreta. No Data Lake, os metadados são frequentemente capturados de maneira dinâmica e podem ser utilizados para organizar, localizar e compreender os dados armazenados, mas não há uma exigência de estruturação rígida como em um Data Warehouse.

A flexibilidade é uma das principais vantagens do Data Lake, permitindo que os usuários definam o esquema dos dados no momento da leitura (schema-on-read) de acordo com os requisitos da análise a ser feita. Isso significa que os dados podem ser armazenados sem um esquema predefinido, e as definições relacionadas à estrutura dos dados são aplicadas posteriormente, conforme necessário para uma tarefa específica de processamento ou análise. Por essa razão, a afirmativa proposta na questão é errada, e o gabarito correto é E - Errado.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

O data lake é um repositório centralizado projetado para armazenar, processar e proteger grandes quantidades de dados estruturados, semiestruturados e não estruturados.

Data Lakes são schemeless

Data Lake é um repositório utilizado para armazenar todos os dados estruturados e não estruturados. Ao armazená-los de forma não estruturada pode-se realizar diferentes tipos de análise, incluindo processamento de big data, análise em tempo real e machine learning, a fim de adquirir melhores decisões.

Fonte: Wikipédia.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo