Big Data surgiu a partir da necessidade de manipular um gran...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Gabarito: Letra D
Para compreender a questão e identificar a resposta correta, é essencial ter um entendimento sobre os conceitos de Big Data e Data Lake. Big Data se refere à manipulação de grandes volumes de dados que são complexos e crescem exponencialmente com o tempo. Já um Data Lake é uma arquitetura de armazenamento que permite armazenar grandes quantidades de dados em seu estado bruto e nativo, incluindo dados estruturados, semi-estruturados e não estruturados.
A resposta correta é a Letra D, porque reflete exatamente o propósito de um Data Lake. Em um Data Lake, os dados são armazenados em seu formato natural e podem vir de diversas fontes. Um ponto importante dos Data Lakes é a flexibilidade: não é necessário definir um esquema até que os dados sejam lidos ou processados, o que é conhecido como "schema-on-read". Isso difere drasticamente de um armazém de dados tradicional, onde o esquema deve ser definido antes dos dados serem carregados ("schema-on-write").
Vamos entender por que a alternativa D é a correta com uma observação mais detalhada:
- É projetado para armazenar dados de diversas fontes: Isso indica que o Data Lake é uma solução para a coleta de dados de múltiplas origens, sejam eles logs de servidores, dados de sensores IoT, transações financeiras, entre outros.
- E formatos: O Data Lake pode lidar com dados em vários formatos, como CSV, JSON, imagens, vídeos, etc. Essa é uma característica que o difere de sistemas tradicionais, que requerem formatos específicos.
- Não havendo a necessidade da definição de um esquema de dados para inserir novos itens: Esta é uma característica essencial do Data Lake, a capacidade de armazenar dados sem a necessidade de definição prévia de um esquema de banco de dados. Isso proporciona grande flexibilidade e agilidade na inserção de novos dados.
As demais alternativas não descrevem corretamente o conceito de um Data Lake:
- A alternativa A descreve o conceito de um Data Warehouse, que é um armazém de dados orientado por assunto e estruturado para facilitar a análise e o relatório de dados.
- A alternativa B parece descrever um sistema integrado de bancos de dados relacionais, o que não abrange a amplitude de tipos de dados e a natureza não relacional que um Data Lake pode conter.
- A alternativa C confunde Data Lake com ferramentas de Business Intelligence (BI), que são utilizadas para análise de dados e não para o armazenamento em estado bruto.
Portanto, a resposta correta é a alternativa D, por ela capturar a essência do que é um Data Lake no contexto de Big Data.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Data Lake é um repositório de armazenamento e engine para processamento de Big Data. Fornece armazenamento massivo para qualquer tipo de dado, enorme poder de processamento e capacidade de lidar com tarefas simultâneas, praticamente ilimitadas, além de possibilitar a criação de correlações e obtenção de insights para apoiar a tomada de decisão mais eficiente.
Esta arquitetura possibilita manter um grande repositório de dados “brutos”, preservando o princípio de imutabilidade, garantindo . Além disso, os cientistas de dados podem acessar e analisar dados com mais rapidez e precisão, e os analistas podem acessá-los para uma variedade de casos de uso, como análise de sentimento ou detecção de fraudes.
O segredo do Data Lake é o conceito de metadado (dado sobre dado). Cada dado inserido no Data Lake possui um metadado que o identifica e facilita sua localização e posterior análise.
Fonte:
Um "data lake" ou na tradução :" lago de dados" é um sistema ou repositório de dados armazenados em seu formato natural / bruto, geralmente objetos blobs (objetos de imagem, áudio ou outro objetos multimedia) ou arquivos.
(a) Errado, os dados não precisam estar relacionados e, portanto, não é orientado por assunto;
(b) Errado, não é um conjunto de dados relacionais e não precisa haver relacionamentos entre tabelas de diferentes esquemas – os dados são de diversos formatos e de diversas fontes;
(c) Errado, não é o resultado de operações de mineração de dados – são dados brutos sem tratamento e da maneira que foram capturados;
(d) Correto, ele realmente é projetado para armazenar dados de diversas fontes e formatos, não havendo a necessidade da definição de um esquema de dados para inserir novos itens
Fonte: estratégia concursos - pdf
O Data Lake é um grande repositório capaz de armazenar dados estruturados, semi-estruturados e não-estruturados, assim como um método para organizar grandes volumes de dados de diversos formatos e de diversas fontes diferentes.
Fonte: Estratégia
A LETRA A SE REFERE AOS DATA MARTS.
NAVATHE: Os data marts geralmente têm como alvo um subconjunto da organização, como um departamento, e têm o foco muito mais estreito.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo