Considerando Data Lake, que geralmente é o armazenamento
único de todos os dados corporativos, incluindo cópias brutas
de dados do sistema de origem, assinale a afirmativa correta.
O Big Data, na sua grande maioria, é um conjunto de dados
que a cada milésimo de segundo são inseridos novos; assim
sendo, o mundo atual dos dados digitalizados contém uma inimaginável quantidade de informações, base que está em crescimento permanentemente. A característica do Big Data, que
faz parte dos 3 Vs e que está relacionada à dinâmica de crescimento e processamento de dados e à necessidade de respostas em um curto prazo ou em tempo real, é:
A deduplicação objetiva identificar e combinar registros que
representam a mesma entidade no mundo real. A etapa da deduplicação que tem por objetivo agregar registros que apresentam semelhança, reduzindo o domínio de pares a serem
comparados nas etapas posteriores é:
Dados massivos são grandes grupos de dados que podem ser
capturados, comunicados, agregados, armazenados e analisados. Uma das plataformas de processamento de dados massivos mais conhecidas é o Apache Hadoop. Sobre tal plataforma,
assinale a afirmativa correta.
O tipo de metadado que é utilizado para permitir que um
profissional gerencie melhor o ciclo de vida de determinadas
informações como por exemplo, a data de criação, tipo de
arquivo, utilidade, entre outros dados que podem ser
essenciais em processos de análise de Big Data, é