Pentaho Data Integration (PDI), também conhecido por Kettle
(Kettle Extraction, Transport, Transformation and Loading Environment), é o conjunto de ferramentas open source responsável pelos processos de ETL da Pentaho Business Intelligence
Suite. No PDI, os componentes de ligação entre os steps que
definem a direção da execução da transformação são conhecidos como:
Na modelagem conceitual de dados, utilizando a abordagem
Entidade-Relacionamento, são encontrados alguns padrões de
relacionamentos. Trata-se do padrão de relacionamento que
envolve conexões entre membros de um mesmo conjunto e
que, às vezes, é chamado de relacionamento reflexivo:
Os elementos ambientais básicos definem cada área de conhecimento ou função da Gestão de Dados presentes no guia
DAMA-DMBOK. São considerados alguns destes elementos:
A deduplicação objetiva identificar e combinar registros que
representam a mesma entidade no mundo real. A etapa da deduplicação que tem por objetivo agregar registros que apresentam semelhança, reduzindo o domínio de pares a serem
comparados nas etapas posteriores é:
Dados massivos são grandes grupos de dados que podem ser
capturados, comunicados, agregados, armazenados e analisados. Uma das plataformas de processamento de dados massivos mais conhecidas é o Apache Hadoop. Sobre tal plataforma,
assinale a afirmativa correta.