Assim como o Hadoop foi desenvolvido para possibilitar o pr...

Com base no mesmo assunto

Ano: 2020 Banca: INSTITUTO AOCP Órgão: MJSP Prova: INSTITUTO AOCP - 2020 - MJSP - Engenheiro de Dados - Big Data |

Q1622527 Banco de Dados

Assim como o Hadoop foi desenvolvido para possibilitar o processamento em lote de grande volume de dados, também surgiram tecnologias com suporte ao processamento em tempo real de Big Data, como o

Hadoop RTime.

Kubernetes.

Elasticsearch.

Spark.

RealStorm.

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa Correta: D - Spark.

O Apache Spark é uma plataforma de computação em cluster que oferece uma API robusta para programação distribuída. É um sistema de processamento de dados que possibilita o trabalho tanto com processamento em batch (lotes) quanto em tempo real, o que é conhecido como processamento de streaming. Essa versatilidade faz do Spark uma ferramenta poderosa para lidar com as demandas de Big Data, permitindo análises complexas e a geração de insights em tempo real.

O Spark fornece uma série de módulos integrados para SQL, streaming, machine learning e processamento de grafos, tornando-o uma solução abrangente para diversos tipos de tarefas de processamento de dados. Sua capacidade de executar tarefas em memória o torna mais rápido que o Hadoop MapReduce para certas aplicações, especialmente quando se trata de processamento interativo e de algoritmos de machine learning, que muitas vezes requerem múltiplas iterações sobre os mesmos dados.

A alternativa correta é a D - Spark, pois esta tecnologia foi projetada para superar limitações do Hadoop em cenários que exigem processamento de dados em tempo real, além de ampliar a eficiência do processamento em lotes. As outras alternativas listadas não apresentam a mesma finalidade ou são conceitos/tecnologias que não estão diretamente relacionados com o processamento em tempo real de Big Data da forma como o Spark está.

Por exemplo, o Elasticsearch (alternativa C) é uma ferramenta de pesquisa e análise distribuída, mas não é primariamente focada em processamento de dados em tempo real da forma que o Spark está. O Kubernetes (alternativa B) é um sistema de orquestração de contêineres e não um sistema de processamento de dados. O Hadoop RTime (alternativa A) e o RealStorm (alternativa E) não são tecnologias reconhecidas ou padrões no mercado de Big Data para o processamento em tempo real.

Portanto, a compreensão de que o Apache Spark é a ferramenta que atende aos requisitos de processamento de dados em tempo real aliado ao grande volume característico do Big Data é crucial para responder corretamente a esta questão.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Spark: estrutura de computação open-source em cluster com inteligência analítica in-memory. Componente de software que pode ser executado sobre ou junto com o Hadoop e atingiu status de nível máximo no projeto da Apache.

Trazendo um estudo sobre Big data:

BIG DATA

☑ Grande banco de dados.

☑ Engloba todos os tipos de dados.

☑ Dados estruturados ou não estruturados.

☑ Para melhor proveito, usa-se Data Mining e Data Warehouse.

☑ Os dados possuem "5V's":

Volume -> Grande quantidade.

Variedade -> São variados.

Velocidade -> São criados de uma forma extremamente rápida.

Valor -> Devem possuir valor, ou seja, deve agregar conhecimento.

Veracidade -> Devem ser verídicos, verdadeiros.

_________

Bons Estudos!

Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas. Foi inspirada no MapReduce e no GoogleFS.

Fonte: Wikipédia

O Victor Dinís desde o ano passado já sabia que Big Data entraria no edital da PRF. Monstro!!

Agora são 7 Vs.... é pra cabar com o pequi do Goiás.

Volume: Está relacionado com a quantidade de espaço

Velocidade: Está relacionado ao fluxo contínuo.

Variedade: Está ligada ao fato dos dados possuírem diferentes naturezas

Variabilidade: É a oscilação.

Viscosidade: Relação com a dificuldade de navegar entre os dados.

Volatilidade: São inconsistências nos dados.

Veracidade: São dados verídicos

Valor: São dados valorados

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo

SEJA VITALÍCIO