Assim como o Hadoop foi desenvolvido para possibilitar o pr...

Próximas questões
Com base no mesmo assunto
Q1622527 Banco de Dados
Assim como o Hadoop foi desenvolvido para possibilitar o processamento em lote de grande volume de dados, também surgiram tecnologias com suporte ao processamento em tempo real de Big Data, como o
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa Correta: D - Spark.

O Apache Spark é uma plataforma de computação em cluster que oferece uma API robusta para programação distribuída. É um sistema de processamento de dados que possibilita o trabalho tanto com processamento em batch (lotes) quanto em tempo real, o que é conhecido como processamento de streaming. Essa versatilidade faz do Spark uma ferramenta poderosa para lidar com as demandas de Big Data, permitindo análises complexas e a geração de insights em tempo real.

O Spark fornece uma série de módulos integrados para SQL, streaming, machine learning e processamento de grafos, tornando-o uma solução abrangente para diversos tipos de tarefas de processamento de dados. Sua capacidade de executar tarefas em memória o torna mais rápido que o Hadoop MapReduce para certas aplicações, especialmente quando se trata de processamento interativo e de algoritmos de machine learning, que muitas vezes requerem múltiplas iterações sobre os mesmos dados.

A alternativa correta é a D - Spark, pois esta tecnologia foi projetada para superar limitações do Hadoop em cenários que exigem processamento de dados em tempo real, além de ampliar a eficiência do processamento em lotes. As outras alternativas listadas não apresentam a mesma finalidade ou são conceitos/tecnologias que não estão diretamente relacionados com o processamento em tempo real de Big Data da forma como o Spark está.

Por exemplo, o Elasticsearch (alternativa C) é uma ferramenta de pesquisa e análise distribuída, mas não é primariamente focada em processamento de dados em tempo real da forma que o Spark está. O Kubernetes (alternativa B) é um sistema de orquestração de contêineres e não um sistema de processamento de dados. O Hadoop RTime (alternativa A) e o RealStorm (alternativa E) não são tecnologias reconhecidas ou padrões no mercado de Big Data para o processamento em tempo real.

Portanto, a compreensão de que o Apache Spark é a ferramenta que atende aos requisitos de processamento de dados em tempo real aliado ao grande volume característico do Big Data é crucial para responder corretamente a esta questão.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Spark: estrutura de computação open-source em cluster com inteligência analítica in-memory. Componente de software que pode ser executado sobre ou junto com o Hadoop e atingiu status de nível máximo no projeto da Apache.

Trazendo um estudo sobre Big data:

BIG DATA

Grande banco de dados.

Engloba todos os tipos de dados.

Dados estruturados ou não estruturados.

Para melhor proveito, usa-se Data Mining e Data Warehouse.

Os dados possuem "5V's":

Volume -> Grande quantidade.

Variedade -> São variados.

Velocidade -> São criados de uma forma extremamente rápida.

Valor -> Devem possuir valor, ou seja, deve agregar conhecimento.

Veracidade -> Devem ser verídicos, verdadeiros.

_________

Bons Estudos!

Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas. Foi inspirada no MapReduce e no GoogleFS.

Fonte: Wikipédia

O Victor Dinís desde o ano passado já sabia que Big Data entraria no edital da PRF. Monstro!!

Agora são 7 Vs.... é pra cabar com o pequi do Goiás.

Volume: Está relacionado com a quantidade de espaço

Velocidade: Está relacionado ao fluxo contínuo.

Variedade: Está ligada ao fato dos dados possuírem diferentes naturezas

Variabilidade: É a oscilação.

Viscosidade: Relação com a dificuldade de navegar entre os dados.

Volatilidade: São inconsistências nos dados.

Veracidade:  São dados verídicos  

Valor: São dados valorados  

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo