Assim como o Hadoop foi desenvolvido para possibilitar o pr...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa Correta: D - Spark.
O Apache Spark é uma plataforma de computação em cluster que oferece uma API robusta para programação distribuída. É um sistema de processamento de dados que possibilita o trabalho tanto com processamento em batch (lotes) quanto em tempo real, o que é conhecido como processamento de streaming. Essa versatilidade faz do Spark uma ferramenta poderosa para lidar com as demandas de Big Data, permitindo análises complexas e a geração de insights em tempo real.
O Spark fornece uma série de módulos integrados para SQL, streaming, machine learning e processamento de grafos, tornando-o uma solução abrangente para diversos tipos de tarefas de processamento de dados. Sua capacidade de executar tarefas em memória o torna mais rápido que o Hadoop MapReduce para certas aplicações, especialmente quando se trata de processamento interativo e de algoritmos de machine learning, que muitas vezes requerem múltiplas iterações sobre os mesmos dados.
A alternativa correta é a D - Spark, pois esta tecnologia foi projetada para superar limitações do Hadoop em cenários que exigem processamento de dados em tempo real, além de ampliar a eficiência do processamento em lotes. As outras alternativas listadas não apresentam a mesma finalidade ou são conceitos/tecnologias que não estão diretamente relacionados com o processamento em tempo real de Big Data da forma como o Spark está.
Por exemplo, o Elasticsearch (alternativa C) é uma ferramenta de pesquisa e análise distribuída, mas não é primariamente focada em processamento de dados em tempo real da forma que o Spark está. O Kubernetes (alternativa B) é um sistema de orquestração de contêineres e não um sistema de processamento de dados. O Hadoop RTime (alternativa A) e o RealStorm (alternativa E) não são tecnologias reconhecidas ou padrões no mercado de Big Data para o processamento em tempo real.
Portanto, a compreensão de que o Apache Spark é a ferramenta que atende aos requisitos de processamento de dados em tempo real aliado ao grande volume característico do Big Data é crucial para responder corretamente a esta questão.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Spark: estrutura de computação open-source em cluster com inteligência analítica in-memory. Componente de software que pode ser executado sobre ou junto com o Hadoop e atingiu status de nível máximo no projeto da Apache.
Trazendo um estudo sobre Big data:
BIG DATA
☑ Grande banco de dados.
☑ Engloba todos os tipos de dados.
☑ Dados estruturados ou não estruturados.
☑ Para melhor proveito, usa-se Data Mining e Data Warehouse.
☑ Os dados possuem "5V's":
Volume -> Grande quantidade.
Variedade -> São variados.
Velocidade -> São criados de uma forma extremamente rápida.
Valor -> Devem possuir valor, ou seja, deve agregar conhecimento.
Veracidade -> Devem ser verídicos, verdadeiros.
_________
Bons Estudos!
Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas. Foi inspirada no MapReduce e no GoogleFS.
Fonte: Wikipédia
O Victor Dinís desde o ano passado já sabia que Big Data entraria no edital da PRF. Monstro!!
Agora são 7 Vs.... é pra cabar com o pequi do Goiás.
Volume: Está relacionado com a quantidade de espaço
Velocidade: Está relacionado ao fluxo contínuo.
Variedade: Está ligada ao fato dos dados possuírem diferentes naturezas
Variabilidade: É a oscilação.
Viscosidade: Relação com a dificuldade de navegar entre os dados.
Volatilidade: São inconsistências nos dados.
Veracidade: São dados verídicos
Valor: São dados valorados
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo