Julgue o item a seguir, relativos ao Hadoop e ao Spark. Hado...
Julgue o item a seguir, relativos ao Hadoop e ao Spark.
Hadoop é uma plataforma de código aberto que oferece uma
solução tecnológica confiável e escalável para
armazenamento e análise de grande quantidade de dados.
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Gabarito: C - certo
O Hadoop é de fato uma plataforma de código aberto que foi projetada para atender às necessidades de processamento e armazenamento de grandes volumes de dados, conhecidos como Big Data. Sua arquitetura é composta por vários componentes, dos quais o Hadoop Distributed File System (HDFS) e o MapReduce se destacam.
O HDFS é um sistema de arquivos que proporciona um armazenamento distribuído e tolerante a falhas, permitindo que grandes volumes de dados sejam armazenados em múltiplos nós (máquinas) de maneira eficiente. Isso atende ao critério de solução tecnológica confiável e escalável para armazenamento mencionado na questão.
O MapReduce, por sua vez, é um modelo de programação e uma implementação para processamento de dados distribuídos. Ele permite análises complexas e computacionalmente intensivas ao dividir o trabalho em um conjunto de tarefas independentes, o que se alinha à parte de análise de grande quantidade de dados do enunciado.
Adicionalmente, o ecossistema do Hadoop inclui outras ferramentas como o Hive, o Pig e o HBase, que expandem suas capacidades de processamento e análise de dados.
Portanto, a afirmação está correta ao dizer que o Hadoop oferece uma solução para armazenamento e análise de grandes volumes de dados, alinhando-se perfeitamente com os princípios do Big Data.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Certo. Hadoop é uma plataforma de código aberto que oferece uma solução tecnológica confiável e escalável para armazenamento e análise de grande quantidade de dados. Hadoop é composto por quatro módulos principais: Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce e Hadoop YARN. Hadoop permite processar dados em clusters de computadores comuns, usando modelos de programação simples e tolerando falhas de hardware. Hadoop é usado por muitas empresas e organizações para lidar com big data, como Facebook, Yahoo, Google, Twitter, LinkedIn e muitos outros.
100% aberto
GABARITO CERTO
APACHE HADOOP:
- O que é: Plataforma, framework e ecossistema (mais que apenas um software) de computação distribuída orientada a clusters.
- Função: ARMAZENAMENTO E PROCESSAMENTO DE GRANDES VOLUMES DE DADOS
- Características: alta escalabilidade, grande confiabilidade e tolerância a falhas.
- Um de seus subprojetos implementa a técnica de MapReduce.
- Processamento em disco.
- Composição: HDFS + YARN + MAP REDUCE
- Código aberto
- A linguagem de programação básica do Hadoop é Java, mas isso não significa que você pode codificar apenas em Java. Você pode codificar em C, C++, Perl, Python, Ruby.
O Hadoop é uma estrutura de código aberto que serve para lidar com todos os componentes do armazenamento e do processamento de quantidades enormes de dados. Trata-se de uma biblioteca de software versátil e acessível. Por ter um baixo custo inicial e permitir a análise de dados sob demanda, ele é uma forma atraente de processar o Big Data.
Continue o processo é longo porém a vitoría é certa. Quando pensar em desistir lembre do que te fez começar.
ECOSSISTEMA HADOOP: É UM CONJUNTO INTEGRADO DE FERRAMENTAS E FRAMEWORKS DE CÓDIGO ABERTO PROJETADOS PARA PROCESSAR, ARMAZENAR E ANALISAR GRANDES VOLUMES DE DADOS, CONHECIDO COMO BIG DATA. O HADOOP FOI DESENVOLVIDO PELA APACHE SOFTWARE FOUNDATION E SE TORNOU UMA DAS SOLUÇÕES MAIS POPULARES PARA O PROCESSAMENTO DISTRIBUÍDO DE DADOS EM LARGA ESCALA.
COMPONENTES PRINCIPAIS DO ECOSSISTEMA HADOOP:
þ HADOOP DISTRIBUTED FILE SYSTEM [HDFS]:
þ FUNÇÃO: HDFS É A BASE DO HADOOP, PERMITINDO O ARMAZENAMENTO DE DADOS DE MANEIRA DISTRIBUÍDA E ESCALÁVEL.
þ HADOOP MAPREDUCE:
þ FUNÇÃO: MODELO DE PROGRAMAÇÃO PARA PROCESSAMENTO DISTRIBUÍDO DE DADOS. ELE PROCESSA OS DADOS EM PARALELO, DIVIDINDO O TRABALHO EM ETAPAS DE MAPEAMENTO [MAP] E REDUÇÃO [REDUCE].
þ YARN (YET ANOTHER RESOURCE NEGOTIATOR):
þ FUNÇÃO: GERENCIADOR DE RECURSOS DO HADOOP. ELE COORDENA A EXECUÇÃO DE TAREFAS E A ALOCAÇÃO DE RECURSOS EM UM CLUSTER HADOOP.
þ
þ APACHE HIVE:
þ FUNÇÃO: SISTEMA DE DATA WAREHOUSE CONSTRUÍDO SOBRE O HADOOP, QUE PERMITE A CONSULTA DE GRANDES VOLUMES DE DADOS USANDO UMA LINGUAGEM SIMILAR AO SQL CHAMADA HIVEQL.
þ
þ APACHE HBASE:
þ FUNÇÃO: BANCO DE DADOS NOSQL DISTRIBUÍDO QUE OFERECE SUPORTE PARA LEITURA E ESCRITA EM TEMPO REAL DE GRANDES VOLUMES DE DADOS ARMAZENADOS NO HDFS.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo