Questões de Concurso
Foram encontradas 1.266 questões
Resolva questões gratuitamente!
Junte-se a mais de 4 milhões de concurseiros!
Considere-se que uma empresa de comércio eletrônico deseje armazenar todos os dados relacionados às interações dos clientes em seu site — registros de visitas, cliques, compras, avaliações, comentários, entre outros. Nessa situação, se a empresa decidir não estruturar e organizar esses dados antecipadamente, será melhor armazenar esses dados em uma solução data lake do que em um banco relacional.
Spark é uma arquitetura de sistema operacional para trabalhar com dados organizados de forma hierárquica, utilizando-se o módulo Spark SQL, que permite consultar arquivos pelo seu conteúdo.
Julgue o item a seguir, relativos ao Hadoop e ao Spark.
Hadoop é uma plataforma de código aberto que oferece uma
solução tecnológica confiável e escalável para
armazenamento e análise de grande quantidade de dados.
Um sistema de aprendizado não supervisionado, dotado de um conjunto de dados de treinamento que foram classificados manualmente, tenta aprender, a partir desses dados de treinamento, uma forma de classificá-los, bem como de classificar novos dados, ainda não observados.
Um gráfico muito útil para a etapa de análise de dados é o box plot, que ajuda a identificar a distribuição real ou padrão dos valores dos dados, permite visualizar mediana, quartis, valores mínimos e máximos, além de identificar possíveis outliers.