Questões de Concurso Público AGERGS 2022 para Técnico Superior Engenheiro de Dados
Foram encontradas 70 questões
I. Hadoop e Elasticsearch são exemplos de tecnologias que permitem a computação em nuvem.
II. BIG Data é o termo em tecnologia da informação que tem a capacidade de trabalhar com grandes conjuntos de dados.
III. O Conceito de BIG DATA pode ser subdividido em 5 categorias ou “5 v’s”, VOLUME, VALOR, VELOCIDADE, VERACIDADE e VARIEDADE.
IV. Um dos maiores desafios em trabalhar com soluções de BIG DATA é o volume dos dados.
I. De forma geral, o Spark é uma engine rápida, escrita em Scala, para processamento de grandes volumes de dados em um cluster de computadores.
II. Scala é uma linguagem funcional que roda na JVM.
III. O Spark, assim como o Hadoop, também foi pensado para ser escalável.
IV. Umas das grandes vantagens do Spark em relação ao Hadoop são as High Level API’s de programação. Enquanto que o Hadoop é nativamente apenas Java, no Spark, temos a disposição API ’s em Scala, Java e Python.
I. Similar a linguagem SQL, Spark SQLfunciona de maneira similar ao Hive, que converte códigos SQL para Map Reduce Java.
II. Spark Streaming é uma extensão do Spark, voltada para processamento de dados em tempo real, apresentando diversas propriedades interessantes, entre elas, podemos destacar a escalabilidade e a tolerância a falhas, processamento único e a possível integração entre processos batch e em tempo real.
III. O MLLib consiste em uma biblioteca de códigos de machine learning prontos e disponíveis para uso, funcionando de forma muito parecida aos pacotes do R ou ao numpy e ao scikit-learn do python.
IV. O GraphX, foi desenvolvido com o intuito de substituir os sistemas especializados de grafos que foram feitos para Hadoop, permitindo a análise e processamento de grafos em paralelo.
I. Stopwords.
II. Tf-id+f (Term Frequency-inverse document frequency).
III. Word embedding.
IV. Word2vec.