Questões de Concurso
Para fiscal
Foram encontradas 7.955 questões
Resolva questões gratuitamente!
Junte-se a mais de 4 milhões de concurseiros!
A técnica de validação cruzada é usada para avaliar modelos de classificação.
Com relação a esta técnica, é correto afirmar que
Certo grupo de pesquisadores utilizou a regressão logística para construir um classificador binário que estima se uma observação pertence a certo grupo de interesse. Este classificador é baseado em uma única variável explicativa x.
Suponha que a função obtida, após o treinamento, é (com p(x) = 1 indicando que a observação pertence ao grupo de
interesse). Uma nova observação tem variável x ≈ ln(3).
Esta nova observação deve ser classificada pelo classificador como
Uma regra de associação utilizada em mineração de dados é uma expressão de implicação no formato X → Y, onde X e Y são conjuntos disjuntos de itens, onde X ∩ Y = Ø. A força de uma regra de associação pode ser medida em termos do seu suporte (sup) e confiança (conf).
Assinale a opção que apresenta a definição formal da métrica confiança.
Com relação ao teorema CAP e suas propriedades aplicadas ao contexto de bancos de dados NoSQL na Web, analise as afirmativas a seguir.
I. Consistência é a garantia de o sistema devolverá a resposta correta a cada requisição de dados que atender, ou seja, os dados devolvidos serão os mais atualizados que estejam disponíveis.
II. Atomicidade é a garantia de que toda requisição recebida pelo sistema em um nó não falho, será respondida o mais isoladamente possível.
III. Performance é a garantia de que o sistema continue operante mesmo no caso da ocorrência de uma falha que isole os nós em grupos, e que os nós não consigam se comunicar com os demais do grupo.
Está correto o que se afirma em
A figura a seguir exibe duas relações R e S.
Sobre essas relações foi aplicada a operação R ÷ S da álgebra relacional.
Assinale a opção que apresenta a relação T resultante.
Com relação às arquiteturas de big data, analise as afirmativas a seguir.
I. As arquiteturas de big data suportam um ou mais tipos de carga de trabalho, por exemplo, processamento em lote de fontes de big data em repouso; processamento em tempo real de big data em movimento; exploração interativa de big data e análise preditiva e aprendizado de máquina.
II. A arquitetura kappa aborda o problema da baixa latência criando dois caminhos para o fluxo de dados. Todos os dados que entram no sistema passam por dois caminhos: a camada de lote (caminho frio) que armazena os dados de entrada em sua forma bruta e executa o processamento os dados em lote, e a camada de velocidade (hot path) que analisa os dados em tempo real. Essa camada é projetada para ter baixa latência, em detrimento da precisão.
III. A arquitetura lambda, posterior à kappa, foi proposta para ser uma alternativa para mitigar os problemas da baixa latência. Lambda tem os mesmos objetivos da kappa, mas com uma distinção importante: todos os dados fluem por um único caminho, usando um sistema de processamento de fluxo de dados. Semelhante à camada de velocidade da arquitetura lambda, todo o processamento de eventos é realizado através de um fluxo único de entrada.
Está correto o que se afirma em
Com relação às características dos componentes do ecossistema Hadoop, analise as afirmativas a seguir.
I. Kafka é um gerenciador de armazenamento de dados do tipo colunar de código aberto de fácil integração com MapReduce e Spark, que utiliza o modelo de consistência forte, permite que o desenvolvedor escolha requisitos de consistência por solicitação, incluindo a opção de consistência estritamente serializável.
II. Impala, que tem forte integração com o Kudu, permite que o desenvolvedor de aplicações o utilize para inserir, consultar, atualizar e excluir dados no Kudu usando a sintaxe SQL do Impala. Adicionalmente, permite usar JDBC ou ODBC para conectar aplicativos novos ou pré-existentes escritos em qualquer linguagem, estrutura ou ferramenta de inteligência de negócios.
III. Kudu permite integrar seu próprio catálogo com o Hive Metastore (HMS). O HMS é o provedor de metadados e catálogo padrão no ecossistema Hadoop. Quando a integração está habilitada, as tabelas Kudu podem ser descobertas e usadas por ferramentas externas com reconhecimento de HMS, mesmo que elas não estejam integradas ao Kudu.
Está correto o que se afirma em
Leia o fragmento a seguir.
“Atualmente, no contexto do Big Data e Data Analytics, faz-se referência às características enunciadas por pesquisadores e produtores de soluções como sendo um conjunto de cinco Vs. Originalmente, a definição clássica de Big Data fez referência a três Vs fundamentais: _____, _____ e _____ de dados que demandam formas inovadoras e rentáveis de processamento da informação, para melhor percepção e tomada de decisão.”
Assinale a opção cujos itens completam corretamente as lacunas do fragmento acima, na ordem apresentada.
CRISP-DM é um modelo de referência não proprietário e tecnologicamente neutro que pode ser usado por iniciantes ou especialistas para descrever o ciclo de vida de projetos de Mineração de Dados em seis fases distintas.
A terceira fase do modelo corresponde
Com relação às características de dados semiestruturados, analise as afirmativas a seguir.
I. Os esquemas de dados semiestruturados são usualmente definidos após a existência dos dados, tendo como base uma investigação de suas estruturas particulares e da análise de diferenças e similaridades. No entanto, isto não significa que sempre existirá um esquema associado a um dado semiestruturado.
II. Devido à natureza evolucionária e regular dos dados semiestruturados, as estruturas de representação implícitas ou explícitas restringem-se a descrever o estado corrente de poucas ocorrências de dados similares. Dessa forma, é possível prescrever esquemas completos existindo poucas restrições de integridade com relação à semântica dos atributos.
III. Como a estrutura está embutida na descrição dos dados, muitas vezes não é clara a distinção lógica entre a estrutura e o conteúdo. Por exemplo, um endereço representado como um valor atômico em uma ocorrência de dado ou como um tipo pré-definido pelo usuário (com atributos rua, número e complemento) em outra ocorrência. Esta característica dificulta o projeto de banco de dados relacional para tais dados.
Está correto o que se afirma em
Dados conectados referem-se a um conjunto de boas práticas para publicação e conexão de dados na Web, usando padrões recomendados pelo W3C. Eles são guiados por princípios conhecidos como “sistema de 5 estrelas”, que classificam, por meio de estrelas, o grau de abertura dos dados.
Dados conectados classificados com “3 estrelas” são dados abertos já disponíveis na Internet de maneira
Suponha a entrega de um laboratório (SaaS) como microsserviços na nuvem, onde cada aluno terá um espaço dedicado de memória, processamento, e poderá abrir uma interface Web e rodar códigos em Python. O espaço individual de cada aluno será criado a partir de uma mesma imagem.
Assinale a opção que apresenta a plataforma de entrega na nuvem para atender a essa demanda.
O desenvolvimento e a disponibilização de serviços na nuvem é uma prática muito comum.
Sobre uma plataforma de streaming de filmes que cobra por assinatura, assinale a opção que indica o modelo de serviço recebido do provedor de nuvem e o que é entregue pelo desenvolvedor ao usuário final.