Considerando o projeto Apache Hadoop, julgue os itens
subsequentes.
Ao serem armazenados no HDFS (Hadoop Distributed File
System), os dados do Hadoop são divididos em blocos e
distribuídos em discos distintos de um mesmo servidor, o
que acelera o seu processamento, já que são pesquisados de
forma simultânea, e não de forma sequencial.
Com relação aos fundamentos do big data, julgue os itens que se
seguem.
Big data caracteriza-se, principalmente, por volume,
variedade e velocidade, o que se justifica devido ao fato de
os dados serem provenientes de sistemas estruturados, que
são maioria, e de sistemas não estruturados, os quais, embora
ainda sejam minoria, vêm, ao longo dos anos,
crescendo consideravelmente.
Com relação aos fundamentos do big data, julgue os itens que se
seguem.
No que se refere aos três Vs do big data, o termo volume
refere-se a dados que, atualmente, não são estruturados nem
armazenados em tabelas relacionais, o que torna sua análise
mais complexa.
Dados ausentes são muito comuns em aplicações que
envolvem preenchimentos de formulários. Para o seu tratamento
estatístico, encontra-se, na literatura, uma taxonomia para o
mecanismo gerador de dados ausentes que os classifica em tipos
como MAR (missing at random), MCAR (missing completely at
random) e MNAR (missing not at random).
Considerando essas informações, julgue os itens subsequentes,
relativos ao tratamento de dados ausentes.
Geralmente, os dados ausentes do tipo MNAR são
ignoráveis por não haver relação entre o processo gerador de
dados ausentes e os parâmetros que são objeto de estudo
estatístico.