O processo de ingestão de dados é normalmente dividido em t...
1 - Extração, ou coleta, de dados das fontes disponíveis;
2 - Transformação dos dados coletados para que atendam às necessidades específicas de processamento e análise; e
3 - Carga dos dados em algum repositório de destino, como um banco de dados relacional ou um data lake.
Essas três etapas podem variar dependendo de os dados serem estruturados ou não.
Nesse contexto, verifica-se que, na etapa de
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Gabarito: Letra E
A questão aborda o processo conhecido como ETL, sigla para Extract, Transform, Load, que é um processo chave em atividades de Business Intelligence e na preparação de dados para análises avançadas, como Big Data e Data Science. Este processo é dividido em três etapas:
- Extração (Extract): consiste na coleta de dados de diversas fontes, que podem ser estruturados ou não. Esses dados podem vir de bancos de dados, arquivos, APIs, serviços web, entre outros lugares.
- Transformação (Transform): é a etapa onde os dados coletados são limpos, consolidados, modificados e preparados para atender às necessidades de análise. Pode incluir desde a simples normalização de formatos até processos complexos de enriquecimento e deduplicação de dados.
- Carga (Load): é a fase em que os dados já transformados são carregados para o repositório de destino, podendo ser um banco de dados relacional, data warehouse, data lake ou qualquer outro sistema de armazenamento de dados.
É importante notar que o tratamento dos dados pode variar conforme sua natureza. Dados estruturados seguem um esquema definido, enquanto dados não estruturados são mais amorfos e podem requerer técnicas especiais de processamento.
Na alternativa E, menciona-se que os dados não estruturados podem necessitar de técnicas como processamento de linguagem natural ou reconhecimento de imagens durante a etapa de transformação. Isso é verdade porque, ao lidar com dados deste tipo, como textos livres ou imagens, precisamos aplicar métodos específicos para extrair informações úteis e convertê-las em um formato estruturado que possa ser analisado e armazenado de maneira eficiente. Tais técnicas permitem que se obtenha um valor analítico maior dos dados não estruturados, que de outra forma seriam de difícil interpretação por sistemas automatizados.
Portanto, a alternativa E está correta pois reflete com precisão as necessidades de transformação que dados não estruturados podem exigir para se tornarem úteis para análises e armazenamento.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
A) Errada - Na etapa de carga, os dados estruturados podem sim passar por transformações antes de serem transferidos para o repositório de destino.
B) Errada - Na etapa de carga, os dados não estruturados podem ser armazenados diretamente no repositório de destino sem serem convertidos em formatos estruturados.
C) Errada - A coleta de dados estruturados pode ocorrer de diversas maneiras, não apenas através de APIs especializadas. Pode ser feita por meio de consultas a bancos de dados, por exemplo.
D) Errada - A etapa de transformação é onde os dados estruturados podem passar por conversões para se tornarem mais adequados à análise avançada, mas não necessariamente para um formato não estruturado.
E) Correta - Na etapa de transformação, os dados não estruturados podem, de fato, necessitar de processamento de linguagem natural ou técnicas de reconhecimento de imagens para serem organizados e preparados para análises avançadas.
Para quem ficou em dúvida com a B. Bancos de dados estruturais (relacionais) são muito efetivos para armazenar e analisar dados, mas eles dependem de um formato estruturado e extremamente específico. Como o conceito de Big Data é um grande VOLUME de dados chegando em alta VELOCIDADE e com alta VARIEDADE, normalizar para um banco relacional é impossível. Por isso os bancos NoSQL transformam os dados não-estruturados, que são quase impossíveis de analisar (como você analisa um banco de dados constituído de imagens, poesia e música tudo junto?) em dados semiestruturados, geralmente no formato JSON ou XML. Converter todos os dados para estruturados, em muitas ocasiões, é impossível.
Acho que a banca CESGRANRIO está "copiando" o modo FGV de se fazer questões. Nenhum das questões estão efetivamente erradas, mas dando o contexto do comando da pergunta, apenas a letra E seria mais apropriada.
Não consigo entender o erro da letra D. Em uma análise de grafos, por exemplo, dados estruturados podem ser convertidos em não estruturados para uma análise avançada. A letra E para mim é menos correta, pois geralmente a execução de um modelo estatístico como reconhecimento de imagem não se enquadra em algumas definições de ETL.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo