Uma organização de notícias online quer melhorar sua capaci...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
A alternativa correta é a D. Vamos entender por quê.
O tema da questão está centrado na necessidade de categorizar automaticamente artigos em tópicos relevantes utilizando conteúdo textual não estruturado. Para resolver essa questão, é essencial compreender conceitos de Data Mining e Processamento de Linguagem Natural (PLN), especificamente no contexto de aprendizado de máquina.
Justificativa da alternativa correta (D):
A alternativa D sugere o uso de algoritmos de aprendizado de máquina não supervisionado, como o LDA (Latent Dirichlet Allocation). O LDA é uma técnica amplamente utilizada para a descoberta automática de tópicos em grandes coleções de documentos. Ele é eficaz porque identifica padrões e distribuições de palavras que ocorrem juntas frequentemente, permitindo a categorização sem a necessidade de conjuntos de dados previamente etiquetados. Portanto, para uma organização de notícias que deseja categorizar artigos sem rótulos prévios, o LDA é uma escolha ideal.
Análise das alternativas incorretas:
A: A utilização de técnicas de tokenização e análise de frequência de termos é uma abordagem válida para entender a distribuição de palavras, mas é limitada para categorização automática de tópicos, pois apenas quantifica termos sem considerar a semântica e contexto mais profundo que o LDA pode capturar.
B: Implementar um sistema de gerenciamento de banco de dados relacional e usar consultas SQL para classificação é ineficaz para categorização automática de textos. Bancos de dados relacionais são ótimos para armazenamento e recuperação direta, mas não são projetados para processamento e descoberta de padrões em textos não estruturados.
C: Aplicação de redes neurais convolucionais (CNNs) é mais adequada para processamento de imagens e não de texto. Embora CNNs sejam poderosas, sua aplicação para categorizar textos por meio de imagens associadas não é prática ou eficiente para a tarefa principal explicitada no contexto da questão.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
GAB D
A abordagem mais eficaz para organizar automaticamente grandes volumes de conteúdo textual não estruturado e facilitar a busca e recuperação de informações específicas é o emprego de algoritmos de aprendizado de máquina não supervisionado, como o LDA (Latent Dirichlet Allocation), para descobrir automaticamente os tópicos nos documentos. Diferentemente de outras opções, o LDA é uma técnica projetada especificamente para identificar padrões de coocorrência de palavras e inferir tópicos latentes em um conjunto de textos, tornando-o ideal para categorizar artigos de notícias.
Técnicas de tokenização e análise de frequência de termos podem ajudar na análise superficial de texto, mas não conseguem identificar os tópicos subjacentes de forma autônoma.
Por outro lado, sistemas de banco de dados relacionais são úteis apenas para armazenamento e organização de artigos, sem oferecer recursos automáticos para classificação.
Já redes neurais convolucionais (CNNs) são mais indicadas para processamento de imagens e, portanto, inadequadas para analisar texto diretamente. Assim, o LDA destaca-se como a melhor opção para esse cenário.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo