Um problema comum no processamento de texto é o tratamento ...
Considerando o problema acima descrito, a alternativa que apresenta uma técnica usada para sua resolução é:
Comentários
Veja os comentários dos nossos alunos
Gabarito: Letra D
A questão apresenta conceitos de inteligência artificial, especificamente sobre o processamento da linguagem natural ou linguística computacional. Nesse sentido, pergunta qual é a técnica mais adequada dentre as assertivas para o tratamento de termos compostos por mais de um token, tais como “Ministério Público”.
O método mais assertivo para esse trabalho é o uso da representação por n-gramas. Através dela, é possível tratar das palavras com se fossem pequenas partes. Ao usar n-gramas, é possível capturar a coocorrência de palavras adjacentes, o que pode ser especialmente útil para capturar termos compostos como "Ministério Público". Veja abaixo uma descrição disso:
Por fim, vejamos os demais itens;
a) representação por entidade;
Errada. Essa técnica é usada para identificar e extrair entidades nomeadas, como nomes de pessoas, organizações, datas em um texto;
b) índice invertido;
Errada. O índice invertido é uma estrutura de dados usada em mecanismos de busca para acelerar a recuperação de documentos a partir de termos.
c) embedding;
Errada. Embora embeddings possam capturar relações semânticas, não são específicos para resolver o problema de termos compostos.
e) decomposição morfológica.
Errada. A técnica envolve dividir palavras em suas partes constituintes como radicais, prefixos, sufixos para compreender melhor sua estrutura morfológica.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo