A atividade de classificação de documentos envolve um grande...

Próximas questões
Com base no mesmo assunto
Q1933590 Estatística
A atividade de classificação de documentos envolve um grande número de tarefas de processamento de linguagem natural, o que pode levar a dúvidas quanto a sua aplicação.
A alternativa que contém apenas tarefas que sejam exemplos de classificação de documentos é:
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Classificação de textos:

Spam – Não Spam;

Análise de sentimento;

Classificação pelo assunto.

Gabarito: C

técnicas de pré-processamento de dados:

  • tokenization
  • stemming
  • lemmatization
  • pos-tagging
  • reconhecimento de entidades nomeadas
  • remoção de stopwards

Aviso: do que eu entendi daquilo que pesquisei:

Letra A: análise de sentimento -> classificação; tokenização -> pré-processamento

Letra B: POS-tagging -> pré-processamento; reconhecimento de entidades nomeadas -> pré-processamento

Letra C: filtragem de SPAM -> classificação; Análise de sentimento -> classificação (gabarito)

Letra D: análise sintática -> pré-processamento?/subcampo?; POS-tagging -> pré-processamento

Letra E: filtragem de stopwords -> pré-processamento; reconhecimento de linguagem -> subcampo de PLN

Gabarito: Letra C

 

A questão trata da atividade de classificação de documentos e pede que se assinale qual dos itens são exemplos de tarefas de classificação de documentos utilizando inteligência artificial. Vejamos:

 

a)  análise de sentimento, tokenização;

 

Errada. A tokenização não diz respeito a classificação, mas sim a leitura de textos. A tokenização trata cada uma das letras de uma palavra individualmente, analisando espaçamento, caracteres especiais entre outros. Análise de sentimento verifica se o texto contém estruturas como texto em caixa alta, emojis, entre outras que podem ser classificadas como positivas ou negativas.

 

b)  POS-tagging, reconhecimento de entidades nomeadas;

 

ErradaO POS-tagging é uma tarefa de associação ou rotulação e não de classificação. Já o O Reconhecimento de Entidades Nomeadas (REN) (ou Named Entity Recognition (NER)) é uma técnica de Processamento de Linguagem Natural (PLN) que consiste em encontrar e identificar nomes de entidades pré-definidas (como pessoas, organizações, locais, etc.) em dados textuais

 

c)  filtragem de SPAM, análise de sentimento;

 

Correta. Sim, a filtragem de SPAM é uma tarefa que classifica e-mails como sendo propaganda, emails de golpes, entre outros indesejados. Ela é uma tarefa bem próxima para a maioria dos usuários. Ela usa, por exemplo um classificador nayve bayes. Já a análise de sentimento também é para classificação. Veja abaixo uma descrição disso:

 

d)  análise sintática, POS-tagging;

 

ErradaA análise sintática é uma tarefa de compilação e não classificação de documentos. Já o OPOS Tagging se trata de um processo de ro-tulação de elementos textuais - tipicamente palavras e pontuação - com o fim de evidenciar a estrutura gramatical de um determinado trecho de texto. Em reconhecimento e síntese de fala, seu uso é útil para extração de termos, desambiguação, composição de novas frases e pesquisa lexográfica;

 

e)  filtragem de stopwords, reconhecimento de linguagem.

 

Errada. Stop Words (Palavras de Parada) são palavras ignoradas para fins de posicionamento em sites de pesquisa, como o Google. Ela usa filtragem e realmente utiliza a classificação e o machine learning. Já o reconhecimento de linguagem não é uma tarefa de classificação.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo