Para a realização de análises preditivas e de agrupamento típicas
de mineração de textos, os dados não estruturados textuais devem
ser preparados antes de serem analisados. Este processo consiste
em quatro etapas: análise lexical, eliminação de termos
irrelevantes, redução da palavra ao seus radical e construção de
uma representação vetorial.
A etapa de análise lexical consiste na

Question

Para a realização de análises preditivas e de agrupamento típicas
de mineração de textos, os dados não estruturados textuais devem
ser preparados antes de serem analisados. Este processo consiste
em quatro etapas: análise lexical, eliminação de termos
irrelevantes, redução da palavra ao seus radical e construção de
uma representação vetorial.
A etapa de análise lexical consiste na Alternativa A: geração de uma lista de termos obtidas do texto original, a
partir da eliminação da pontuação e de outros caracteres que
são desnecessários no contexto em que o texto será analisado. Ou Alternativa B: eliminação de artigos, pronomes, numerais, conjunções,
advérbios e palavras de outras classes gramaticais do texto
que são irrelevantes no processo de mineração de dados. Ou Alternativa C: uniformização dos termos a partir da remoção dos sufixos e
prefixos das palavras. Ou Alternativa D: atribuição de pesos a cada termo presente no dicionário de
termos. Ou Alternativa E: associação de cada termo do texto a um radical da biblioteca
do corpus ao qual o documento está contido.

Qconcursos · Accepted Answer

Alternativa [A] geração de uma lista de termos obtidas do texto original, a
partir da eliminação da pontuação e de outros caracteres que
são desnecessários no contexto em que o texto será analisado. Tema central da questão:

A questão aborda o processo de preparação de dados textuais não estruturados para análises preditivas e de agrupamento, comumente usadas em mineração de textos. Compreender esta questão requer familiaridade com o pré-processamento de texto, que é crucial para transformar dados textuais brutos em um formato adequado para análise.

Resumo teórico:

O pré-processamento de texto envolve várias etapas, como a análise lexical, que consiste na transformação do texto bruto em uma lista de palavras ou tokens. Essa etapa é essencial porque elimina elementos que não são palavras, como pontuação e caracteres especiais. Segundo fontes como o livro "Introduction to Information Retrieval" de Manning et al., esta é uma prática comum em processamento de linguagem natural.

Justificativa da alternativa correta (A):

A alternativa A é a correta porque descreve precisamente a análise lexical. Este processo envolve a geração de uma lista de termos a partir da eliminação de pontuação e caracteres desnecessários, preparando o texto para as etapas subsequentes de análise.

Análise das alternativas incorretas:

B: Descreve a eliminação de termos irrelevantes, como artigos e pronomes, que é uma etapa posterior à análise lexical e é conhecida como remoção de stopwords.
    C: Refere-se à lemmatização ou stemming, que é a redução de palavras aos seus radicais, um processo que ocorre após a análise lexical.
    D: Atribuir pesos a termos é parte da vetorização, que ocorre depois que o texto foi completamente processado e tokenizado.
    E: Refere-se à lemmatização, mas de forma incorreta, pois a associação de termos a um radical não é limitada ao uso de uma biblioteca do corpus.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

SEJA VITALÍCIO

SEJA VITALÍCIO

Para a realização de análises preditivas e de agrupamento tí...

Gabarito comentado

Clique para visualizar este gabarito

Comentários

Clique para visualizar este comentário

Questões de assuntos semelhantes

Provas relacionadas