Para a realização de análises preditivas e de agrupamento tí...
A etapa de análise lexical consiste na
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Tema central da questão:
A questão aborda o processo de preparação de dados textuais não estruturados para análises preditivas e de agrupamento, comumente usadas em mineração de textos. Compreender esta questão requer familiaridade com o pré-processamento de texto, que é crucial para transformar dados textuais brutos em um formato adequado para análise.
Resumo teórico:
O pré-processamento de texto envolve várias etapas, como a análise lexical, que consiste na transformação do texto bruto em uma lista de palavras ou tokens. Essa etapa é essencial porque elimina elementos que não são palavras, como pontuação e caracteres especiais. Segundo fontes como o livro "Introduction to Information Retrieval" de Manning et al., esta é uma prática comum em processamento de linguagem natural.
Justificativa da alternativa correta (A):
A alternativa A é a correta porque descreve precisamente a análise lexical. Este processo envolve a geração de uma lista de termos a partir da eliminação de pontuação e caracteres desnecessários, preparando o texto para as etapas subsequentes de análise.
Análise das alternativas incorretas:
- B: Descreve a eliminação de termos irrelevantes, como artigos e pronomes, que é uma etapa posterior à análise lexical e é conhecida como remoção de stopwords.
- C: Refere-se à lemmatização ou stemming, que é a redução de palavras aos seus radicais, um processo que ocorre após a análise lexical.
- D: Atribuir pesos a termos é parte da vetorização, que ocorre depois que o texto foi completamente processado e tokenizado.
- E: Refere-se à lemmatização, mas de forma incorreta, pois a associação de termos a um radical não é limitada ao uso de uma biblioteca do corpus.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Gab. A
O processo de preparação dos dados textuais envolve as seguintes etapas:
Análise Lexical ==> Consiste na geração de uma lista de termos a partir do texto original, eliminando pontuação e outros caracteres desnecessários. O objetivo é transformar o texto bruto em unidades de análise, chamadas de termos ou tokens;
Eliminação de termos irrelevantes ==> Nesta etapa, palavras que não contribuem significativamente para a análise, como artigos, pronomes, conjunções e advérbios, são removidas do texto.
Redução da palavra ao seu radical (Stemming) ==> Consiste na remoção de sufixos e prefixos das palavras, reduzindo-as à sua forma raiz ou radical. Isso ajuda a uniformizar as palavras para melhorar a análise.
Construção de uma representação vetorial ==> Após a preparação, os textos são convertidos em uma forma matemática, geralmente usando métodos como a matriz termo-documento ou técnicas como TF-IDF (Term Frequency-Inverse Document Frequency), que representam o peso e a importância de cada termo no contexto do texto. K-Means
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo