Uma cientista de dados percebeu que, ao processar alguns doc...

Próximas questões
Com base no mesmo assunto
Q2383278 Engenharia de Software
Uma cientista de dados percebeu que, ao processar alguns documentos, seria melhor remover palavras que aparecem em quase todo texto, as stop-words.
Para começar sua lista de stop-words, ela pode escolher listar todos os
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

A alternativa correta é: C - artigos e preposições.

A questão aborda o conceito de stop-words, que são palavras comumente removidas durante o processamento de texto em tarefas de Processamento de Linguagem Natural (PLN). As stop-words são palavras que aparecem frequentemente em um idioma, mas que geralmente não contribuem significativamente para a análise de texto, como em algoritmos de mineração de texto ou classificação de documentos.

A cientista de dados deseja criar uma lista de stop-words para otimizar o processamento de documentos. Para entender a decisão correta, é necessário conhecer os tipos de palavras que geralmente não fornecem muito valor semântico em análises textuais.

Justificativa da alternativa correta:

C - artigos e preposições: Artigos (como "o", "a", "um", "uma") e preposições (como "de", "em", "por", "com") são tipicamente considerados stop-words. Eles são extremamente comuns e não fornecem muita informação sobre o conteúdo ou o tema do texto, sendo mais usados para conectar palavras e frases.

Justificativa das alternativas incorretas:

A - adjetivos e preposições: Embora preposições sejam stop-words, adjetivos (como "bonito", "grande") carregam significado descritivo e são importantes para a análise textual, não sendo comumente removidos.

B - advérbios e pronomes: Advérbios (como "rapidamente", "muito") e pronomes (como "ele", "isso") podem ser removidos, mas não são tão frequentemente considerados stop-words como artigos e preposições. Advérbios podem alterar o significado de frases de maneira significativa.

D - artigos e substantivos: Artigos são stop-words, mas substantivos (como "casa", "carro") são fundamentais para entender o conteúdo do texto. Eles são as palavras centrais que geralmente queremos analisar.

E - substantivos e verbos: Substantivos e verbos (como "correr", "ler") são essenciais para a análise semântica. Eles carregam a maioria das informações em um texto e, portanto, não são considerados stop-words.

Entender quais palavras são geralmente removidas como stop-words é crucial para melhorar a eficiência e a precisão de algoritmos de processamento de linguagem natural.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Gab: C

A cientista de dados pode começar sua lista de stop-words listando todos os artigos e preposições. Portanto, a alternativa correta é a opção C. Isso porque artigos (como "o", "a", "os", "as") e preposições (como "de", "para", "com", "em") são palavras comuns que geralmente não contribuem muito para o significado ou a análise de texto, e removê-las pode ajudar a reduzir o ruído nos dados.

C) artigos e preposições.

Explicação:

  • Artigos: São palavras que definem se um substantivo é específico ou genérico. Exemplos: "o", "a", "os", "as", "um", "uma".
  • Preposições: São palavras que indicam relação entre outras palavras na frase. Exemplos: "de", "para", "em", "com", "por", "a".

Motivo da escolha:

  • Artigos e preposições são palavras muito comuns que não agregam muito significado ao texto.
  • Removê-las pode ajudar a reduzir o tamanho do texto e melhorar o desempenho de algoritmos de processamento de linguagem natural.

Outras palavras que podem ser consideradas stop-words:

  • Advérbios: Modificam verbos, adjetivos ou outros advérbios. Exemplos: "muito", "pouco", "sempre", "nunca", "tarde".
  • Pronomes: Substituem substantivos na frase. Exemplos: "eu", "você", "ele", "ela", "eles", "elas".
  • Conjunções: Ligam duas orações ou frases. Exemplos: "e", "ou", "mas", "porque", "se".

Recomendações:

  • A cientista de dados pode começar com uma lista básica de stop-words e depois ir ajustando-a de acordo com as necessidades do seu projeto.
  • Existem ferramentas disponíveis online que podem ajudar a gerar listas de stop-words.
  • É importante analisar o impacto da remoção de stop-words no desempenho do modelo de processamento de linguagem natural.

eu fui pelo português kkkkkk

Acho que essa a dona Adriana Figueiredo acertaria... kkkk!!!

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo