Uma cientista de dados percebeu que, ao processar alguns doc...
Para começar sua lista de stop-words, ela pode escolher listar todos os
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
A alternativa correta é: C - artigos e preposições.
A questão aborda o conceito de stop-words, que são palavras comumente removidas durante o processamento de texto em tarefas de Processamento de Linguagem Natural (PLN). As stop-words são palavras que aparecem frequentemente em um idioma, mas que geralmente não contribuem significativamente para a análise de texto, como em algoritmos de mineração de texto ou classificação de documentos.
A cientista de dados deseja criar uma lista de stop-words para otimizar o processamento de documentos. Para entender a decisão correta, é necessário conhecer os tipos de palavras que geralmente não fornecem muito valor semântico em análises textuais.
Justificativa da alternativa correta:
C - artigos e preposições: Artigos (como "o", "a", "um", "uma") e preposições (como "de", "em", "por", "com") são tipicamente considerados stop-words. Eles são extremamente comuns e não fornecem muita informação sobre o conteúdo ou o tema do texto, sendo mais usados para conectar palavras e frases.
Justificativa das alternativas incorretas:
A - adjetivos e preposições: Embora preposições sejam stop-words, adjetivos (como "bonito", "grande") carregam significado descritivo e são importantes para a análise textual, não sendo comumente removidos.
B - advérbios e pronomes: Advérbios (como "rapidamente", "muito") e pronomes (como "ele", "isso") podem ser removidos, mas não são tão frequentemente considerados stop-words como artigos e preposições. Advérbios podem alterar o significado de frases de maneira significativa.
D - artigos e substantivos: Artigos são stop-words, mas substantivos (como "casa", "carro") são fundamentais para entender o conteúdo do texto. Eles são as palavras centrais que geralmente queremos analisar.
E - substantivos e verbos: Substantivos e verbos (como "correr", "ler") são essenciais para a análise semântica. Eles carregam a maioria das informações em um texto e, portanto, não são considerados stop-words.
Entender quais palavras são geralmente removidas como stop-words é crucial para melhorar a eficiência e a precisão de algoritmos de processamento de linguagem natural.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Gab: C
A cientista de dados pode começar sua lista de stop-words listando todos os artigos e preposições. Portanto, a alternativa correta é a opção C. Isso porque artigos (como "o", "a", "os", "as") e preposições (como "de", "para", "com", "em") são palavras comuns que geralmente não contribuem muito para o significado ou a análise de texto, e removê-las pode ajudar a reduzir o ruído nos dados.
C) artigos e preposições.
Explicação:
- Artigos: São palavras que definem se um substantivo é específico ou genérico. Exemplos: "o", "a", "os", "as", "um", "uma".
- Preposições: São palavras que indicam relação entre outras palavras na frase. Exemplos: "de", "para", "em", "com", "por", "a".
Motivo da escolha:
- Artigos e preposições são palavras muito comuns que não agregam muito significado ao texto.
- Removê-las pode ajudar a reduzir o tamanho do texto e melhorar o desempenho de algoritmos de processamento de linguagem natural.
Outras palavras que podem ser consideradas stop-words:
- Advérbios: Modificam verbos, adjetivos ou outros advérbios. Exemplos: "muito", "pouco", "sempre", "nunca", "tarde".
- Pronomes: Substituem substantivos na frase. Exemplos: "eu", "você", "ele", "ela", "eles", "elas".
- Conjunções: Ligam duas orações ou frases. Exemplos: "e", "ou", "mas", "porque", "se".
Recomendações:
- A cientista de dados pode começar com uma lista básica de stop-words e depois ir ajustando-a de acordo com as necessidades do seu projeto.
- Existem ferramentas disponíveis online que podem ajudar a gerar listas de stop-words.
- É importante analisar o impacto da remoção de stop-words no desempenho do modelo de processamento de linguagem natural.
eu fui pelo português kkkkkk
Acho que essa a dona Adriana Figueiredo acertaria... kkkk!!!
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo