Em relação à classificação de textos em Recuperação de Infor...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
A alternativa correta é a A.
Alternativa A: Os classificadores do tipo Bayes ingênuo estimam a probabilidade de uma classificação correta com base no teorema de Bayes, assumindo que todos os atributos são independentes. Apesar dessa suposição de independência ser bastante simplificadora, o Bayes ingênuo é, de fato, uma alternativa competitiva para a classificação de textos devido à sua eficiência e eficácia em diversos cenários, especialmente quando o número de características é grande.
Alternativa B: Esta alternativa está incorreta porque o método de agrupamento por particionamento é um método de aprendizado não supervisionado, não sendo utilizado em processos de autorrotulagem típicos dos métodos supervisionados. Métodos de agrupamento, como o K-means, dividem dados em grupos baseados em semelhanças, mas não usam rótulos de classe já conhecidos.
Alternativa C: Máquinas de Vetores de Suporte (SVM, do inglês, Support Vector Machines) não assumem que os pesos dos termos são binários. De fato, elas podem considerar várias formas de ponderação, incluindo a frequência dos termos, como TF-IDF (Term Frequency-Inverse Document Frequency), o que torna essa afirmação incorreta.
Alternativa D: Os classificadores do tipo ensemble são, de fato, metaclassificadores, mas sua função principal é combinar previsões de múltiplos modelos individuais para melhorar a precisão e a robustez da classificação. Eles não se baseiam exclusivamente na frequência de documentos de um termo, tornando essa alternativa incorreta.
Alternativa E: O classificador de Rocchio é realmente um método de classificação, mas ele se baseia em vetores de centroides representando classes nos espaços de características. Ele não está relacionado a um sistema de ranqueamento baseado em links semelhantes ao algoritmo PageRank, usado por motores de busca, o que torna esta afirmação incorreta.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
O classificador multinomial Naïve Bayes é um dos modelos mais populares no aprendizado de máquina. Tomando como premissa a suposição de independência entre as variáveis do problema, o modelo de Naïve Bayes realiza uma classificação probabilística de observações, caracterizando-as em classes pré-definidas.
Sendo um modelo adequado para classificação de atributos discretos, o Naïve Bayes tem aplicações na análise de crédito, diagnósticos médicos ou busca por falhas em sistemas mecânicos. (https://www.digitalhouse.com/br/blog/naive-bayes)
[...] também utilizado na área de Aprendizado de Máquina (Machine Learning) para categorizar textos com base na frequência das palavras usadas.
Entre as possibilidades de aplicações está a classificação de um e-mail como SPAM ou Não-SPAM e a identificação de um assunto com base em seu conteúdo.
B - AGRUPAMENTO É NÃO SUPERVISIONADO
C - SVM - cria um campo multidimensional para classificar os dados. Não sei se faz sentido não considerar a frequência dos dados
D - Ensambles é a combinação de classificadores
E - Classificador de Rocchio é um método de ranqueamento de documentos baseado na SIMILARIDADE (links para o documento parece o page-rank, do Google)
Eu, que fiz mestrado em Ciência da Computação (Machine Learning) sei que esse modelo Naive Bayes não é nada competitivo para classificação de texto (a não ser classificações bem superficiais, que não é a tônica do mercado).
Na primeira vez que vi esse item (acho que numa prova da CESPE) marquei errado. Mas dessa vez, coloquei o que sei de lado e marquei o item certo! Esses examinadores devem ter pego essa frase de algum artigo ou livro que falou essa frase num contexto nada generalista. Enfim, vida que segue!
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo