Em relação à classificação de textos em Recuperação de Infor...
O classificador multinomial Naïve Bayes é um dos modelos mais populares no aprendizado de máquina. Tomando como premissa a suposição de independência entre as variáveis do problema, o modelo de Naïve Bayes realiza uma classificação probabilística de observações, caracterizando-as em classes pré-definidas.
Sendo um modelo adequado para classificação de atributos discretos, o Naïve Bayes tem aplicações na análise de crédito, diagnósticos médicos ou busca por falhas em sistemas mecânicos. (https://www.digitalhouse.com/br/blog/naive-bayes)
[...] também utilizado na área de Aprendizado de Máquina (Machine Learning) para categorizar textos com base na frequência das palavras usadas.
Entre as possibilidades de aplicações está a classificação de um e-mail como SPAM ou Não-SPAM e a identificação de um assunto com base em seu conteúdo.
B - AGRUPAMENTO É NÃO SUPERVISIONADO
C - SVM - cria um campo multidimensional para classificar os dados. Não sei se faz sentido não considerar a frequência dos dados
D - Ensambles é a combinação de classificadores
E - Classificador de Rocchio é um método de ranqueamento de documentos baseado na SIMILARIDADE (links para o documento parece o page-rank, do Google)
Eu, que fiz mestrado em Ciência da Computação (Machine Learning) sei que esse modelo Naive Bayes não é nada competitivo para classificação de texto (a não ser classificações bem superficiais, que não é a tônica do mercado).
Na primeira vez que vi esse item (acho que numa prova da CESPE) marquei errado. Mas dessa vez, coloquei o que sei de lado e marquei o item certo! Esses examinadores devem ter pego essa frase de algum artigo ou livro que falou essa frase num contexto nada generalista. Enfim, vida que segue!