Em relação à classificação de textos em Recuperação de Infor...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
A alternativa correta é a A.
Alternativa A: Os classificadores do tipo Bayes ingênuo estimam a probabilidade de uma classificação correta com base no teorema de Bayes, assumindo que todos os atributos são independentes. Apesar dessa suposição de independência ser bastante simplificadora, o Bayes ingênuo é, de fato, uma alternativa competitiva para a classificação de textos devido à sua eficiência e eficácia em diversos cenários, especialmente quando o número de características é grande.
Alternativa B: Esta alternativa está incorreta porque o método de agrupamento por particionamento é um método de aprendizado não supervisionado, não sendo utilizado em processos de autorrotulagem típicos dos métodos supervisionados. Métodos de agrupamento, como o K-means, dividem dados em grupos baseados em semelhanças, mas não usam rótulos de classe já conhecidos.
Alternativa C: Máquinas de Vetores de Suporte (SVM, do inglês, Support Vector Machines) não assumem que os pesos dos termos são binários. De fato, elas podem considerar várias formas de ponderação, incluindo a frequência dos termos, como TF-IDF (Term Frequency-Inverse Document Frequency), o que torna essa afirmação incorreta.
Alternativa D: Os classificadores do tipo ensemble são, de fato, metaclassificadores, mas sua função principal é combinar previsões de múltiplos modelos individuais para melhorar a precisão e a robustez da classificação. Eles não se baseiam exclusivamente na frequência de documentos de um termo, tornando essa alternativa incorreta.
Alternativa E: O classificador de Rocchio é realmente um método de classificação, mas ele se baseia em vetores de centroides representando classes nos espaços de características. Ele não está relacionado a um sistema de ranqueamento baseado em links semelhantes ao algoritmo PageRank, usado por motores de busca, o que torna esta afirmação incorreta.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
O classificador multinomial Naïve Bayes é um dos modelos mais populares no aprendizado de máquina. Tomando como premissa a suposição de independência entre as variáveis do problema, o modelo de Naïve Bayes realiza uma classificação probabilística de observações, caracterizando-as em classes pré-definidas.
Sendo um modelo adequado para classificação de atributos discretos, o Naïve Bayes tem aplicações na análise de crédito, diagnósticos médicos ou busca por falhas em sistemas mecânicos. (https://www.digitalhouse.com/br/blog/naive-bayes)
[...] também utilizado na área de Aprendizado de Máquina (Machine Learning) para categorizar textos com base na frequência das palavras usadas.
Entre as possibilidades de aplicações está a classificação de um e-mail como SPAM ou Não-SPAM e a identificação de um assunto com base em seu conteúdo.
B - AGRUPAMENTO É NÃO SUPERVISIONADO
C - SVM - cria um campo multidimensional para classificar os dados. Não sei se faz sentido não considerar a frequência dos dados
D - Ensambles é a combinação de classificadores
E - Classificador de Rocchio é um método de ranqueamento de documentos baseado na SIMILARIDADE (links para o documento parece o page-rank, do Google)
Eu, que fiz mestrado em Ciência da Computação (Machine Learning) sei que esse modelo Naive Bayes não é nada competitivo para classificação de texto (a não ser classificações bem superficiais, que não é a tônica do mercado).
Na primeira vez que vi esse item (acho que numa prova da CESPE) marquei errado. Mas dessa vez, coloquei o que sei de lado e marquei o item certo! Esses examinadores devem ter pego essa frase de algum artigo ou livro que falou essa frase num contexto nada generalista. Enfim, vida que segue!
a-
nao é toa q o Algoritmo Naïve Bayes é um Método probabilístico de classificação. esse tipo de algo busca a Classe mais provável. Aprender um modelo por treinamento que determine a classe mais provável para nova instância dado o seu vetor de atributos
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo