Uma biblioteca está classificando os seus frequentadores em ...

Próximas questões
Com base no mesmo assunto
Q1933586 Estatística
Uma biblioteca está classificando os seus frequentadores em grupos literários para facilitar a aquisição e a organização dos livros. Isso foi feito aplicando o algoritmo KNN ao banco de dados de usuários da biblioteca, incluindo alguns dos campos de informação como atributos, tais como idade e nível de formação acadêmica. Em um experimento, uma segunda classificação foi feita usando um conjunto maior de atributos, incluindo ambos de maior ou menor relevância percebida com relação aos grupos definidos.
A segunda classificação tende a ser:
Alternativas

Comentários

Veja os comentários dos nossos alunos

Aviso: não sou especialista na área mas vou compartilhar o meu entendimento sobre o assunto, aguardando futuras contribuições de pessoas com maior conhecimento na área. O algoritmo KNN, do inglês K-Nearest Neighbors — ou K vizinhos mais próximos em português — usa cálculos de distâncias para encontrar os K vizinhos mais próximos e classificar a instância com base na classificação desses vizinhos. Por exemplo, pode-se usar a classificação predominante entre os vizinhos, ou algum outro método.

A adição de mais atributos ao modelo leva à necessidade de realizar mais cálculos, implicando assim em um maior custo computacional. Além disso, a inclusão de atributos não relevantes e ruídos pode deslocar a instância para longe daqueles que seriam os seus vizinhos mais apropriados, resultando em uma classificação pobre. Um terceiro ponto é que, com o aumento do número de atributos, o volume do espaço de dados aumenta e os pontos de dados podem se tornar mais esparsos. Isso impacta negativamente na escolha apropriada dos vizinhos. Este fenômeno é conhecido como "maldição da dimensionalidade". Uma consequência disso pode ser o overfitting, situação na qual o modelo é excessivamente treinado nos dados de treinamento, aprendendo tanto os padrões quanto os ruídos ou outliers, o que resulta em um desempenho de previsão pobre quando o modelo é aplicado a novos conjuntos de dados.

Acredito que o problema da letra A pode ser a afirmação taxativa de que perde acurácia, apesar de eu entender que o aumento de atributos pode impactar negativamente. Cabe lembrar que o termo "acurácia" conota uma métrica comumente usada, calculada a partir da razão entre a soma dos verdadeiros positivos com os verdadeiros negativos (numerador) e o total (denominador).

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo