Uma biblioteca está classificando os seus frequentadores em
grupos literários para facilitar a aquisição e a organização dos
livros. Isso foi feito aplicando o algoritmo KNN ao banco de dados
de usuários da biblioteca, incluindo alguns dos campos de
informação como atributos, tais como idade e nível de formação
acadêmica. Em um experimento, uma segunda classificação foi
feita usando um conjunto maior de atributos, incluindo ambos de
maior ou menor relevância percebida com relação aos grupos
definidos.
A segunda classificação tende a ser:

Question

Uma biblioteca está classificando os seus frequentadores em
grupos literários para facilitar a aquisição e a organização dos
livros. Isso foi feito aplicando o algoritmo KNN ao banco de dados
de usuários da biblioteca, incluindo alguns dos campos de
informação como atributos, tais como idade e nível de formação
acadêmica. Em um experimento, uma segunda classificação foi
feita usando um conjunto maior de atributos, incluindo ambos de
maior ou menor relevância percebida com relação aos grupos
definidos.
A segunda classificação tende a ser: Alternativa A: diferente da primeira, pois o algoritmo perde acurácia com o
aumento da quantidade de atributos; Ou Alternativa B: próxima à primeira, pois o algoritmo é robusto a ruído nos
dados; Ou Alternativa C: diferente da primeira, pois o algoritmo sofrerá underfitting; Ou Alternativa D: próxima à primeira, pois o algoritmo pode balancear a
influência dos atributos mais e menos relevantes; Ou Alternativa E: diferente da primeira, pois o algoritmo é sensível a atributos
não relevantes.

Fabio Rocha · Accepted Answer

Alternativa [E] diferente da primeira, pois o algoritmo é sensível a atributos
não relevantes. Aviso: não sou especialista na área mas vou compartilhar o meu entendimento sobre o assunto, aguardando futuras contribuições de pessoas com maior conhecimento na área. O algoritmo KNN, do inglês K-Nearest Neighbors — ou K vizinhos mais próximos em português — usa cálculos de distâncias para encontrar os K vizinhos mais próximos e classificar a instância com base na classificação desses vizinhos. Por exemplo, pode-se usar a classificação predominante entre os vizinhos, ou algum outro método. A adição de mais atributos ao modelo leva à necessidade de realizar mais cálculos, implicando assim em um maior custo computacional. Além disso, a inclusão de atributos não relevantes e ruídos pode deslocar a instância para longe daqueles que seriam os seus vizinhos mais apropriados, resultando em uma classificação pobre. Um terceiro ponto é que, com o aumento do número de atributos, o volume do espaço de dados aumenta e os pontos de dados podem se tornar mais esparsos. Isso impacta negativamente na escolha apropriada dos vizinhos. Este fenômeno é conhecido como "maldição da dimensionalidade". Uma consequência disso pode ser o overfitting, situação na qual o modelo é excessivamente treinado nos dados de treinamento, aprendendo tanto os padrões quanto os ruídos ou outliers, o que resulta em um desempenho de previsão pobre quando o modelo é aplicado a novos conjuntos de dados. Acredito que o problema da letra A pode ser a afirmação taxativa de que perde acurácia, apesar de eu entender que o aumento de atributos pode impactar negativamente. Cabe lembrar que o termo "acurácia" conota uma métrica comumente usada, calculada a partir da razão entre a soma dos verdadeiros positivos com os verdadeiros negativos (numerador) e o total (denominador).

SEJA VITALÍCIO

SEJA VITALÍCIO

Uma biblioteca está classificando os seus frequentadores em ...

Comentários

Clique para visualizar este comentário

Questões de assuntos semelhantes

Provas relacionadas