O auditor de contas públicas João está desenvolvendo um mod...

Próximas questões
Com base no mesmo assunto
Q2398314 Engenharia de Software
O auditor de contas públicas João está desenvolvendo um modelo de aprendizado de máquina para identificar transações financeiras suspeitas em uma auditoria de contas. Após treinar o modelo, João observa que esse tem um desempenho excelente nos dados de treinamento, mas apresenta um desempenho ruim nos dados de teste, com uma alta taxa de erro.
Nesse contexto, o problema observado por João, do modelo ajustar-se excessivamente aos dados de treinamento, é denominado: 
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: B - overfitting

Vamos entender melhor o problema que João está enfrentando. O fenômeno observado, onde um modelo tem um desempenho excelente nos dados de treinamento mas apresenta um desempenho ruim nos dados de teste, é conhecido como overfitting.

Overfitting ocorre quando o modelo "ajusta-se excessivamente" aos dados de treinamento, capturando os ruídos e as particularidades dos dados de treinamento, que não são generalizáveis para novos dados (dados de teste). Como resultado, o modelo perde a capacidade de prever corretamente novos dados, apresentando uma alta taxa de erro.

Agora, vejamos por que as outras alternativas estão incorretas:

A - bias (viés)

O bias (ou viés) refere-se a um erro sistemático que ocorre quando um modelo é muito simples para capturar as complexidades dos dados. Isso resulta em um desempenho ruim tanto nos dados de treinamento quanto nos dados de teste. Não é o caso descrito, onde o modelo apresentou bom desempenho nos dados de treinamento.

C - underfitting

Underfitting ocorre quando o modelo é muito simples e não consegue capturar a estrutura subjacente dos dados de treinamento, resultando em um desempenho ruim tanto nos dados de treinamento quanto nos dados de teste. Mais uma vez, isso não se aplica ao caso descrito.

D - oversampling

Oversampling é uma técnica utilizada para balancear conjuntos de dados desbalanceados, gerando novas amostras das categorias minoritárias. Não tem relação direta com o problema de desempenho desigual entre o treinamento e os testes.

E - undersampling

Undersampling também é uma técnica para balancear conjuntos de dados desbalanceados, mas removendo amostras das categorias majoritárias. Assim como o oversampling, não está relacionado ao problema de overfitting.

Portanto, a alternativa correta é B - overfitting, pois descreve exatamente o problema de ajuste excessivo do modelo aos dados de treinamento, resultando em um desempenho ruim nos dados de teste.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

overfitting;

O ajuste excessivo é um comportamento indesejável de aprendizado de máquina que ocorre quando o modelo de aprendizado de máquina fornece previsões precisas para dados de treinamento, mas não para novos dados. Quando os cientistas de dados usam modelos de aprendizado de máquina para fazer previsões, eles primeiro treinam o modelo em um conjunto de dados conhecido

Em aprendizado de máquina, overfitting (sobreajuste) e bias (viés) são dois conceitos fundamentais relacionados à capacidade de generalização de um modelo. Eles representam problemas opostos, mas ambos podem prejudicar o desempenho do modelo.

  1. Bias (Viés):
  • Refere-se à simplificação excessiva das suposições feitas pelo modelo durante o treinamento.
  • Um modelo com alto viés tende a não ser flexível o suficiente para capturar a complexidade dos dados.
  • Isso pode levar a um desempenho insatisfatório tanto nos dados de treinamento quanto nos dados de teste, resultando em subajuste (underfitting).
  • Exemplos de situações que podem levar a um alto viés incluem modelos lineares simples aplicados a problemas intrinsecamente não-lineares e modelos de baixa complexidade aplicados a dados complexos.
  1. Overfitting (Sobreajuste):
  • Refere-se à situação em que um modelo se ajusta muito bem aos dados de treinamento, mas falha em generalizar para novos dados.
  • Um modelo com overfitting captura tanto o sinal quanto o ruído nos dados de treinamento, resultando em uma performance pobre nos dados de teste.
  • Isso ocorre quando o modelo é muito complexo em relação à quantidade de dados disponíveis, ou quando é permitido treinar o modelo por muitas iterações.
  • O overfitting pode ser mitigado usando técnicas como validação cruzada, regularização e aumento de dados.

Em resumo, enquanto o viés está relacionado à incapacidade do modelo de se ajustar adequadamente aos dados de treinamento, o overfitting está relacionado à capacidade excessiva do modelo de se ajustar aos dados de treinamento, incluindo o ruído presente neles. Encontrar o equilíbrio entre viés e variância é um dos desafios fundamentais no desenvolvimento de modelos de aprendizado de máquina.

[ChatGPT]

https://youtu.be/jQIOCMlDAs0?si=1Ue9AcvXZCDNMkus

Nesse vídeo é explicado de maneira visual.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo