O auditor de contas públicas João está desenvolvendo um mod...
Nesse contexto, o problema observado por João, do modelo ajustar-se excessivamente aos dados de treinamento, é denominado:
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: B - overfitting
Vamos entender melhor o problema que João está enfrentando. O fenômeno observado, onde um modelo tem um desempenho excelente nos dados de treinamento mas apresenta um desempenho ruim nos dados de teste, é conhecido como overfitting.
Overfitting ocorre quando o modelo "ajusta-se excessivamente" aos dados de treinamento, capturando os ruídos e as particularidades dos dados de treinamento, que não são generalizáveis para novos dados (dados de teste). Como resultado, o modelo perde a capacidade de prever corretamente novos dados, apresentando uma alta taxa de erro.
Agora, vejamos por que as outras alternativas estão incorretas:
A - bias (viés)
O bias (ou viés) refere-se a um erro sistemático que ocorre quando um modelo é muito simples para capturar as complexidades dos dados. Isso resulta em um desempenho ruim tanto nos dados de treinamento quanto nos dados de teste. Não é o caso descrito, onde o modelo apresentou bom desempenho nos dados de treinamento.
C - underfitting
Underfitting ocorre quando o modelo é muito simples e não consegue capturar a estrutura subjacente dos dados de treinamento, resultando em um desempenho ruim tanto nos dados de treinamento quanto nos dados de teste. Mais uma vez, isso não se aplica ao caso descrito.
D - oversampling
Oversampling é uma técnica utilizada para balancear conjuntos de dados desbalanceados, gerando novas amostras das categorias minoritárias. Não tem relação direta com o problema de desempenho desigual entre o treinamento e os testes.
E - undersampling
Undersampling também é uma técnica para balancear conjuntos de dados desbalanceados, mas removendo amostras das categorias majoritárias. Assim como o oversampling, não está relacionado ao problema de overfitting.
Portanto, a alternativa correta é B - overfitting, pois descreve exatamente o problema de ajuste excessivo do modelo aos dados de treinamento, resultando em um desempenho ruim nos dados de teste.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
overfitting;
O ajuste excessivo é um comportamento indesejável de aprendizado de máquina que ocorre quando o modelo de aprendizado de máquina fornece previsões precisas para dados de treinamento, mas não para novos dados. Quando os cientistas de dados usam modelos de aprendizado de máquina para fazer previsões, eles primeiro treinam o modelo em um conjunto de dados conhecido
Em aprendizado de máquina, overfitting (sobreajuste) e bias (viés) são dois conceitos fundamentais relacionados à capacidade de generalização de um modelo. Eles representam problemas opostos, mas ambos podem prejudicar o desempenho do modelo.
- Bias (Viés):
- Refere-se à simplificação excessiva das suposições feitas pelo modelo durante o treinamento.
- Um modelo com alto viés tende a não ser flexível o suficiente para capturar a complexidade dos dados.
- Isso pode levar a um desempenho insatisfatório tanto nos dados de treinamento quanto nos dados de teste, resultando em subajuste (underfitting).
- Exemplos de situações que podem levar a um alto viés incluem modelos lineares simples aplicados a problemas intrinsecamente não-lineares e modelos de baixa complexidade aplicados a dados complexos.
- Overfitting (Sobreajuste):
- Refere-se à situação em que um modelo se ajusta muito bem aos dados de treinamento, mas falha em generalizar para novos dados.
- Um modelo com overfitting captura tanto o sinal quanto o ruído nos dados de treinamento, resultando em uma performance pobre nos dados de teste.
- Isso ocorre quando o modelo é muito complexo em relação à quantidade de dados disponíveis, ou quando é permitido treinar o modelo por muitas iterações.
- O overfitting pode ser mitigado usando técnicas como validação cruzada, regularização e aumento de dados.
Em resumo, enquanto o viés está relacionado à incapacidade do modelo de se ajustar adequadamente aos dados de treinamento, o overfitting está relacionado à capacidade excessiva do modelo de se ajustar aos dados de treinamento, incluindo o ruído presente neles. Encontrar o equilíbrio entre viés e variância é um dos desafios fundamentais no desenvolvimento de modelos de aprendizado de máquina.
[ChatGPT]
https://youtu.be/jQIOCMlDAs0?si=1Ue9AcvXZCDNMkus
Nesse vídeo é explicado de maneira visual.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo