Considere que, durante o processo de treinamento de um model...

Próximas questões
Com base no mesmo assunto
Q2471735 Engenharia de Software
Considere que, durante o processo de treinamento de um modelo de aprendizagem de máquina, tenha ocorrido sobreajuste (overfitting) dos dados. Acerca dessa situação hipotética, julgue os itens a seguir.

I Os dados utilizados durante o treinamento possuem grande quantidade de informações irrelevantes.
II O modelo utilizado é de baixa complexidade e aprendeu o ruído nos dados de treinamento.
III A validação cruzada K-fold é um dos métodos que podem ser utilizados na detecção da ocorrência de sobreajuste.

Assinale a opção correta.
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

A alternativa correta é: C - Apenas os itens I e III estão certos.

Vamos analisar cada item da questão e entender o porquê dessa resposta:

Item I: "Os dados utilizados durante o treinamento possuem grande quantidade de informações irrelevantes."
Este item está correto. Uma das causas comuns de overfitting é a presença de dados irrelevantes ou ruidosos. Quando o modelo se ajusta muito bem aos dados de treinamento, ele pode acabar aprendendo não apenas os padrões relevantes, mas também o ruído e as informações desnecessárias. Isso reduz sua capacidade de generalização para novos dados.

Item II: "O modelo utilizado é de baixa complexidade e aprendeu o ruído nos dados de treinamento."
Este item está incorreto. O overfitting geralmente ocorre quando o modelo é de alta complexidade e, consequentemente, tem muitos parâmetros. Modelos de baixa complexidade tendem a sofrer de underfitting, onde eles são incapazes de capturar a complexidade dos dados de treinamento.

Item III: "A validação cruzada K-fold é um dos métodos que podem ser utilizados na detecção da ocorrência de sobreajuste."
Este item está correto. A validação cruzada K-fold é uma técnica amplamente utilizada para avaliar a capacidade de generalização de um modelo. Ao dividir os dados em K subconjuntos (folds) e treinar o modelo K vezes, cada vez utilizando um subconjunto diferente como conjunto de validação e os K-1 restantes como conjunto de treinamento, podemos detectar se o modelo está se ajustando excessivamente aos dados de treinamento.

Portanto, considerando a análise dos itens, a resposta correta é a alternativa C - Apenas os itens I e III estão certos.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

I. Os dados utilizados durante o treinamento possuem grande quantidade de informações irrelevantes.

  • Correto. O sobreajuste pode ocorrer quando os dados de treinamento contêm muitas informações irrelevantes ou ruído, o que leva o modelo a aprender padrões espúrios que não são generalizáveis para novos dados.

II. O modelo utilizado é de baixa complexidade e aprendeu o ruído nos dados de treinamento.

  • Incorreto. O sobreajuste (overfitting) ocorre quando o modelo é excessivamente complexo em relação à quantidade de dados disponíveis. Isso significa que o modelo tem capacidade para memorizar os dados de treinamento em vez de aprender padrões geralmente aplicáveis a novos dados. Portanto, é mais provável que o sobreajuste ocorra em modelos de alta complexidade, em vez de baixa complexidade.

III. A validação cruzada K-fold é um dos métodos que podem ser utilizados na detecção da ocorrência de sobreajuste.

  • Correto. A validação cruzada K-fold é uma técnica comum para avaliar o desempenho de um modelo e pode ajudar a detectar a ocorrência de sobreajuste. Ela divide os dados em k conjuntos de treinamento e teste, treinando o modelo k vezes e avaliando-o em cada conjunto de teste. Isso pode fornecer uma estimativa mais robusta do desempenho do modelo em dados não vistos e ajudar a identificar se o modelo está se ajustando demais aos dados de treinamento.

Fonte: Chatgpt

C - Apenas os itens I e III estão certos. 

Overfitting:

  • Dados precisos para treinamento, (não servem para testes)
  • grande qtd. de dados irrelevantes (dados ruidosos)
  • complexidade alta
  • Validação cruzada K-fold (divide em subconjuntos)

Alguns métodos para evitar o Overfitting:

  • parada antecipada
  • poda
  • regularização
  • agrupamento em conjunto
  • aumento de dados

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo