O método random forests para classificação ou regressão pot...
O uso de random forests seria vantajoso em relação à árvore de decisão no seguinte caso:
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: B - conjunto de dados com propensão à overfitting.
O método random forests é uma técnica de conjunto que consiste na criação de múltiplas árvores de decisão durante o treinamento e na combinação dos resultados de cada uma delas para melhorar a precisão e evitar o problema de overfitting, que ocorre quando o modelo se ajusta demais aos dados de treinamento e tem dificuldade em generalizar para dados novos. Random forests atinge essa melhoria ao utilizar amostragem aleatória dos dados de treinamento com reposição (bagging) e seleção aleatória de características para dividir cada nó das árvores de decisão.
A escolha de random forests é eficaz quando comparada a uma única árvore de decisão em situações com risco alto de overfitting, pois a agregação de diversas árvores reduz a variância do modelo. Assim, a alternativa correta é a B, pois o método é particularmente vantajoso em conjuntos de dados que possam levar a uma única árvore de decisão a memorizar demais os dados de treinamento, perdendo poder de predição para dados não vistos anteriormente.
As outras alternativas listadas não são benefícios proporcionados pelo método random forests em comparação com uma única árvore de decisão:
- A: Random forests geralmente aumenta o custo computacional devido à necessidade de treinar várias árvores.
- C: Random forests tende a ser menos interpretável do que uma única árvore de decisão, já que o modelo final é composto por muitas árvores.
- D: Para conjuntos de dados muito pequenos, qualquer modelo complexo, incluindo random forests, pode não ser adequado devido ao risco de overfitting.
- E: Um número elevado de classes não é uma vantagem intrínseca das random forests; dependendo do caso, pode até complicar o processo de classificação devido à complexidade aumentada.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Florestas Aleatórias são propensas a sofrer com overfitting, dado que árvores individuais geralmente não se ajustam bem aos dados de treinamento.
Overfitting é um fenômeno em que um modelo aprendeu padrões dos dados de treinamento que não generalizam bem para novos dados. Isso significa que o modelo é muito complexo e memorizou os dados de treinamento, levando a um desempenho ruim em dados inéditos.
FONTE: PDF DO ESTRATÉGIA
Gabarito: Letra B
O overfitting é um problema comum em árvores de decisão que ocorre quando o modelo se ajusta excessivamente aos dados de treinamento, resultando em baixo desempenho em dados de teste ou novos;
Isso pode ocorrer quando a árvore é muito profunda e captura o ruído e a variabilidade dos dados de treinamento, em vez das características gerais que são úteis para fazer previsões precisas em novos dados.
As Random Forests podem ajudar a reduzir o overfitting, porque em vez de construir apenas uma árvore de decisão em todo o conjunto de dados, ela constrói várias árvores de decisão em subconjuntos diferentes de dados. Isso ajuda a reduzir a variação do modelo, o que significa que o modelo é menos propenso a se ajustar excessivamente aos dados de treinamento.
Além disso, as Random Forests combinam as previsões de várias árvores para produzir uma previsão final, o que geralmente leva a um modelo mais preciso e generalizado.
Portanto, a alternativa b) é correta porque as Random Forests são uma boa escolha quando se lida com conjuntos de dados que têm propensão ao overfitting.
As florestas aleatórias (ou random forests) são métodos de aprendizado para regressão e classificação muito robustos, e que são base para algoritmos avançados em machine learning. Elas são baseadas nas árvores de decisão (ou decision trees), outro método mais básico, também muito bom, e que por vez se baseia no conceito de árvore.
Para construir a árvore de decisão nós precisamos dos exemplos de dados.
A partir da árvore criada a classificação de um novo objeto é extremamente simples, é só olhar os atributos nos nós e o limiar determinado para divisão até chegar no nó raiz, onde estará a classificação.
Após a criação é aconselhável realizar o processo chamado de poda, que evita o overfitting, já que alguns nós poderiam ser muito granulares, ficando com poucos exemplos. Esse processo agrega os nós folhas em um nó ancestral.
Dentre as principais vantagens desse método, podemos destacar:
- Interpretabilidade;
- Seleção de atributos automática;
- Não paramétrica, ou seja, não assume nenhuma família de distribuição;
- Consegue lidar com missing values;
- Consegue lidar com atributos numéricos e categóricos.
E as principais desvantagens:
- Instabilidade;
- Possui dificuldades se existem relações complexas entre os atributos.
Entretanto, o modelo não é recomendado para uso em bases de dados pequenas porque é muito sensível a overfitting.
O conceito de florestas aleatórias surge justamente de uma das desvantagens que listamos em relação às árvores: a instabilidade.
Um conjunto de árvores de decisão que fazem a previsão de determinada variável dado determinado critério. A previsão que tiver mais votos se torna a previsão do modelo. A ideia é que um grande número de modelos relativamente não correlacionados votando performam melhor do que um único modelo.
RESP. B
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo