Em uma nota técnica do Ipea sobre emprego público nos gover...
A construção de um modelo preditivo a partir dos dados dessas bases, usando árvores aleatórias, Random Forests,
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
A alternativa A é a correta.
O tema da questão aborda o uso de modelos preditivos, especificamente o Random Forest, que é uma técnica de aprendizagem de máquina baseada em árvores de decisão. Um dos pontos fortes do Random Forest é a sua capacidade de reduzir a variância de um modelo, o que é conseguido ao combinar previsões de múltiplas árvores de decisão.
Justificativa da alternativa correta: A alternativa A apresentaria uma redução de variância. Random Forests são projetados para minimizar a variância através do uso de múltiplas árvores de decisão. Ao agregar as previsões dessas árvores, o algoritmo é capaz de suavizar e reduzir a variância, tornando o modelo mais robusto e eficaz na generalização de dados novos, mesmo quando esses dados apresentam valores atípicos ou outliers.
Análise das alternativas incorretas:
B - Seria inadequado, devido à sensibilidade a outliers de Random Forests. Esta afirmação é incorreta. Na verdade, Random Forests são menos sensíveis a outliers em comparação a algoritmos de árvore de decisão únicos, já que os efeitos de outliers podem ser diluídos ao agregar as previsões de muitas árvores.
C - Teria uma tendência a overfitting. Embora overfitting possa ocorrer em alguns modelos, Random Forest tende a ser menos propenso a overfitting devido à combinação de muitos modelos independentes, que ajuda a generalizar melhor para novos dados.
D - Teria propensão a underfitting. Underfitting ocorre quando um modelo é muito simples e não consegue capturar as tendências dos dados. Random Forest, ao utilizar múltiplas árvores de decisão, é geralmente capaz de capturar essas tendências de forma eficaz, reduzindo a chance de underfitting.
E - Teria dependência de linearidade nos dados. Esta é uma declaração incorreta, pois Random Forest não pressupõe linearidade nos dados. Na verdade, uma das vantagens deste método é sua flexibilidade para capturar relações não-lineares nos dados.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
```Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
A Random Forest (floresta aleatória) é conhecida por sua capacidade de lidar bem com outliers e outras irregularidades nos dados. Portanto, a afirmação mais precisa é:
A) Apresentaria uma redução de variância.
A Random Forest tende a reduzir a variância em comparação com uma única árvore de decisão, pois constrói várias árvores de decisão em diferentes subconjuntos dos dados e, em seguida, combina suas previsões por meio de votação ou média. Isso ajuda a mitigar os efeitos dos outliers e reduzir a variância geral do modelo.
As outras alternativas não são precisas no contexto da Random Forest:
B) Seria inadequado, devido à sensibilidade a outliers de Random Forests - Esta afirmação é incorreta, pois as Random Forests são robustas em relação a outliers.
C) Teria uma tendência a overfitting - Random Forests tendem a reduzir o overfitting devido à média ou votação de várias árvores, o que reduz a variância.
D) Teria propensão a underfitting - Random Forests geralmente não têm tendência a underfitting devido à sua capacidade de capturar relações complexas nos dados.
E) Teria dependência de linearidade nos dados - Random Forests são capazes de capturar relações não lineares nos dados devido à sua natureza de modelo de conjunto, portanto, não dependem de linearidade nos dados.
Portanto, a resposta correta é A) apresentaria uma redução de variância.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo