Assinale a alternativa correta sobre os critérios de seleção...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Resposta Correta: B
O tema da questão está centrado nos métodos de seleção de atributos utilizados na construção de árvores de decisão, que são algoritmos de aprendizado de máquina supervisionado. Estes métodos são essenciais para identificar quais atributos (ou características) fornecem as informações mais valiosas para separar as diferentes classes em um conjunto de dados. A seleção eficaz de atributos leva a modelos mais simples, mais rápidos e muitas vezes mais precisos.
Para resolver essa questão com sucesso, é importante ter conhecimentos sobre os diferentes critérios de seleção de atributos e como eles operam:
- Ganho de informação baseia-se na redução da entropia - uma medida da impureza dos dados - após a divisão de um conjunto de dados com base em um atributo específico.
- Índice Gini é uma medida de impureza ou pureza utilizada para avaliar as divisões em árvores de decisão e é frequentemente empregado no algoritmo CART (Classification and Regression Trees).
- Outros critérios como DKM e Raio de ganho não são comumente reconhecidos ou utilizados na literatura padrão de mineração de dados.
- ORT (Optimal Reciprocal Testing), embora possa ser um conceito válido em certos contextos, não é um termo padrão utilizado para descrever um critério de impureza em árvores de decisão.
A alternativa B, que menciona o índice Gini, está correta. Ela descreve adequadamente o índice Gini como uma medida baseada em impureza. O índice Gini é calculado para um atributo em potencial em cada etapa da construção da árvore para avaliar o efeito de dividir os dados com base nesse atributo, com o objetivo de alcançar a maior pureza possível nas partições resultantes, ou seja, grupos onde as instâncias são o mais homogêneas possível em relação à variável alvo (classe).
O termo "distribuições de probabilidade dos valores dos atributos da classe" se refere ao fato de que o índice Gini avalia como as diferentes classes são distribuídas após a divisão baseada em um atributo específico. Uma distribuição mais desigual, onde a maioria das instâncias em cada novo subgrupo pertence a uma única classe, terá um índice Gini baixo, indicando uma boa divisão.
Portanto, o índice Gini é um critério amplamente aceito e utilizado para selecionar atributos na construção de árvores de decisão, focando na minimização da impureza dos subconjuntos resultantes da divisão.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo