Em aprendizado de máquina, especialmente em algoritmos ...
Em aprendizado de máquina, especialmente em algoritmos de árvores de decisão, é fundamental avaliar como os dados são organizados e classificados em diferentes níveis da árvore. Três conceitos-chave que auxiliam na construção e otimização dessas árvores são o gini impurity, a entropy e o information gain. A respeito desses conceitos, julgue os itens a seguir.
I Gini impurity mede a redução da entropy após a divisão de um conjunto de dados com base em um atributo.
II Entropy mede a quantidade de incerteza ou impureza no conjunto de dados.
III Information gain mede a probabilidade de uma nova instância ser classificada incorretamente, com base na distribuição de classes no conjunto de dados.
Assinale a opção correta.
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
A alternativa correta é A - Apenas o item II está certo.
Vamos explorar os conceitos mencionados na questão e entender por que essa é a resposta correta.
Item I - Gini impurity: Este conceito é usado para medir a impureza de um nó em uma árvore de decisão. Ele não mede a redução de entropy, mas sim a probabilidade de uma instância ser classificada incorretamente ao escolher aleatoriamente um rótulo de acordo com a distribuição de rótulos no nó. Portanto, a afirmação do item I está incorreta.
Item II - Entropy: A entropy mede a quantidade de incerteza ou impureza em um conjunto de dados. Ela quantifica a desordem ou imprevisibilidade dos dados, sendo um conceito fundamental para avaliar o quão ordenado ou desordenado um conjunto de dados está. Este item está correto e explica precisamente o papel da entropia em algoritmos de aprendizado de máquina.
Item III - Information gain: O information gain mede a redução na entropy após a divisão dos dados com base em um atributo, e não a probabilidade de uma nova instância ser classificada incorretamente. Portanto, a explicação fornecida no item III está incorreta.
Com base nas justificativas acima, fica claro que apenas o item II está correto, o que confirma a escolha da alternativa A como correta.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Gabarito (A)
O Gini Impurity é uma medida estatística utilizada para avaliar a impureza de um conjunto de dados em um algoritmo de classificação. Ele é frequentemente utilizado em árvores de decisão para determinar a qualidade dos splits (divisões) feitos nos dados. Quanto menor o valor do Gini Impurity, mais puro é o conjunto de dados, o que significa que as classes estão mais homogêneas.
Fonte: https://iatracker.com.br/glossario/o-que-e-gini-impurity
O Information Gain, também conhecido como Ganho de Informação, é um conceito fundamental no campo do Aprendizado de Máquina. Ele é usado para medir a importância de um atributo em relação à classificação de um conjunto de dados. O Information Gain é amplamente utilizado em algoritmos de árvores de decisão, como o ID3 e o C4.5, para selecionar o melhor atributo para dividir os dados e construir a árvore de decisão.
Fonte: https://glossario.maiconramos.com/glossario/o-que-e-information-gain-ganho-de-informacao-em-aprendizado-de-maquina
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo