__________ é um método de classificação binária que traça um...
Assinale a alternativa que preenche corretamente a lacuna do trecho acima.
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: B - Support Vector Machine (SVM).
O Support Vector Machine (SVM) é uma técnica de aprendizado supervisionado usada para classificação e regressão. No contexto de classificação binária, o SVM é particularmente eficaz, pois busca o hiperplano com a maior margem possível entre as duas classes de dados. Aqui estão os pontos cruciais que justificam a resposta:
- O SVM destina-se a encontrar um hiperplano em um espaço N-dimensional (N — o número de características) que classifica os pontos de dados de maneira clara.
- A "margem" é a região que se estende de ambos os lados do hiperplano até o ponto de dado mais próximo. O algoritmo busca maximizar essa margem para aumentar a robustez da classificação.
- Os pontos de dados que definem a margem são denominados vetores de suporte, fundamentais para construir o hiperplano.
O desempenho do SVM não é apenas uma consequência do hiperplano que separa as classes, mas principalmente da otimização que procura maximizar a margem, tornando o classificador resistente a possíveis erros de classificação e a pequenas alterações nos dados.
Em resumo, a capacidade do SVM de criar um hiperplano ótimo que maximiza a margem entre classes de dados, considerando os vetores de suporte, é o que o torna a resposta correta e distinta das outras alternativas apresentadas.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
O SVM tem como objetivo particionar o espaço em duas partes (por isso se diz que é um classificador binário). Os pontos que ficarem de um lado da partição pertencem a uma classe, os que ficarem do outro pertencem à outra classe.
Falou de hiperplano, lembre-se de SVM
b-
VECTOR SUPPORT MACHINE:
--divide os dados de entrada em duas regiões separadas por uma linha (asocia vetor a linha, como em graficos vetoriais)
--simetria na classificação
-- hiperplano - o ponto mais próximo de cada classe é distância d do ponto médio entre os dois grupos de classe
Random Forest - É um algoritmo de aprendizado supervisionado - possuem rotulos - que pode ser usado tanto para a classificação (variáveis categóricas) quanto para regressão (variáveis numéricas). Ele é uma extensão das árvores de decisão, como o próprio nome diz, floresta randômica. Constrói-se diversas árvores de decisão durante o treinamento e, ao final, faz a média (regressão) ou a votação majoritária (classificação) dos resultados de todas as árvores. Esse algoritmo é ótimo para a redução de overfitting - dados muito ajustados. Trabalha com um grande volume de dados.
Support Vector Machine - É um algoritmo supervisionado principalmente para tarefas de classificação, embora possa ser usado para regressão. A SVM trabalha encontrando um hiperplano que melhor separa dos dados em classes distintas.
É eficaz para conjuntos de dados em que a separação é clara.
O que é o hiperplano? É um conceito geométrico que generaliza a a ideia de uma linha reta ou plano para espaços com mais dimensões, ou seja, em uma representação 2D, por exemplo, é a curva que separa os dados acima e abaixo da curva. No caso da representação em 3D, será gerado um plano que separará esses dados para que eles possam ser classificados com base nas suas características.
NO SVM, o objetivo é encontrar um hiperplano ótimo, ou seja, o que melhor separa os dados em diferentes tipos de classes.
K-NNN - É um algoritmo de aprendizado supervisionado baseado em instâncias, usado para a classificação e regressão. Ele faz previsões baseadas na semelhança dos dados novos com os dados existente.
Naive Bayes - É um algoritmo de classificação baseado no Teorema de bayes, com a suposição de que todas as características são independentes umas das outras, o que raramente é verdade. Mas mesmo assim, o algoritmo funciona muito bem. Após calcular essas probabilidades, ele classifica os dados baseados na maior probabilidade condicional calculada.
Obs.: Os eventos são independentes. Mas a probabilidade condicional está relacionada a "proximidade" desse valor com o grupo.
K-Means - É um algoritmo não supervisionado. Ele agrupa os dados em k clusters, onde cada ponto de dados pertence ao cluster com o centroide mais próximo.
O que é o centroide? É basicamente o centro daqueles dados.
Lembrando que um algoritmo não supervisionado é aquele que não tem rótulos, ou seja, não há um direcionamento para a variável algo. Permite-se que o algoritmo explore os dados para tentar encontrar padrões para poder agrupá-los.
Gabarito: B
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo