O sckit-learn suporta o processamento de algoritmos de apre...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: D - o naive bayes e as árvores de decisão.
O tema da questão aborda os tipos de algoritmos de aprendizado de máquina suportados pela biblioteca scikit-learn, uma biblioteca de aprendizado de máquina muito utilizada na linguagem de programação Python. A questão especificamente menciona o aprendizado de máquina do tipo supervisionado, onde os algoritmos aprendem a partir de dados rotulados para fazer previsões ou classificações.
O aprendizado de máquina supervisionado inclui diversos algoritmos, e a questão cita alguns deles, pedindo para identificar quais são de fato modelos supervisionados. Para responder corretamente, é necessário conhecer os seguintes conceitos:
- Naive Bayes: um grupo de algoritmos simples baseados no teorema de Bayes com a suposição "naive" de independência entre os atributos. É usado para classificação.
- Árvores de Decisão: um modelo preditivo que mapeia características dos dados (atributos) em conclusões sobre o valor de saída (rótulos). É usada tanto para classificação quanto para regressão.
Com base nesses conceitos, podemos justificar a alternativa correta:
A alternativa D é a correta porque tanto o Naive Bayes quanto as Árvores de Decisão são algoritmos de aprendizado de máquina supervisionado. O Naive Bayes é frequentemente usado para classificação de texto e outras tarefas de classificação, enquanto que as Árvores de Decisão podem ser usadas tanto para classificação quanto para regressão, fornecendo modelos que podem ser facilmente interpretados.
As demais alternativas contêm erros por incluírem técnicas que não são de aprendizado supervisionado:
- Clusterização (A) e BIRCH (B) são métodos de aprendizado não supervisionado.
- PCA (C) é uma técnica de redução de dimensionalidade e não um algoritmo de aprendizado supervisionado.
- Gaussian Mixture Models (C) também são usados em contextos de aprendizado não supervisionado.
- O "modelo cúbico" (E) não é um termo comumente associado a algoritmos de aprendizado de máquina e a "densidade estimada" não especifica um algoritmo de aprendizado supervisionado.
Portanto, ao ter um conhecimento sólido sobre os tipos de algoritmos de aprendizado de máquina e suas respectivas categorizações, você pode identificar corretamente a alternativa D como a resposta certa para a questão.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
GAB = D
Aprendizagem NÃO SUPERVISIONADA.
O problema de CLUSTERIZAÇÃO (ou Agrupamento) tem o objetivo de agrupar os dados de interesse, ou separar os registros de um conjunto de dados em subconjuntos ou grupos (clusters), de tal forma que elementos em um cluster compartilhem um conjunto de propriedades comuns que os diferencie dos elementos de outros clusters. Os problemas de ASSOCIAÇÃO tem como objetivo encontrar elementos que implicam na presença de outros, encontrar relacionamentos ou padrões frequentes entre conjuntos de exemplos
Regras de Associação - Ao usar as regras de associação, buscamos descobrir relações que descrevem grandes porções dos dados. A associação é muito utilizada em análises de cestas de compras, no qual a empresa pode tentar entender relações de preferências de compras entre os produtos.
Redução de dimensionalidade - Existem casos nos quais ao estudar um conjunto de dados, podemos encontrar nele um grande número de recursos (dimensões). Por mais que existam situações onde isso é positivo, o excesso pode impactar o desempenho dos algoritmos causando, por exemplo, o overfitting.
Utilizando a técnica de redução de dimensionalidade, será feita uma redução no número de recursos, de forma que torne-os gerenciáveis por parte do modelo, além de preservar a integridade dos dados.
Aprendizagem SUPERVISIONADA.
O algoritmo Support Vector Machine (SVM, ou Máquina de Vetores de Suporte), é um dos algoritmos mais populares efetivos para problemas de classificação (apesar de também poder ser usado para problemas de regressão). Apesar de o treinamento do SVM geralmente ser lento, esses modelos exigem poucos ajustes e tendem a apresentar boa acurácia, conseguindo modelar fronteiras de decisão complexas e não lineares.
O Naïve Bayes (Bayes Ingênuo), é um dos métodos mais utilizados para Classificação por ser computacionalmente rápido e por necessitar de poucos dados de treinamento.
A Árvore de Decisão é inspirada na forma como humanos tomam decisão e, por este motivo, um dos modelos mais simples de se entender. Uma das principais vantagens deste algoritmo é a apresentação visual da informação, facilitando o entendimento pelo ser humano.
A técnica PCA, do inglês Principal Component Analysis, reduz a dimensão dos dados, porém mantendo-se suas informações e características, como os valores de variância.
Letra D
Alguns modelos de estimadores amplamente utilizados no scikit-learn são algoritmos de aprendizado supervisionado, e incluem:
- Classificadores (ExtraTrees, KNN, Agaboost, entre outros);
- Regressão (Linear, Logística);
- Support Vector Machine (SVM);
- Árvore de decisão (Decision Tree).
Já o algoritmos de aprendizado não supervisionado do Scikit-learn são:
- Clustering (K-means, DBSCAN, Hierarchical)
- PCA (Análise de Componentes Principais)
- Redes neurais (Restricted Boltzmann Machine);
- Análise fatorial.
https://cetax.com.br/0-algoritmos-de-aprendizagem-de-maquina-que-os-engenheiros-precisam-de-conhecer/
A) SVM (Support Vector Machine) é um algoritmo de aprendizado supervisionado, mas a clusterização não é um algoritmo supervisionado. Portanto, esta alternativa está parcialmente correta.
B) BIRCH é um algoritmo de clusterização e o vizinho mais próximo (k-nearest neighbors) é um algoritmo de aprendizado supervisionado. Portanto, esta alternativa está incorreta.
C) PCA (Principal Component Analysis) é uma técnica de redução de dimensionalidade e os Gaussian Mixture Models (GMMs) são usados para modelagem de distribuições probabilísticas em aprendizado de máquina. Ambos não são algoritmos de aprendizado supervisionado, então esta alternativa está incorreta.
D) Naive Bayes é um algoritmo de aprendizado supervisionado utilizado principalmente para classificação de texto e as árvores de decisão são uma técnica versátil usada para classificação e regressão em aprendizado de máquina. Ambos são exemplos de algoritmos de aprendizado supervisionado, tornando esta alternativa correta.
E) Modelo cúbico e densidade estimada não são algoritmos de aprendizado de máquina, mas técnicas estatísticas. Portanto, esta alternativa está incorreta.
Então, a alternativa correta é a D, pois o scikit-learn suporta o processamento de algoritmos de aprendizado de máquina do tipo supervisionado como o naive Bayes e as árvores de decisão.
Fonte: Chat GPT
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo