Em um projeto de ciência de dados para análise preditiva no...

Com base no mesmo assunto

Ano: 2024 Banca: CESGRANRIO Órgão: IPEA Prova: CESGRANRIO - 2024 - IPEA - Técnico de Planejamento e Pesquisa - Desenvolvimento de Sistemas |

Q2383147 Engenharia de Software

Em um projeto de ciência de dados para análise preditiva no setor bancário, um cientista de dados precisa escolher tecnologias de aprendizado de máquina adequadas para classificar clientes com base no risco de inadimplência.
Considerando-se a intenção de lidar com dados não linearmente separáveis por meio do uso de um kernel, qual é o algoritmo mais adequado para essa tarefa?

Análise de Componentes Principais

Árvore de Decisão

K-Means

Máquina de Vetores de Suporte

Regressão Logística

Você errou! Resposta:

teste

Parabéns! Você acertou!

teste

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: D - Máquina de Vetores de Suporte

Máquina de Vetores de Suporte (SVM) é o algoritmo mais adequado para a tarefa descrita, pois é especialmente eficaz em problemas de classificação onde os dados não são linearmente separáveis. A SVM pode utilizar kernels para transformar os dados em um espaço de maior dimensão, onde a separação linear é possível. Esta técnica é conhecida como transformação de kernel. Portanto, ao lidar com dados não linearmente separáveis, a SVM é uma escolha robusta e eficaz.

Vamos analisar as demais alternativas para entender por que não são as mais adequadas:

A - Análise de Componentes Principais (PCA)

A PCA não é um algoritmo de classificação. Trata-se de uma técnica de redução de dimensionalidade que busca projetar os dados em um espaço de menor dimensão enquanto mantém a maior variabilidade possível dos dados. Embora útil em pré-processamento, a PCA não resolve problemas de classificação diretamente e não lida com a separação de dados baseada em risco de inadimplência.

B - Árvore de Decisão

Embora uma Árvore de Decisão seja um algoritmo de classificação, ela não utiliza kernels e lida melhor com dados linearmente separáveis ou que podem ser facilmente divididos em classes distintas por uma série de regras de decisão. Ela não é tão eficaz quanto a SVM em cenários onde os dados são complexamente não linearmente separáveis.

C - K-Means

O K-Means é um algoritmo de agrupamento (clustering) e não de classificação. Ele divide os dados em clusters baseados na proximidade dos pontos de dados. K-Means não é adequado para classificar clientes com base no risco de inadimplência porque não gera um modelo preditivo, mas sim divide os dados em grupos sem supervisão.

E - Regressão Logística

A Regressão Logística é um algoritmo de classificação, porém assume que os dados são linearmente separáveis. Em problemas onde os dados não são linearmente separáveis, a regressão logística pode ter um desempenho inferior comparado a SVM com kernels.

Portanto, a alternativa D - Máquina de Vetores de Suporte (SVM) é a mais adequada, pois é capaz de lidar com dados não linearmente separáveis de forma eficiente através do uso de kernels.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Máquina de Vetores de Suporte (SVM)

SVM busca encontrar um hiperplano que melhor divide as classes de dados em espaços multidimensionais.

Consegui identificar devido ao "separáveis por meio do uso de um kernel"

Análise de Componentes Principais (PCA):

PCA é uma técnica estatística utilizada para redução de dimensionalidade.
É comumente empregada para encontrar padrões nos dados, representando-os em um espaço de menor dimensionalidade.
PCA identifica as direções (componentes principais) que maximizam a variância dos dados.
É útil para visualização de dados de alta dimensão e para eliminar a multicolinearidade em modelos de regressão.

Árvore de Decisão:

É um modelo de aprendizado de máquina supervisionado usado para tomada de decisão.
A árvore é composta por nós que representam atributos, e as arestas representam as decisões baseadas nesses atributos.
É uma técnica de fácil interpretação e implementação.
Pode ser utilizado para classificação e regressão, dependendo do problema.

K-Means:

É um algoritmo de clusterização não supervisionado utilizado para dividir um conjunto de dados em grupos (clusters) distintos.
O algoritmo atribui cada ponto de dados ao cluster mais próximo, com base na similaridade entre os pontos.
O número de clusters é especificado a priori pelo usuário.
É amplamente utilizado em segmentação de mercado, análise de agrupamento de clientes e compressão de dados.

Máquina de Vetores de Suporte (SVM):

SVM é um modelo de aprendizado de máquina supervisionado usado para classificação e regressão.
Ele encontra o hiperplano que melhor separa os pontos de dados de diferentes classes no espaço de atributos.
É eficaz em espaços de alta dimensão e é bastante utilizado em problemas de classificação binária.
Também é possível estender o SVM para problemas de regressão.

Regressão Logística:

É um modelo de regressão usado para prever a probabilidade de ocorrência de um evento binário (sim ou não).
Ele modela a relação entre uma variável dependente binária e uma ou mais variáveis independentes.
A saída é uma probabilidade que pode ser convertida em uma decisão de classificação.
É frequentemente utilizado em problemas de previsão de risco, como análise de crédito e previsão de resposta a marketing.

Desses algoritmos, os únicos adequados para dados não-lineares são Árvores de decisão e Máquina de Vetores de Suporte.

Desses dois, o único que pode usar funções do tipo kernel é o SVM.

SVMs podem ser usados para regressão ou classificação, além de poder usar funções gaussianas, lineares, polinomiais, etc.

Desses algoritmos, os únicos adequados para dados não-lineares são Árvores de decisão e Máquina de Vetores de Suporte.

Desses dois, o único que pode usar funções do tipo kernel é o SVM.

SVMs podem ser usados para regressão ou classificação, além de poder usar funções gaussianas, lineares, polinomiais, etc.

Desses algoritmos, os únicos adequados para dados não-lineares são Árvores de decisão e Máquina de Vetores de Suporte.

Desses dois, o único que pode usar funções do tipo kernel é o SVM.

SVMs podem ser usados para regressão ou classificação, além de poder usar funções gaussianas, lineares, polinomiais, etc.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo

SEJA VITALÍCIO

SEJA VITALÍCIO

Em um projeto de ciência de dados para análise preditiva no...

Gabarito comentado

Clique para visualizar este gabarito

Comentários

Clique para visualizar este comentário

Questões de assuntos semelhantes

Provas relacionadas