No contexto dos algoritmos utilizados em análise de dados, ...
No contexto dos algoritmos utilizados em análise de dados, considere os passos a seguir:
1. recebe os dados de treinamento como entrada, que incluem atributos e categorias;
2. calcula a probabilidade de cada categoria ocorrer com base na quantidade de exemplos de cada categoria no conjunto de dados;
3. calcula a probabilidade condicional para cada atributo, ou seja, a probabilidade de um atributo dada uma categoria;
4. para uma nova entrada, calcula a probabilidade de cada categoria dada a entrada;
5. seleciona a categoria com a maior probabilidade condicional como a previsão para a nova entrada;
6. repete os passos 4 e 5 para todas as entradas desconhecidas.
Assinale o algoritmo que é implementado nos passos acima.
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: B - Naive Bayes.
A questão aborda um algoritmo de classificação utilizado em aprendizado de máquina (machine learning), dentro do contexto de análise de dados. Para resolver a questão, é necessário compreender os conceitos básicos de algoritmos de aprendizagem supervisionada, onde um modelo é treinado com dados rotulados, aprendendo a associação entre as características (atributos) e a saída (categorias). Especificamente, é fundamental conhecer as características dos algoritmos de classificação mais comuns, como Naive Bayes, Regressão Logística, K-Means, Random Forest e Regressão Linear.
A escolha do Naive Bayes como resposta correta é justificada pelos passos descritos na questão, que representam claramente o processo utilizado por este algoritmo para realizar classificações:
- Passo 1: A obtenção dos dados de treinamento, incluindo atributos e categorias, é o ponto de partida para qualquer algoritmo de aprendizado supervisionado, incluindo o Naive Bayes.
- Passo 2: O cálculo da probabilidade de cada categoria com base na frequência das mesmas nos dados de treinamento é característico do Naive Bayes, que utiliza o teorema de Bayes como base para as previsões.
- Passo 3: A probabilidade condicional de cada atributo dada uma categoria é também parte do teorema de Bayes, que o algoritmo Naive Bayes aplica assumindo independência entre os atributos.
- Passo 4: Para uma nova entrada, o Naive Bayes calcula a probabilidade de cada categoria dado o conjunto de entradas, aplicando o teorema para todos os atributos da entrada.
- Passo 5: A seleção da categoria com a maior probabilidade condicional é a forma como o Naive Bayes faz a previsão para novas entradas, escolhendo a classe mais provável.
- Passo 6: Repetição dos passos de classificação para todas as novas entradas é uma etapa comum em muitos algoritmos de classificação, mas os passos anteriores apontam especificamente para o Naive Bayes.
Os outros algoritmos listados nas alternativas não seguem o mesmo conjunto de passos. Por exemplo, a Regressão Logística calcula probabilidades, mas utiliza uma função logística para isso; o K-Means é um algoritmo de clusterização e não de classificação; o Random Forest é um método de ensemble que utiliza várias árvores de decisão; e a Regressão Linear é usada para prever valores contínuos (não categorias), através de uma função linear.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
A) REGRESSÃO LOGÍSTICA: é uma técnica de análise de dados que usa matemática para encontrar as relações entre dois fatores de dados. Em seguida, essa relação é usada para prever o valor de um desses fatores com base no outro. A previsão geralmente tem um número finito de resultados, como sim ou não.
B) NAIVE BAYES (GABARITO): Em estatística, os classificadores Bayes ingênuos são uma família de "classificadores probabilísticos" simples baseados na aplicação do teorema de Bayes com fortes suposições de independência entre os recursos.
C) K-MEANS: É um algoritmo de aprendizado não supervisionado (ou seja, que não precisa de inputs de confirmação externos) que avalia e clusteriza os dados de acordo com suas características.
D) RANDOM FOREST: Uma árvore de decisão é um mapa dos possíveis resultados de uma série de escolhas relacionadas. Permite que um indivíduo ou organização compare possíveis ações com base em seus custos, probabilidades e benefícios.
E) REGRESSÃO LINEAR: A regressão linear é uma técnica de análise de dados que prevê o valor de dados desconhecidos usando outro valor de dados relacionado e conhecido. Ele modela matematicamente a variável desconhecida ou dependente e a variável conhecida ou independente como uma equação linear.
Fonte: Descrições do Google.
LETRA C
Aos que vão fazer provas da FGV, é preciso que estejam com o funcionamento básico desses algoritmos na mente, pois são os que a banca mais tem cobrado.
Uma observação sobre o Naive Bayes que pode ajudar: Ele está ligado a probabilidade de um evento ocorrer em função de outro evento anterior.
Cuiabrasa vai ferver!!! rsrs
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo