No contexto dos algoritmos utilizados em análise de dados, ...

Próximas questões
Com base no mesmo assunto
Q2096184 Engenharia de Software

No contexto dos algoritmos utilizados em análise de dados, considere os passos a seguir:


1. recebe os dados de treinamento como entrada, que incluem atributos e categorias;

2. calcula a probabilidade de cada categoria ocorrer com base na quantidade de exemplos de cada categoria no conjunto de dados;

3. calcula a probabilidade condicional para cada atributo, ou seja, a probabilidade de um atributo dada uma categoria;

4. para uma nova entrada, calcula a probabilidade de cada categoria dada a entrada;

5. seleciona a categoria com a maior probabilidade condicional como a previsão para a nova entrada;

6. repete os passos 4 e 5 para todas as entradas desconhecidas.


Assinale o algoritmo que é implementado nos passos acima.

Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: B - Naive Bayes.

A questão aborda um algoritmo de classificação utilizado em aprendizado de máquina (machine learning), dentro do contexto de análise de dados. Para resolver a questão, é necessário compreender os conceitos básicos de algoritmos de aprendizagem supervisionada, onde um modelo é treinado com dados rotulados, aprendendo a associação entre as características (atributos) e a saída (categorias). Especificamente, é fundamental conhecer as características dos algoritmos de classificação mais comuns, como Naive Bayes, Regressão Logística, K-Means, Random Forest e Regressão Linear.

A escolha do Naive Bayes como resposta correta é justificada pelos passos descritos na questão, que representam claramente o processo utilizado por este algoritmo para realizar classificações:

  • Passo 1: A obtenção dos dados de treinamento, incluindo atributos e categorias, é o ponto de partida para qualquer algoritmo de aprendizado supervisionado, incluindo o Naive Bayes.
  • Passo 2: O cálculo da probabilidade de cada categoria com base na frequência das mesmas nos dados de treinamento é característico do Naive Bayes, que utiliza o teorema de Bayes como base para as previsões.
  • Passo 3: A probabilidade condicional de cada atributo dada uma categoria é também parte do teorema de Bayes, que o algoritmo Naive Bayes aplica assumindo independência entre os atributos.
  • Passo 4: Para uma nova entrada, o Naive Bayes calcula a probabilidade de cada categoria dado o conjunto de entradas, aplicando o teorema para todos os atributos da entrada.
  • Passo 5: A seleção da categoria com a maior probabilidade condicional é a forma como o Naive Bayes faz a previsão para novas entradas, escolhendo a classe mais provável.
  • Passo 6: Repetição dos passos de classificação para todas as novas entradas é uma etapa comum em muitos algoritmos de classificação, mas os passos anteriores apontam especificamente para o Naive Bayes.

Os outros algoritmos listados nas alternativas não seguem o mesmo conjunto de passos. Por exemplo, a Regressão Logística calcula probabilidades, mas utiliza uma função logística para isso; o K-Means é um algoritmo de clusterização e não de classificação; o Random Forest é um método de ensemble que utiliza várias árvores de decisão; e a Regressão Linear é usada para prever valores contínuos (não categorias), através de uma função linear.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

A) REGRESSÃO LOGÍSTICA: é uma técnica de análise de dados que usa matemática para encontrar as relações entre dois fatores de dados. Em seguida, essa relação é usada para prever o valor de um desses fatores com base no outro. A previsão geralmente tem um número finito de resultados, como sim ou não.

B) NAIVE BAYES (GABARITO): Em estatística, os classificadores Bayes ingênuos são uma família de "classificadores probabilísticos" simples baseados na aplicação do teorema de Bayes com fortes suposições de independência entre os recursos.

C) K-MEANS: É um algoritmo de aprendizado não supervisionado (ou seja, que não precisa de inputs de confirmação externos) que avalia e clusteriza os dados de acordo com suas características.

D) RANDOM FOREST: Uma árvore de decisão é um mapa dos possíveis resultados de uma série de escolhas relacionadas. Permite que um indivíduo ou organização compare possíveis ações com base em seus custos, probabilidades e benefícios.

E) REGRESSÃO LINEAR: A regressão linear é uma técnica de análise de dados que prevê o valor de dados desconhecidos usando outro valor de dados relacionado e conhecido. Ele modela matematicamente a variável desconhecida ou dependente e a variável conhecida ou independente como uma equação linear.

Fonte: Descrições do Google.

LETRA C

Aos que vão fazer provas da FGV, é preciso que estejam com o funcionamento básico desses algoritmos na mente, pois são os que a banca mais tem cobrado.

Uma observação sobre o Naive Bayes que pode ajudar: Ele está ligado a probabilidade de um evento ocorrer em função de outro evento anterior.

Cuiabrasa vai ferver!!! rsrs

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo