Um desenvolvedor de uma instituição bancária foi designado ...
Um desenvolvedor de uma instituição bancária foi designado para tentar usar técnicas de aprendizado de máquina para, dado o saldo diário durante um ano de um cliente, classificá-lo como BOM ou MAU candidato a receber um cartão de crédito VIP. Para isso, a única informação que pode usar — e que ele recebeu — é um conjunto de treinamento com 50.000 clientes pré- classificados pelos seus gerentes, contendo 365 campos com os saldos diários e um campo com o número 1, caso o cliente fosse um BOM candidato, ou o número 0 (zero), caso fosse um MAU candidato. Essas respostas são consideradas corretas.
Considerando as práticas tradicionais de aprendizado de máquina, o desenvolvedor deve escolher um algoritmo
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
A alternativa correta é a B - supervisionado, porque o conjunto de treinamento possui dados e rótulo, sendo necessário aprender a função que prediz o rótulo correto.
Para entender por que essa é a alternativa correta, vamos discorrer sobre alguns conceitos de aprendizado de máquina:
- Aprendizado Supervisionado: Este é um tipo de aprendizado de máquina onde o modelo é treinado em um conjunto de dados que já contém as respostas corretas (os rótulos). O objetivo é que o modelo aprenda a prever os rótulos corretos para novos dados, baseando-se no conhecimento adquirido durante o treinamento.
- Rótulos: Em aprendizado supervisionado, os rótulos são as respostas ou as saídas desejadas que o modelo deve ser capaz de predizer. Neste caso, são os indicadores de se o cliente é um BOM ou MAU candidato a receber um cartão de crédito VIP, representados por 1 e 0, respectivamente.
- Algoritmo de Classificação: É uma categoria de algoritmos de aprendizado supervisionado que tem como objetivo categorizar novas observações em grupos predefinidos com base nos dados de treinamento.
No cenário apresentado, o desenvolvedor possui um conjunto de dados de 50.000 clientes, cada um com 365 campos de saldos diários (características) e um rótulo indicando se o cliente é um BOM ou MAU candidato (1 ou 0). Esse cenário é típico de um problema de classificação binária, que é um subtipo de problema resolvido por algoritmos de aprendizado supervisionado.
A justificação para a alternativa B estar correta é que o desenvolvedor precisa que o algoritmo aprenda a associação entre os saldos diários dos clientes (entradas) e se eles são BOM ou MAU candidatos (saídas). O algoritmo supervisionado usará o conjunto de treinamento, que inclui tanto os dados (saldos diários) quanto os rótulos (BOM ou MAU), para entender essa associação e construir um modelo preditivo capaz de classificar novos clientes que não fazem parte do conjunto de treinamento.
É importante destacar que em aprendizado supervisionado não se espera que humanos verifiquem a execução do algoritmo durante o processo de treinamento (o que elimina a alternativa A). O acompanhamento humano é feito ao avaliar a performance do modelo em um conjunto de teste após o treinamento. As alternativas que se referem a aprendizado não supervisionado (C, D e E) estão incorretas, pois neste tipo de aprendizado os dados não possuem rótulos e o objetivo é encontrar estrutura ou padrões dentro dos próprios dados, o que não é o caso aqui.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Letra B
Supervisionado
Os algoritmos de aprendizado supervisionados fazem previsões com base em um conjunto de exemplos. Por exemplo, as cotações históricas podem ser usadas para arriscar palpites em preços futuros. Cada exemplo usado para treinamento é rotulado com o valor de seu interesse — neste caso, o preço da ação. Um algoritmo de aprendizado supervisionado procura por padrões nesses rótulos de valor. Ele pode usar qualquer informação que possa ser relevante – o dia da semana, a temporada, os dados financeiros da empresa, o tipo de setor, a presença de eventos geopolíticos perturbadores – e cada algoritmo procura tipos diferentes de padrões. Depois que o algoritmo tiver encontrado o melhor padrão possível, usará esse padrão para fazer previsões para dados de testes sem rótulos — os preços de amanhã.
Não supervisionado
No aprendizado não supervisionado, os pontos de dados não têm rótulos associados a eles. Em vez disso, a meta de um algoritmo de aprendizado sem supervisão é organizar os dados de alguma forma ou descrever sua estrutura. Isso pode significar agrupá-los em clusters ou encontrar diferentes maneiras de consultar dados complexos para que eles pareçam mais simples ou mais organizados.
Gabarito: B
As tarefas de aprendizado de máquina são tipicamente classificadas em três categorias amplas, de acordo com a natureza do "sinal" ou "feedback" de aprendizado disponível para um sistema de aprendizado. Essas categorias são:
Aprendizado supervisionado: São apresentadas ao computador exemplos de entradas e saídas desejadas, fornecidas por um "professor". O objetivo é aprender uma regra geral que mapeia as entradas para as saídas.
Aprendizado não supervisionado: Nenhum tipo de etiqueta é dado ao algoritmo de aprendizado, deixando-o sozinho para encontrar estrutura nas entradas fornecidas. O aprendizado não supervisionado pode ser um objetivo em si mesmo (descobrir novos padrões nos dados) ou um meio para atingir um fim.
Aprendizado por reforço: Um programa de computador interage com um ambiente dinâmico, em que o programa deve desempenhar determinado objetivo (por exemplo, dirigir um veículo). É fornecido, ao programa, feedback quanto a premiações e punições, na medida em que é navegado o espaço do problema. Outro exemplo de aprendizado por reforço é aprender a jogar um determinado jogo apenas jogando contra um oponente.
Letra B
Podemos observar que é utilizada a técnica de Classificação devido ao item abaixo descrito na questão:
"classificá-lo como BOM ou MAU candidato [...] ele recebeu [...] um conjunto de treinamento com 50.000 clientes pré- classificados"
__
Classificação
- examina características do objeto e atribui uma ou mais classes -> NO CASO DA QUESTÃO IRÁ CLASSIFICAR EM BOM OU MAU CANDIDATO
- as classes já existem = pré-definidas
- aprendizado supervisionado = o humano treina o algoritmo
___
Porque não é a letra A ?
a letra A está errada em falar que humanos precisarão verificar a execução do algoritmo, é supervisionado porque a base de dados de treinamento tem as classes pré-definidas e o algoritmo vai ser treinado para classificar em BOM CANDIDATO OU MAU CANDIDATO
É um caso clássico de regressão.
O conjunto de dados foi previamente classificado pelo gerente, logo é supervisionado.
Agora, entre A e B, a A pode causar confusão porque algoritmos supervisionados são, de fato, caracterizados pela intervenção humana, mas essa intervenção é na pré classificação de rótulos e no ajuste de parâmetros para selecionar a função desejada. O algoritmo, enquanto em execução, trabalha livremente e sozinho.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo