Na análise discriminante, há situações nas quais temos variá...
Comentários
Veja os comentários dos nossos alunos
A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e classificar objetos. É uma técnica da estatística multivariada que estuda a separação de objetos de uma população em duas ou mais classes
a) Das k-médias.
Errado: Uma análise de agrupamento de K-Médias agrupa observações que estão "próximas" uma das outras. O agrupamento de K-Médias funciona melhor quando há informações suficientes disponíveis para fazer boas designações de agrupamento iniciais.
O método de k-médias é um método de agrupamento não-hierárquico por repartição. Suponha que você já tem as hipóteses a respeito do número de conjuntos em seus casos ou variáveis. Você quer informar ao computador para formar exatamente 3 conjuntos que devem ser tão distintos quanto o possível. Este é o tipo de pesquisa que pode ser feita pelo algoritmo de aglomeramento por k-Médias. O método k-Médias produzirá exatamente k diferentes conjuntos com a maior distinção possivel entre eles.
Computacionalmente, você pode pensar neste método como a Análise de Variância (ANOVA) "ao contrário" ; O programa começará com os k-conjuntos aleatórios, e moverá então os objetos entre estes conjuntos com o objetivo de: (1) minimizar o variabilidade dentro dos conjuntos e (2) maximizar o variabilidade entre conjuntos. Isto é semelhante ao "ANOVA , mas ao contrario" no sentido que o teste de significancia ANOVA avalia a variabilidade entre-grupos de encontro a variabilidade intra-grupo ao calcular o teste de significancia para a hipótese em que as medias dos grupos são diferentes para cada grupo
b) Do modelo logístico.
Correto: A regressão logística é uma técnica recomendada para situações em que a variável dependente é de natureza dicotômica ou binária. Quanto às independentes, tanto podem ser categóricas ou não. A regressão logística é um recurso que nos permite estimar a probabilidade associada à ocorrência de determinado evento em face de um conjunto de variáveis explanatórias.
Em termos gerais, essa técnica busca estimar a probabilidade da variável dependente assumir um determinado valor em função dos conhecidos de outras variáveis. Os resultados da análise ficam contidos no intervalo de zero a um.
c) De núcleos estimadores.
Correto: Quando uma amostra é extraída de uma distribuição contínua, deseja-se estimar a distribuição da população da qual aquela amostra é extraída. Caso se disponha de uma estimativa da densidade de uma população contínua, é possível determinar estimativas das estatísticas da população tais como a média, moda, domínio, quantis e da simetria da distribuição. Isto é particularmente útil quando a distribuição é desconhecida e requer cálculos computacionalmente intensivos.
A técnica do núcleo estimador da densidade (KDE) oferece uma maneira não paramétrica de estimar a função de regressão sem a especificação de um modelo paramétrico (quando a família de funções de um modelo pode ser especificada por um número finito de parâmetros) e pode ser estendida a outros problemas mais complexos e com aplicações. A escolha de um modelo paramétrico depende da situação, seja por razões científicas ou de experiências anteriores. Isto pode ser uma desvantagem dos modelos paramétricos em restringir a algumas famílias paramétricas que pode não ser adequado ao problema em que se está tratando. Os modelos não paramétricos dispensam a restrição a certas famílias paramétricas e buscam “deixar os dados falarem por si próprios”. Modelos paramétricos e não paramétricos não devem ser considerados competidores. Em alguns casos, modelos não paramétricos podem sugerir o uso de modelos paramétricos mais simples e em outros, modelos paramétricos podem se mostrar bastante inadequados e sugerir os modelos não paramétricos.
d) CART (Classification and Regression Trees).
Correto: A abordagem chamada árvore de classificação e regressão (CART) é um método relacionada com as técnicas de conglomeração divisivas. Inicialmente, todos os objetos são considerados em um único grupo. O grupo e então dividido em dois subgrupos, usando, por exemplo, altos valores de uma variável para um grupo e baixos valores dessa mesma variável para o outro grupo. Os dois subgrupos são então cada um dividido novamente, agora usando valores de uma segunda variável. O processo de divisão continua até que um ponto de parada adequado seja atingido. Os valores das variáveis divisoras podem ser categorias ordenados ou não.
e) Do vizinho mais próximo (nearest neighbor discriminant analysis).
Correto: Em reconhecimento de padrões, a técnica do vizinho (k-NN) mais próximo é um não-paramétrico método utilizado para a classificação e regressão. Em ambos os casos, a entrada consiste nas k exemplos de treinamento mais próximos no espaço de características. A saída depende se k -NN é usada para a classificação ou regressão:
- Na classificação k-NN , a saída é uma associação de classe. Um objeto é classificada pelo voto da maioria de seus vizinhos, com o objeto que está sendo atribuído à classe mais comum entre seus k vizinhos mais próximos ( k é um positivo inteiro , tipicamente pequenos). Se k = 1, então o objeto é simplesmente atribuído à classe de que único vizinho mais próximo.
- Em regressão k-NN , a saída é o valor da propriedade para o objeto. Este valor é a média dos valores de seus k vizinhos mais próximos.
k -NN é um tipo de aprendizagem baseada em instância onde a função só é aproximado localmente e toda computação é adiada até a classificação. O k algoritmo -NN está entre os mais simples de todos aprendizado de máquina algoritmos.
Gabarito: Letra A
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo