A Análise de Componentes Principais (PCA) é uma técnica de ...

Próximas questões
Com base no mesmo assunto
Q2096289 Estatística
A Análise de Componentes Principais (PCA) é uma técnica de transformação de dados que tem como objetivo encontrar as direções de maior variação nos dados, geralmente representadas pelos chamados componentes principais, e gerar novas representações dos dados.
Assinale o objetivo principal dessa técnica. 
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Analisando cada uma das alternativas:

A) Discretização dos dados.

A discretização dos dados envolve transformar dados contínuos em dados discretos, ou seja, agrupar os valores em intervalos ou categorias. No entanto, o objetivo da PCA não é discretizar os dados, mas sim encontrar novas representações dos dados que capturam as direções de maior variação e reduzem a dimensionalidade.

B) Redução da dimensionalidade dos dados.

Correto. A PCA visa encontrar as direções de maior variação nos dados e transformá-los em um novo conjunto de coordenadas, os componentes principais, que representam a informação de maior importância dos dados originais. Esses componentes principais são ordenados por sua relevância, de modo que os primeiros componentes principais capturam a maior parte da variação nos dados, permitindo a redução da dimensionalidade mantendo a maior parte da informação relevante. Isso é útil para simplificar a representação dos dados e facilitar a análise e visualização dos padrões presentes nos dados.

C) Normalização dos dados.

A normalização dos dados refere-se a uma técnica para ajustar as escalas dos dados, geralmente para que todos os atributos tenham a mesma escala ou variação. Embora a normalização possa ser um passo preparatório para a PCA em alguns casos, esse não é o objetivo principal da PCA. A PCA visa encontrar as direções de maior variação nos dados, independentemente das escalas originais dos atributos.

D) Padronização dos dados.

A padronização dos dados é uma técnica para transformar os dados para que tenham média zero e desvio padrão igual a um. Da mesma forma que a normalização, a padronização pode ser útil como um passo preparatório para a PCA, mas não é o objetivo principal da técnica. A PCA busca identificar as direções principais de variabilidade nos dados, não apenas padronizá-los.

E) Cálculo de distâncias entre os dados.

O cálculo de distâncias entre os dados é uma tarefa de análise de similaridade ou dissimilaridade entre os pontos de dados. A PCA não é uma técnica para calcular distâncias diretamente, mas sim para encontrar as direções de maior variação nos dados e projetar os dados nesses novos eixos.

Portanto, a alternativa correta é a letra B.

a)  ERRADO. O processo de discretização envolve a transformação de dados contínuos em um formato discreto, agrupando valores em categorias ou "buckets" (ex.: transformar uma variável de idade em categorias como "infantil", "adolescente", "adulto" e "idoso"). Esta abordagem simplifica a análise e pode ser útil para certas técnicas de modelagem, mas não é o objetivo da PCA. 

b)  CORRETO. A principal finalidade da PCA é a redução da dimensionalidade. Ou seja, é uma técnica que busca representar dados de alta dimensão em um espaço de menor dimensão, preservando a maioria da variação original. Em outras palavras, a redução de dimensionalidade dos dados nada mais é do que reduzir a quantidade de variáveis distintas de cada observação ou amostra em um conjunto de dados. Dessa maneira, mediante essa redução, apenas fatores essenciais para a análise são preservados, melhorando a análise.

c) ERRADO.



d)  ERRADO. A padronização de dados é o processo de transformar dados em um formato comum, o que permite que os investigadores façam comparações significativas. Geralmente, é uma técnica usada para colocar diferentes variáveis numa escala comum, o que pode resultar, em geral, em uma média zero e variância unitária.

e)  ERRADO. O cálculo de distâncias é uma métrica usada para determinar a similaridade ou diferença entre dois pontos em um espaço. Normalmente, tal cálculo é implementado mediante a avaliação da semelhança entre dois pontos usando métodos como o da distância euclidiana.

GABARITO: LETRA B.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo