Em um processo de análise de Big Data, um profissional de T...

Próximas questões
Com base no mesmo assunto
Q3034857 Banco de Dados
Em um processo de análise de Big Data, um profissional de TI identificou que o número de atributos, ou colunas, era muito maior do que poderia processar com a ferramenta de análise disponível. Para reduzir a dimensionalidade garantindo a qualidade da informação, o profissional deverá utilizar a técnica:
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

O tema central da questão trata da redução de dimensionalidade no contexto de análise de Big Data. Em cenários onde há um grande número de atributos (ou colunas), é comum que o processamento e a análise fiquem comprometidos devido ao excesso de dimensões. Conhecimentos em técnicas de redução de dimensionalidade são essenciais para lidar com esse tipo de problema de forma eficiente.

A alternativa correta é a Alternativa B - análise de componentes principais.

Justificativa da alternativa correta (B): A análise de componentes principais (PCA) é uma técnica estatística utilizada para reduzir a dimensionalidade de um conjunto de dados, transformando um grande conjunto de variáveis em um conjunto menor que ainda contém a maior parte da informação do original. Isso é feito através de uma transformação linear que busca maximizar a variância dos dados ao longo dos novos eixos.

Por que as outras alternativas estão incorretas:

A - Amostragem aleatória: Essa técnica é utilizada para selecionar uma amostra representativa de um conjunto de dados maior, mas não é eficaz para reduzir o número de atributos ou colunas em um conjunto de dados. A amostragem lida mais com a quantidade de linhas (ou registros), não com a redução da dimensionalidade.

C - Amostragem estratificada: Semelhante à amostragem aleatória, essa técnica é usada para obter amostras que refletem melhor a população, garantindo que subgrupos dentro da população sejam representados. Contudo, assim como a anterior, não reduz o número de atributos ou colunas.

D - Imputação: Refere-se ao processo de substituição de valores ausentes nos dados, preenchendo-os com estimativas. A imputação não tem relação com a redução de dimensionalidade, pois seu foco é lidar com dados ausentes, não com o número de colunas.

Em suma, a única técnica entre as opções apresentadas que diretamente reduz a dimensionalidade, mantendo a qualidade informacional, é a análise de componentes principais.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo