Aprenda Redução de Dimensões por Maximização da Variância

Deslize para mostrar o menu

PCA classifica os componentes principais pela variância que capturam, medida por seus autovalores. Manter os k principais componentes preserva a maior parte da variância, pois cada componente captura menos que o anterior e é ortogonal aos componentes anteriores. Isso reduz as dimensões enquanto retém as direções mais informativas dos seus dados.

A razão da variância explicada para cada componente principal é:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

onde $λ_i$ é o $i$ -ésimo maior autovalor. Essa razão mostra quanto da variância total dos seus dados é capturada por cada componente principal. A soma de todas as razões de variância explicada é sempre 1, já que todos os autovalores juntos correspondem à variância total do conjunto de dados.


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Selecionar os principais componentes de modo que suas razões de variância explicada somem até um determinado limite — como 95% — permite reduzir o número de dimensões mantendo a maior parte da informação dos dados. Isso significa que você mantém apenas as direções nos seus dados onde a dispersão é maior, que são as mais informativas para análise ou modelagem. Ao focar nesses componentes, o conjunto de dados é simplificado sem perder os padrões mais relevantes. Esse equilíbrio entre dimensionalidade e informação é uma vantagem fundamental do PCA.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 4

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 2. Capítulo 4