Redução de Dimensões por Maximização da Variância
PCA classifica os componentes principais pela variância que capturam, medida por seus autovalores. Manter os k principais componentes preserva a maior parte da variância, pois cada componente captura menos que o anterior e é ortogonal aos componentes anteriores. Isso reduz as dimensões enquanto retém as direções mais informativas dos seus dados.
A razão da variância explicada para cada componente principal é:
Explained Variance Ratio=∑jλjλionde λi é o i-ésimo maior autovalor. Essa razão mostra quanto da variância total dos seus dados é capturada por cada componente principal. A soma de todas as razões de variância explicada é sempre 1, já que todos os autovalores juntos correspondem à variância total do conjunto de dados.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Selecionar os principais componentes de modo que suas razões de variância explicada somem até um determinado limite — como 95% — permite reduzir o número de dimensões mantendo a maior parte da informação dos dados. Isso significa que você mantém apenas as direções nos seus dados onde a dispersão é maior, que são as mais informativas para análise ou modelagem. Ao focar nesses componentes, o conjunto de dados é simplificado sem perder os padrões mais relevantes. Esse equilíbrio entre dimensionalidade e informação é uma vantagem fundamental do PCA.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Incrível!
Completion taxa melhorada para 8.33
Redução de Dimensões por Maximização da Variância
Deslize para mostrar o menu
PCA classifica os componentes principais pela variância que capturam, medida por seus autovalores. Manter os k principais componentes preserva a maior parte da variância, pois cada componente captura menos que o anterior e é ortogonal aos componentes anteriores. Isso reduz as dimensões enquanto retém as direções mais informativas dos seus dados.
A razão da variância explicada para cada componente principal é:
Explained Variance Ratio=∑jλjλionde λi é o i-ésimo maior autovalor. Essa razão mostra quanto da variância total dos seus dados é capturada por cada componente principal. A soma de todas as razões de variância explicada é sempre 1, já que todos os autovalores juntos correspondem à variância total do conjunto de dados.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Selecionar os principais componentes de modo que suas razões de variância explicada somem até um determinado limite — como 95% — permite reduzir o número de dimensões mantendo a maior parte da informação dos dados. Isso significa que você mantém apenas as direções nos seus dados onde a dispersão é maior, que são as mais informativas para análise ou modelagem. Ao focar nesses componentes, o conjunto de dados é simplificado sem perder os padrões mais relevantes. Esse equilíbrio entre dimensionalidade e informação é uma vantagem fundamental do PCA.
Obrigado pelo seu feedback!