Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Redução de Dimensões por Maximização da Variância | Fundamentos Matemáticos do PCA
Redução de Dimensionalidade com PCA

bookRedução de Dimensões por Maximização da Variância

PCA classifica os componentes principais pela variância que capturam, medida por seus autovalores. Manter os k principais componentes preserva a maior parte da variância, pois cada componente captura menos que o anterior e é ortogonal aos componentes anteriores. Isso reduz as dimensões enquanto retém as direções mais informativas dos seus dados.

A razão da variância explicada para cada componente principal é:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

onde λiλ_i é o ii-ésimo maior autovalor. Essa razão mostra quanto da variância total dos seus dados é capturada por cada componente principal. A soma de todas as razões de variância explicada é sempre 1, já que todos os autovalores juntos correspondem à variância total do conjunto de dados.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Selecionar os principais componentes de modo que suas razões de variância explicada somem até um determinado limite — como 95% — permite reduzir o número de dimensões mantendo a maior parte da informação dos dados. Isso significa que você mantém apenas as direções nos seus dados onde a dispersão é maior, que são as mais informativas para análise ou modelagem. Ao focar nesses componentes, o conjunto de dados é simplificado sem perder os padrões mais relevantes. Esse equilíbrio entre dimensionalidade e informação é uma vantagem fundamental do PCA.

question mark

O que a razão de variância explicada representa na análise de componentes principais (PCA)?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 4

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

bookRedução de Dimensões por Maximização da Variância

Deslize para mostrar o menu

PCA classifica os componentes principais pela variância que capturam, medida por seus autovalores. Manter os k principais componentes preserva a maior parte da variância, pois cada componente captura menos que o anterior e é ortogonal aos componentes anteriores. Isso reduz as dimensões enquanto retém as direções mais informativas dos seus dados.

A razão da variância explicada para cada componente principal é:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

onde λiλ_i é o ii-ésimo maior autovalor. Essa razão mostra quanto da variância total dos seus dados é capturada por cada componente principal. A soma de todas as razões de variância explicada é sempre 1, já que todos os autovalores juntos correspondem à variância total do conjunto de dados.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Selecionar os principais componentes de modo que suas razões de variância explicada somem até um determinado limite — como 95% — permite reduzir o número de dimensões mantendo a maior parte da informação dos dados. Isso significa que você mantém apenas as direções nos seus dados onde a dispersão é maior, que são as mais informativas para análise ou modelagem. Ao focar nesses componentes, o conjunto de dados é simplificado sem perder os padrões mais relevantes. Esse equilíbrio entre dimensionalidade e informação é uma vantagem fundamental do PCA.

question mark

O que a razão de variância explicada representa na análise de componentes principais (PCA)?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 4
some-alt