Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Redução de Dimensões por Maximização da Variância | Fundamentos Matemáticos do PCA
Practice
Projects
Quizzes & Challenges
Questionários
Challenges
/
Redução de Dimensionalidade com PCA

bookRedução de Dimensões por Maximização da Variância

PCA classifica os componentes principais pela variância que capturam, medida por seus autovalores. Manter os k principais componentes preserva a maior parte da variância, pois cada componente captura menos que o anterior e é ortogonal aos componentes anteriores. Isso reduz as dimensões enquanto retém as direções mais informativas dos seus dados.

A razão da variância explicada para cada componente principal é:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

onde λiλ_i é o ii-ésimo maior autovalor. Essa razão mostra quanto da variância total dos seus dados é capturada por cada componente principal. A soma de todas as razões de variância explicada é sempre 1, já que todos os autovalores juntos correspondem à variância total do conjunto de dados.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Selecionar os principais componentes de modo que suas razões de variância explicada somem até um determinado limite — como 95% — permite reduzir o número de dimensões mantendo a maior parte da informação dos dados. Isso significa que você mantém apenas as direções nos seus dados onde a dispersão é maior, que são as mais informativas para análise ou modelagem. Ao focar nesses componentes, o conjunto de dados é simplificado sem perder os padrões mais relevantes. Esse equilíbrio entre dimensionalidade e informação é uma vantagem fundamental do PCA.

question mark

O que a razão de variância explicada representa na análise de componentes principais (PCA)?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 4

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

bookRedução de Dimensões por Maximização da Variância

Deslize para mostrar o menu

PCA classifica os componentes principais pela variância que capturam, medida por seus autovalores. Manter os k principais componentes preserva a maior parte da variância, pois cada componente captura menos que o anterior e é ortogonal aos componentes anteriores. Isso reduz as dimensões enquanto retém as direções mais informativas dos seus dados.

A razão da variância explicada para cada componente principal é:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

onde λiλ_i é o ii-ésimo maior autovalor. Essa razão mostra quanto da variância total dos seus dados é capturada por cada componente principal. A soma de todas as razões de variância explicada é sempre 1, já que todos os autovalores juntos correspondem à variância total do conjunto de dados.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Selecionar os principais componentes de modo que suas razões de variância explicada somem até um determinado limite — como 95% — permite reduzir o número de dimensões mantendo a maior parte da informação dos dados. Isso significa que você mantém apenas as direções nos seus dados onde a dispersão é maior, que são as mais informativas para análise ou modelagem. Ao focar nesses componentes, o conjunto de dados é simplificado sem perder os padrões mais relevantes. Esse equilíbrio entre dimensionalidade e informação é uma vantagem fundamental do PCA.

question mark

O que a razão de variância explicada representa na análise de componentes principais (PCA)?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 4
some-alt