Impara Riduzione delle Dimensioni Massimizzando la Varianza

Scorri per mostrare il menu

PCA classifica le componenti principali in base alla varianza che catturano, misurata tramite i loro autovalori. Mantenere le prime k componenti preserva la maggior parte della varianza, poiché ogni componente cattura meno della precedente ed è ortogonale alle componenti precedenti. Questo riduce le dimensioni mantenendo le direzioni più informative nei dati.

Il rapporto di varianza spiegata per ciascuna componente principale è:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

dove $λ_i$ è il $i$ -esimo autovalore più grande. Questo rapporto indica quanta parte della varianza totale nei dati viene catturata da ciascuna componente principale. La somma di tutti i rapporti di varianza spiegata è sempre 1, poiché tutti gli autovalori insieme rappresentano la varianza totale del dataset.


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Selezionare le principali componenti in modo che la somma dei loro rapporti di varianza spiegata raggiunga una soglia specifica - come il 95% - consente di ridurre il numero di dimensioni mantenendo la maggior parte delle informazioni dei dati. Questo significa conservare solo le direzioni nei dati in cui la dispersione è maggiore, che sono le più informative per l'analisi o la modellizzazione. Concentrandosi su queste componenti, si semplifica il dataset senza perdere i pattern più rilevanti. Questo equilibrio tra dimensionalità e informazione è un vantaggio fondamentale della PCA.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 4

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Sezione 2. Capitolo 4