Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Dimensies Reduceren Door Variantie Te Maximaliseren | Wiskundige Grondslagen van PCA
Dimensionaliteitsreductie met PCA

bookDimensies Reduceren Door Variantie Te Maximaliseren

PCA rangschikt hoofdcomponenten op basis van de variantie die ze vastleggen, gemeten aan hun eigenwaarden. Door de top k componenten te behouden, blijft de meeste variantie behouden, aangezien elke component minder vastlegt dan de vorige en orthogonaal is aan eerdere componenten. Dit vermindert het aantal dimensies terwijl de meest informatieve richtingen in uw gegevens behouden blijven.

De verklaarde variantieverhouding voor elke hoofdcomponent is:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

waarbij λiλ_i de ii-de grootste eigenwaarde is. Deze verhouding geeft aan hoeveel van de totale variantie in uw gegevens door elke hoofdcomponent wordt vastgelegd. De som van alle verklaarde variantieverhoudingen is altijd 1, omdat alle eigenwaarden samen de totale variantie in de dataset verklaren.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Door de belangrijkste hoofdcomponenten te selecteren zodat hun verklaarde variantieverhoudingen optellen tot een specifieke drempel – zoals 95% – kun je het aantal dimensies verminderen terwijl het grootste deel van de informatie uit de data behouden blijft. Dit betekent dat je alleen de richtingen in je data behoudt waar de spreiding het grootst is, wat het meest informatief is voor analyse of modellering. Door je op deze componenten te richten, vereenvoudig je je dataset zonder de belangrijkste patronen te verliezen. Dit evenwicht tussen dimensionaliteit en informatie is een belangrijk voordeel van PCA.

question mark

Wat geeft de verklaarde variantieverhouding weer in hoofdcomponentenanalyse (PCA)?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 4

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain how to choose the optimal number of principal components?

What happens if I keep too few or too many principal components?

Can you show how to calculate the cumulative explained variance?

bookDimensies Reduceren Door Variantie Te Maximaliseren

Veeg om het menu te tonen

PCA rangschikt hoofdcomponenten op basis van de variantie die ze vastleggen, gemeten aan hun eigenwaarden. Door de top k componenten te behouden, blijft de meeste variantie behouden, aangezien elke component minder vastlegt dan de vorige en orthogonaal is aan eerdere componenten. Dit vermindert het aantal dimensies terwijl de meest informatieve richtingen in uw gegevens behouden blijven.

De verklaarde variantieverhouding voor elke hoofdcomponent is:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

waarbij λiλ_i de ii-de grootste eigenwaarde is. Deze verhouding geeft aan hoeveel van de totale variantie in uw gegevens door elke hoofdcomponent wordt vastgelegd. De som van alle verklaarde variantieverhoudingen is altijd 1, omdat alle eigenwaarden samen de totale variantie in de dataset verklaren.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Door de belangrijkste hoofdcomponenten te selecteren zodat hun verklaarde variantieverhoudingen optellen tot een specifieke drempel – zoals 95% – kun je het aantal dimensies verminderen terwijl het grootste deel van de informatie uit de data behouden blijft. Dit betekent dat je alleen de richtingen in je data behoudt waar de spreiding het grootst is, wat het meest informatief is voor analyse of modellering. Door je op deze componenten te richten, vereenvoudig je je dataset zonder de belangrijkste patronen te verliezen. Dit evenwicht tussen dimensionaliteit en informatie is een belangrijk voordeel van PCA.

question mark

Wat geeft de verklaarde variantieverhouding weer in hoofdcomponentenanalyse (PCA)?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 4
some-alt