Dimensies Reduceren Door Variantie Te Maximaliseren
PCA rangschikt hoofdcomponenten op basis van de variantie die ze vastleggen, gemeten aan hun eigenwaarden. Door de top k componenten te behouden, blijft de meeste variantie behouden, aangezien elke component minder vastlegt dan de vorige en orthogonaal is aan eerdere componenten. Dit vermindert het aantal dimensies terwijl de meest informatieve richtingen in uw gegevens behouden blijven.
De verklaarde variantieverhouding voor elke hoofdcomponent is:
Explained Variance Ratio=∑jλjλiwaarbij λi de i-de grootste eigenwaarde is. Deze verhouding geeft aan hoeveel van de totale variantie in uw gegevens door elke hoofdcomponent wordt vastgelegd. De som van alle verklaarde variantieverhoudingen is altijd 1, omdat alle eigenwaarden samen de totale variantie in de dataset verklaren.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Door de belangrijkste hoofdcomponenten te selecteren zodat hun verklaarde variantieverhoudingen optellen tot een specifieke drempel – zoals 95% – kun je het aantal dimensies verminderen terwijl het grootste deel van de informatie uit de data behouden blijft. Dit betekent dat je alleen de richtingen in je data behoudt waar de spreiding het grootst is, wat het meest informatief is voor analyse of modellering. Door je op deze componenten te richten, vereenvoudig je je dataset zonder de belangrijkste patronen te verliezen. Dit evenwicht tussen dimensionaliteit en informatie is een belangrijk voordeel van PCA.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain how to choose the optimal number of principal components?
What happens if I keep too few or too many principal components?
Can you show how to calculate the cumulative explained variance?
Geweldig!
Completion tarief verbeterd naar 8.33
Dimensies Reduceren Door Variantie Te Maximaliseren
Veeg om het menu te tonen
PCA rangschikt hoofdcomponenten op basis van de variantie die ze vastleggen, gemeten aan hun eigenwaarden. Door de top k componenten te behouden, blijft de meeste variantie behouden, aangezien elke component minder vastlegt dan de vorige en orthogonaal is aan eerdere componenten. Dit vermindert het aantal dimensies terwijl de meest informatieve richtingen in uw gegevens behouden blijven.
De verklaarde variantieverhouding voor elke hoofdcomponent is:
Explained Variance Ratio=∑jλjλiwaarbij λi de i-de grootste eigenwaarde is. Deze verhouding geeft aan hoeveel van de totale variantie in uw gegevens door elke hoofdcomponent wordt vastgelegd. De som van alle verklaarde variantieverhoudingen is altijd 1, omdat alle eigenwaarden samen de totale variantie in de dataset verklaren.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Door de belangrijkste hoofdcomponenten te selecteren zodat hun verklaarde variantieverhoudingen optellen tot een specifieke drempel – zoals 95% – kun je het aantal dimensies verminderen terwijl het grootste deel van de informatie uit de data behouden blijft. Dit betekent dat je alleen de richtingen in je data behoudt waar de spreiding het grootst is, wat het meest informatief is voor analyse of modellering. Door je op deze componenten te richten, vereenvoudig je je dataset zonder de belangrijkste patronen te verliezen. Dit evenwicht tussen dimensionaliteit en informatie is een belangrijk voordeel van PCA.
Bedankt voor je feedback!