PCA Uitvoeren op een Echte Dataset
Voer PCA uit op een echte dataset met behulp van scikit-learn. Gebruik de Iris-dataset, een klassieker binnen machine learning, en volg deze stappen:
- Data laden;
- Voorbereiden voor analyse;
- Kenmerken standaardiseren;
PCAtoepassen om de dimensionaliteit te reduceren.
Dit proces toont aan hoe dimensionaliteitsreductie in praktische situaties wordt geïmplementeerd.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
De bovenstaande code voert PCA uit op de Iris-dataset door verschillende belangrijke stappen te volgen:
1. Data laden
De Iris-dataset wordt geladen met load_iris() uit scikit-learn. Deze dataset bevat 150 monsters van irisbloemen, elk beschreven door vier kenmerken: kelkbladlengte, kelkbladbreedte, kroonbladlengte, kroonbladbreedte.
2. Kenmerken standaardiseren
Standaardisatie zorgt ervoor dat elk kenmerk een gemiddelde van 0 en een variantie van 1 heeft:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Deze stap is essentieel omdat PCA gevoelig is voor de variantie van elk kenmerk. Zonder standaardisatie zouden kenmerken met grotere schalen de hoofdcomponenten domineren, wat tot misleidende resultaten leidt.
3. PCA toepassen
PCA(n_components=2) reduceert de dataset van vier dimensies naar twee:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Hoofdcomponenten zijn nieuwe assen die de richtingen van maximale variantie in de data weergeven. Elk monster wordt op deze assen geprojecteerd, wat resulteert in een compacte representatie die zoveel mogelijk informatie behoudt.
4. PCA-uitvoer interpreteren
Het is mogelijk om te controleren hoeveel variantie elke hoofdcomponent verklaart:
print(pca.explained_variance_ratio_)
Dit geeft een array, zoals [0.7277, 0.2303], wat betekent dat de eerste component ongeveer 73% van de variantie verklaart en de tweede ongeveer 23%. Samen vangen ze het grootste deel van de informatie uit de oorspronkelijke data.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain how to interpret the principal components in this context?
How can I visualize the results of the PCA on the Iris dataset?
What are some practical applications of PCA beyond this example?
Geweldig!
Completion tarief verbeterd naar 8.33
PCA Uitvoeren op een Echte Dataset
Veeg om het menu te tonen
Voer PCA uit op een echte dataset met behulp van scikit-learn. Gebruik de Iris-dataset, een klassieker binnen machine learning, en volg deze stappen:
- Data laden;
- Voorbereiden voor analyse;
- Kenmerken standaardiseren;
PCAtoepassen om de dimensionaliteit te reduceren.
Dit proces toont aan hoe dimensionaliteitsreductie in praktische situaties wordt geïmplementeerd.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
De bovenstaande code voert PCA uit op de Iris-dataset door verschillende belangrijke stappen te volgen:
1. Data laden
De Iris-dataset wordt geladen met load_iris() uit scikit-learn. Deze dataset bevat 150 monsters van irisbloemen, elk beschreven door vier kenmerken: kelkbladlengte, kelkbladbreedte, kroonbladlengte, kroonbladbreedte.
2. Kenmerken standaardiseren
Standaardisatie zorgt ervoor dat elk kenmerk een gemiddelde van 0 en een variantie van 1 heeft:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Deze stap is essentieel omdat PCA gevoelig is voor de variantie van elk kenmerk. Zonder standaardisatie zouden kenmerken met grotere schalen de hoofdcomponenten domineren, wat tot misleidende resultaten leidt.
3. PCA toepassen
PCA(n_components=2) reduceert de dataset van vier dimensies naar twee:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Hoofdcomponenten zijn nieuwe assen die de richtingen van maximale variantie in de data weergeven. Elk monster wordt op deze assen geprojecteerd, wat resulteert in een compacte representatie die zoveel mogelijk informatie behoudt.
4. PCA-uitvoer interpreteren
Het is mogelijk om te controleren hoeveel variantie elke hoofdcomponent verklaart:
print(pca.explained_variance_ratio_)
Dit geeft een array, zoals [0.7277, 0.2303], wat betekent dat de eerste component ongeveer 73% van de variantie verklaart en de tweede ongeveer 23%. Samen vangen ze het grootste deel van de informatie uit de oorspronkelijke data.
Bedankt voor je feedback!