Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer PCA Uitvoeren op een Echte Dataset | PCA Implementeren in Python
Quizzes & Challenges
Quizzes
Challenges
/
Dimensionaliteitsreductie met PCA

bookPCA Uitvoeren op een Echte Dataset

Voer PCA uit op een echte dataset met behulp van scikit-learn. Gebruik de Iris-dataset, een klassieker binnen machine learning, en volg deze stappen:

  • Data laden;
  • Voorbereiden voor analyse;
  • Kenmerken standaardiseren;
  • PCA toepassen om de dimensionaliteit te reduceren.

Dit proces toont aan hoe dimensionaliteitsreductie in praktische situaties wordt geïmplementeerd.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

De bovenstaande code voert PCA uit op de Iris-dataset door verschillende belangrijke stappen te volgen:

1. Data laden

De Iris-dataset wordt geladen met load_iris() uit scikit-learn. Deze dataset bevat 150 monsters van irisbloemen, elk beschreven door vier kenmerken: kelkbladlengte, kelkbladbreedte, kroonbladlengte, kroonbladbreedte.

2. Kenmerken standaardiseren

Standaardisatie zorgt ervoor dat elk kenmerk een gemiddelde van 0 en een variantie van 1 heeft:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Deze stap is essentieel omdat PCA gevoelig is voor de variantie van elk kenmerk. Zonder standaardisatie zouden kenmerken met grotere schalen de hoofdcomponenten domineren, wat tot misleidende resultaten leidt.

3. PCA toepassen

PCA(n_components=2) reduceert de dataset van vier dimensies naar twee:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Hoofdcomponenten zijn nieuwe assen die de richtingen van maximale variantie in de data weergeven. Elk monster wordt op deze assen geprojecteerd, wat resulteert in een compacte representatie die zoveel mogelijk informatie behoudt.

4. PCA-uitvoer interpreteren

Het is mogelijk om te controleren hoeveel variantie elke hoofdcomponent verklaart:

print(pca.explained_variance_ratio_)

Dit geeft een array, zoals [0.7277, 0.2303], wat betekent dat de eerste component ongeveer 73% van de variantie verklaart en de tweede ongeveer 23%. Samen vangen ze het grootste deel van de informatie uit de oorspronkelijke data.

question mark

Welke uitspraak is correct over het uitvoeren van PCA op de Iris-dataset zoals getoond in het voorbeeld?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 1

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain how to interpret the principal components in this context?

How can I visualize the results of the PCA on the Iris dataset?

What are some practical applications of PCA beyond this example?

bookPCA Uitvoeren op een Echte Dataset

Veeg om het menu te tonen

Voer PCA uit op een echte dataset met behulp van scikit-learn. Gebruik de Iris-dataset, een klassieker binnen machine learning, en volg deze stappen:

  • Data laden;
  • Voorbereiden voor analyse;
  • Kenmerken standaardiseren;
  • PCA toepassen om de dimensionaliteit te reduceren.

Dit proces toont aan hoe dimensionaliteitsreductie in praktische situaties wordt geïmplementeerd.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

De bovenstaande code voert PCA uit op de Iris-dataset door verschillende belangrijke stappen te volgen:

1. Data laden

De Iris-dataset wordt geladen met load_iris() uit scikit-learn. Deze dataset bevat 150 monsters van irisbloemen, elk beschreven door vier kenmerken: kelkbladlengte, kelkbladbreedte, kroonbladlengte, kroonbladbreedte.

2. Kenmerken standaardiseren

Standaardisatie zorgt ervoor dat elk kenmerk een gemiddelde van 0 en een variantie van 1 heeft:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Deze stap is essentieel omdat PCA gevoelig is voor de variantie van elk kenmerk. Zonder standaardisatie zouden kenmerken met grotere schalen de hoofdcomponenten domineren, wat tot misleidende resultaten leidt.

3. PCA toepassen

PCA(n_components=2) reduceert de dataset van vier dimensies naar twee:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Hoofdcomponenten zijn nieuwe assen die de richtingen van maximale variantie in de data weergeven. Elk monster wordt op deze assen geprojecteerd, wat resulteert in een compacte representatie die zoveel mogelijk informatie behoudt.

4. PCA-uitvoer interpreteren

Het is mogelijk om te controleren hoeveel variantie elke hoofdcomponent verklaart:

print(pca.explained_variance_ratio_)

Dit geeft een array, zoals [0.7277, 0.2303], wat betekent dat de eerste component ongeveer 73% van de variantie verklaart en de tweede ongeveer 23%. Samen vangen ze het grootste deel van de informatie uit de oorspronkelijke data.

question mark

Welke uitspraak is correct over het uitvoeren van PCA op de Iris-dataset zoals getoond in het voorbeeld?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 1
some-alt