PCA:n Perusajatus
Pääkomponenttianalyysi (PCA) on tehokas menetelmä, joka tunnistaa uudet akselit – nimeltään pääkomponentit – jotka ovat datan suuntia, joissa vaihtelu on suurinta.
PCA säilyttää suunnat, joissa datasi vaihtelee eniten, sillä nämä kuvaavat keskeiset kuviot ja rakenteen.
Voit ajatella PCA:ta kuin taskulampun valon suuntaamista 3D-esineeseen ja varjon tarkastelua seinällä. Valon kulma muuttaa varjon yksityiskohtia. PCA löytää parhaan kulman, jotta varjo eli projection paljastavat mahdollisimman paljon esineen muodosta. Samalla tavalla PCA projisoi datasi uusille akseleille säilyttääkseen mahdollisimman paljon vaihtelua.
12345678910111213141516171819202122232425262728293031323334import numpy as np import matplotlib.pyplot as plt # Generate a simple 2D dataset np.random.seed(0) mean = [0, 0] cov = [[3, 2], [2, 2]] # Covariance matrix X = np.random.multivariate_normal(mean, cov, 200) # Compute the mean of the data mean_vector = np.mean(X, axis=0) # Compute the covariance matrix and its eigenvectors cov_matrix = np.cov(X.T) eigenvalues, eigenvectors = np.linalg.eig(cov_matrix) # First principal component (direction of maximum variance) pc1 = eigenvectors[:, np.argmax(eigenvalues)] # Plot the data plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points") plt.quiver( mean_vector[0], mean_vector[1], pc1[0], pc1[1], angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01, label="First principal component" ) plt.xlabel("Feature 1") plt.ylabel("Feature 2") plt.title("Direction of Maximum Variance (First Principal Component)") plt.legend() plt.axis("equal") plt.show()
Tunnistamalla suunnat, joissa datasi vaihtelee eniten, PCA mahdollistaa ulottuvuuksien vähentämisen säilyttäen samalla tärkeimmän informaation. Keskittymällä näihin suurimman varianssin suuntiin varmistetaan, että aineiston rakenne ja kuviot pysyvät selkeinä. Tämä ymmärrys valmistaa sinut tutkimaan PCA:n matemaattista perustaa tulevissa osioissa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain how the principal components are calculated in PCA?
What does the red arrow in the plot represent?
How does PCA help with dimensionality reduction?
Mahtavaa!
Completion arvosana parantunut arvoon 8.33
PCA:n Perusajatus
Pyyhkäise näyttääksesi valikon
Pääkomponenttianalyysi (PCA) on tehokas menetelmä, joka tunnistaa uudet akselit – nimeltään pääkomponentit – jotka ovat datan suuntia, joissa vaihtelu on suurinta.
PCA säilyttää suunnat, joissa datasi vaihtelee eniten, sillä nämä kuvaavat keskeiset kuviot ja rakenteen.
Voit ajatella PCA:ta kuin taskulampun valon suuntaamista 3D-esineeseen ja varjon tarkastelua seinällä. Valon kulma muuttaa varjon yksityiskohtia. PCA löytää parhaan kulman, jotta varjo eli projection paljastavat mahdollisimman paljon esineen muodosta. Samalla tavalla PCA projisoi datasi uusille akseleille säilyttääkseen mahdollisimman paljon vaihtelua.
12345678910111213141516171819202122232425262728293031323334import numpy as np import matplotlib.pyplot as plt # Generate a simple 2D dataset np.random.seed(0) mean = [0, 0] cov = [[3, 2], [2, 2]] # Covariance matrix X = np.random.multivariate_normal(mean, cov, 200) # Compute the mean of the data mean_vector = np.mean(X, axis=0) # Compute the covariance matrix and its eigenvectors cov_matrix = np.cov(X.T) eigenvalues, eigenvectors = np.linalg.eig(cov_matrix) # First principal component (direction of maximum variance) pc1 = eigenvectors[:, np.argmax(eigenvalues)] # Plot the data plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points") plt.quiver( mean_vector[0], mean_vector[1], pc1[0], pc1[1], angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01, label="First principal component" ) plt.xlabel("Feature 1") plt.ylabel("Feature 2") plt.title("Direction of Maximum Variance (First Principal Component)") plt.legend() plt.axis("equal") plt.show()
Tunnistamalla suunnat, joissa datasi vaihtelee eniten, PCA mahdollistaa ulottuvuuksien vähentämisen säilyttäen samalla tärkeimmän informaation. Keskittymällä näihin suurimman varianssin suuntiin varmistetaan, että aineiston rakenne ja kuviot pysyvät selkeinä. Tämä ymmärrys valmistaa sinut tutkimaan PCA:n matemaattista perustaa tulevissa osioissa.
Kiitos palautteestasi!