Ulottuvuuksien Vähentäminen Varianssia Maksimoimalla
PCA järjestää pääkomponentit niiden selittämän varianssin mukaan, jota mitataan niiden ominaisarvoilla. Valitsemalla suurimmat k komponenttia säilytetään suurin osa varianssista, sillä jokainen komponentti selittää vähemmän kuin edellinen ja on ortogonaalinen aiempiin komponentteihin nähden. Tämä pienentää dimensioiden määrää säilyttäen kuitenkin datan informatiivisimmat suunnat.
Selitetyn varianssin suhde jokaiselle pääkomponentille on:
Explained Variance Ratio=∑jλjλimissä λi on i:n suurin ominaisarvo. Tämä suhde osoittaa, kuinka suuren osan datan kokonaisvarianssista kukin pääkomponentti selittää. Kaikkien selitettyjen varianssien suhteiden summa on aina 1, koska kaikki ominaisarvot yhdessä muodostavat koko aineiston varianssin.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Valitsemalla tärkeimmät pääkomponentit siten, että niiden selitettyjen varianssien suhteet summautuvat tiettyyn kynnysarvoon – esimerkiksi 95 % – voidaan vähentää ulottuvuuksien määrää säilyttäen suurin osa datan informaatiosta. Tämä tarkoittaa, että säilytetään vain ne suunnat datassa, joissa hajonta on suurinta, ja jotka ovat analyysin tai mallinnuksen kannalta informatiivisimpia. Keskittymällä näihin komponentteihin yksinkertaistat aineistoasi menettämättä olennaisia rakenteita. Tämä tasapaino ulottuvuuksien ja informaation välillä on PCA:n keskeinen etu.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain how to choose the optimal number of principal components?
What happens if I keep too few or too many principal components?
Can you show how to calculate the cumulative explained variance?
Mahtavaa!
Completion arvosana parantunut arvoon 8.33
Ulottuvuuksien Vähentäminen Varianssia Maksimoimalla
Pyyhkäise näyttääksesi valikon
PCA järjestää pääkomponentit niiden selittämän varianssin mukaan, jota mitataan niiden ominaisarvoilla. Valitsemalla suurimmat k komponenttia säilytetään suurin osa varianssista, sillä jokainen komponentti selittää vähemmän kuin edellinen ja on ortogonaalinen aiempiin komponentteihin nähden. Tämä pienentää dimensioiden määrää säilyttäen kuitenkin datan informatiivisimmat suunnat.
Selitetyn varianssin suhde jokaiselle pääkomponentille on:
Explained Variance Ratio=∑jλjλimissä λi on i:n suurin ominaisarvo. Tämä suhde osoittaa, kuinka suuren osan datan kokonaisvarianssista kukin pääkomponentti selittää. Kaikkien selitettyjen varianssien suhteiden summa on aina 1, koska kaikki ominaisarvot yhdessä muodostavat koko aineiston varianssin.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Valitsemalla tärkeimmät pääkomponentit siten, että niiden selitettyjen varianssien suhteet summautuvat tiettyyn kynnysarvoon – esimerkiksi 95 % – voidaan vähentää ulottuvuuksien määrää säilyttäen suurin osa datan informaatiosta. Tämä tarkoittaa, että säilytetään vain ne suunnat datassa, joissa hajonta on suurinta, ja jotka ovat analyysin tai mallinnuksen kannalta informatiivisimpia. Keskittymällä näihin komponentteihin yksinkertaistat aineistoasi menettämättä olennaisia rakenteita. Tämä tasapaino ulottuvuuksien ja informaation välillä on PCA:n keskeinen etu.
Kiitos palautteestasi!