Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Ulottuvuuksien Vähentäminen Varianssia Maksimoimalla | PCA:n Matemaattiset Perusteet
Quizzes & Challenges
Quizzes
Challenges
/
Ulottuvuuksien Vähentäminen PCA:lla

bookUlottuvuuksien Vähentäminen Varianssia Maksimoimalla

PCA järjestää pääkomponentit niiden selittämän varianssin mukaan, jota mitataan niiden ominaisarvoilla. Valitsemalla suurimmat k komponenttia säilytetään suurin osa varianssista, sillä jokainen komponentti selittää vähemmän kuin edellinen ja on ortogonaalinen aiempiin komponentteihin nähden. Tämä pienentää dimensioiden määrää säilyttäen kuitenkin datan informatiivisimmat suunnat.

Selitetyn varianssin suhde jokaiselle pääkomponentille on:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

missä λiλ_i on ii:n suurin ominaisarvo. Tämä suhde osoittaa, kuinka suuren osan datan kokonaisvarianssista kukin pääkomponentti selittää. Kaikkien selitettyjen varianssien suhteiden summa on aina 1, koska kaikki ominaisarvot yhdessä muodostavat koko aineiston varianssin.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Valitsemalla tärkeimmät pääkomponentit siten, että niiden selitettyjen varianssien suhteet summautuvat tiettyyn kynnysarvoon – esimerkiksi 95 % – voidaan vähentää ulottuvuuksien määrää säilyttäen suurin osa datan informaatiosta. Tämä tarkoittaa, että säilytetään vain ne suunnat datassa, joissa hajonta on suurinta, ja jotka ovat analyysin tai mallinnuksen kannalta informatiivisimpia. Keskittymällä näihin komponentteihin yksinkertaistat aineistoasi menettämättä olennaisia rakenteita. Tämä tasapaino ulottuvuuksien ja informaation välillä on PCA:n keskeinen etu.

question mark

Mitä selitetyn varianssin suhde tarkoittaa pääkomponenttianalyysissä (PCA)?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 4

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how to choose the optimal number of principal components?

What happens if I keep too few or too many principal components?

Can you show how to calculate the cumulative explained variance?

bookUlottuvuuksien Vähentäminen Varianssia Maksimoimalla

Pyyhkäise näyttääksesi valikon

PCA järjestää pääkomponentit niiden selittämän varianssin mukaan, jota mitataan niiden ominaisarvoilla. Valitsemalla suurimmat k komponenttia säilytetään suurin osa varianssista, sillä jokainen komponentti selittää vähemmän kuin edellinen ja on ortogonaalinen aiempiin komponentteihin nähden. Tämä pienentää dimensioiden määrää säilyttäen kuitenkin datan informatiivisimmat suunnat.

Selitetyn varianssin suhde jokaiselle pääkomponentille on:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

missä λiλ_i on ii:n suurin ominaisarvo. Tämä suhde osoittaa, kuinka suuren osan datan kokonaisvarianssista kukin pääkomponentti selittää. Kaikkien selitettyjen varianssien suhteiden summa on aina 1, koska kaikki ominaisarvot yhdessä muodostavat koko aineiston varianssin.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Valitsemalla tärkeimmät pääkomponentit siten, että niiden selitettyjen varianssien suhteet summautuvat tiettyyn kynnysarvoon – esimerkiksi 95 % – voidaan vähentää ulottuvuuksien määrää säilyttäen suurin osa datan informaatiosta. Tämä tarkoittaa, että säilytetään vain ne suunnat datassa, joissa hajonta on suurinta, ja jotka ovat analyysin tai mallinnuksen kannalta informatiivisimpia. Keskittymällä näihin komponentteihin yksinkertaistat aineistoasi menettämättä olennaisia rakenteita. Tämä tasapaino ulottuvuuksien ja informaation välillä on PCA:n keskeinen etu.

question mark

Mitä selitetyn varianssin suhde tarkoittaa pääkomponenttianalyysissä (PCA)?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 4
some-alt