Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Toteutus Oikealla Tietoaineistolla | K-Means
Klusterianalyysi Pythonilla

bookToteutus Oikealla Tietoaineistolla

Harjoiteltuasi K-means-menetelmää keinotekoisella datalla, voit nyt soveltaa sitä todelliseen aineistoon: wine dataset. Todelliset aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.

Käytät datasets.load_wine()-funktiota aineiston lataamiseen. Wine dataset sisältää erilaisia viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.

Todellinen data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.

Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:

  • WSS-menetelmä: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä todellisessa datassa;

  • Silhouette score -menetelmä: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.

Visualisoinnit ovat avain tulosten ymmärtämiseen:

  • Piirtämällä 3 valittua ominaisuutta 3D-kuvaajaan viiniaineistosta voidaan tarkastella datan jakaumaa pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;

  • WSS-kuvaaja elbow-kohdan tunnistamiseen;

  • Silhouette-kuvaaja klusteroinnin laadun arviointiin.

K-means-klusterit visualisoituna viiniaineiston 3 ominaisuuden 3D-kuvaajassa, jossa näkyvät klusterien sijoittumiset tässä pienennetyssä piirreavaruudessa.

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 6

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

bookToteutus Oikealla Tietoaineistolla

Pyyhkäise näyttääksesi valikon

Harjoiteltuasi K-means-menetelmää keinotekoisella datalla, voit nyt soveltaa sitä todelliseen aineistoon: wine dataset. Todelliset aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.

Käytät datasets.load_wine()-funktiota aineiston lataamiseen. Wine dataset sisältää erilaisia viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.

Todellinen data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.

Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:

  • WSS-menetelmä: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä todellisessa datassa;

  • Silhouette score -menetelmä: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.

Visualisoinnit ovat avain tulosten ymmärtämiseen:

  • Piirtämällä 3 valittua ominaisuutta 3D-kuvaajaan viiniaineistosta voidaan tarkastella datan jakaumaa pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;

  • WSS-kuvaaja elbow-kohdan tunnistamiseen;

  • Silhouette-kuvaaja klusteroinnin laadun arviointiin.

K-means-klusterit visualisoituna viiniaineiston 3 ominaisuuden 3D-kuvaajassa, jossa näkyvät klusterien sijoittumiset tässä pienennetyssä piirreavaruudessa.

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 6
some-alt