Toteutus Oikealla Tietoaineistolla
Pyyhkäise näyttääksesi valikon
Harjoiteltuasi K-means-menetelmää keinotekoisella datalla voit nyt soveltaa sitä todelliseen aineistoon: wine dataset. Todelliset aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirreasteikot, mikä tekee klusteroinnista käytännöllisemmän haasteen.
Käytät datasets.load_wine() -funktiota aineiston lataamiseen. Wine dataset sisältää erilaisia viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.
Todellinen data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.
Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:
-
WSS-menetelmä: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä todellisessa datassa;
-
Silhouette score -menetelmä: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.
Visualisoinnit ovat avain tulosten ymmärtämiseen:
-
Kolmen valitun piirteen 3D-kuvaaja wine datasetista mahdollistaa datan jakauman visuaalisen tarkastelun pienennetyssä piirreavaruudessa, ilman ulottuvuuksien vähentämistä;
-
WSS-kuvaaja elbow-kohdan tunnistamiseen;
-
Silhouette-kuvaaja klusteroinnin laadun arviointiin.
K-means-klusterit visualisoituna wine-datan kolmen piirteen 3D-kuvaajassa, jossa näkyvät klusterien sijoittumiset tässä pienennetyssä piirreavaruudessa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme