Toteutus Oikealla Tietoaineistolla
Harjoiteltuasi K-means-menetelmää keinotekoisella datalla, voit nyt soveltaa sitä todelliseen aineistoon: wine dataset. Todelliset aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.
Käytät datasets.load_wine()-funktiota aineiston lataamiseen. Wine dataset sisältää erilaisia viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.
Todellinen data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.
Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:
-
WSS-menetelmä: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä todellisessa datassa;
-
Silhouette score -menetelmä: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.
Visualisoinnit ovat avain tulosten ymmärtämiseen:
-
Piirtämällä 3 valittua ominaisuutta 3D-kuvaajaan viiniaineistosta voidaan tarkastella datan jakaumaa pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;
-
WSS-kuvaaja elbow-kohdan tunnistamiseen;
-
Silhouette-kuvaaja klusteroinnin laadun arviointiin.
K-means-klusterit visualisoituna viiniaineiston 3 ominaisuuden 3D-kuvaajassa, jossa näkyvät klusterien sijoittumiset tässä pienennetyssä piirreavaruudessa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Mahtavaa!
Completion arvosana parantunut arvoon 2.94
Toteutus Oikealla Tietoaineistolla
Pyyhkäise näyttääksesi valikon
Harjoiteltuasi K-means-menetelmää keinotekoisella datalla, voit nyt soveltaa sitä todelliseen aineistoon: wine dataset. Todelliset aineistot sisältävät haasteita, kuten epäselvät klusterirakenteet ja vaihtelevat piirteiden mittakaavat, mikä tekee klusteroinnista käytännöllisemmän haasteen.
Käytät datasets.load_wine()-funktiota aineiston lataamiseen. Wine dataset sisältää erilaisia viinien ominaisuuksia. Tavoitteena on selvittää, pystyykö K-means löytämään klustereita, jotka heijastavat viinien samankaltaisuuksia näiden ominaisuuksien perusteella.
Todellinen data vaatii usein esikäsittelyä. Piirteiden skaalaus voi olla tarpeen, jotta kaikki piirteet vaikuttavat tasapuolisesti etäisyyksien laskentaan K-meansissa.
Optimaalisen klustereiden määrän löytämiseksi käytät jälleen:
-
WSS-menetelmä: analysoi elbow-kuvaajaa eri K-arvoilla. Elbow-kohta voi olla vähemmän selkeä todellisessa datassa;
-
Silhouette score -menetelmä: tarkastele Silhouette-kuvaajaa ja keskiarvopisteitä parhaan K:n löytämiseksi. Pisteet voivat vaihdella enemmän kuin keinotekoisella datalla.
Visualisoinnit ovat avain tulosten ymmärtämiseen:
-
Piirtämällä 3 valittua ominaisuutta 3D-kuvaajaan viiniaineistosta voidaan tarkastella datan jakaumaa pienennetyssä piirreavaruudessa, ilman dimensioiden vähennystä;
-
WSS-kuvaaja elbow-kohdan tunnistamiseen;
-
Silhouette-kuvaaja klusteroinnin laadun arviointiin.
K-means-klusterit visualisoituna viiniaineiston 3 ominaisuuden 3D-kuvaajassa, jossa näkyvät klusterien sijoittumiset tässä pienennetyssä piirreavaruudessa.
Kiitos palautteestasi!