Summary  
This chapter demonstrates how to implement the K-means clustering algorithm in code by generating a synthetic dataset, fitting K-means, using the WSS (elbow) and Silhouette score methods to select the optimal number of clusters, and visualizing the resulting clusters and centroids.  

General domain of usage  
Unsupervised data clustering and exploratory analysis

Tässä osiossa käydään läpi käytännön esimerkki **K-means-klusteroinnin** soveltamisesta. Tätä varten käytetään **keinotekoista (dummy) datasarjaa**. Keinotekoiset datasarjat ovat tarkoituksella luotuja aineistoja, joita käytetään usein havainnollistamiseen ja oppimiseen. Niiden avulla voidaan **hallita datan ominaisuuksia** ja havainnoida selkeästi, miten algoritmit, kuten K-means, toimivat.

## Keinotekoinen datasarja

Tässä esimerkissä luodaan keinotekoinen datasarja `make_blobs()`-funktiolla. Tämä funktio soveltuu erinomaisesti klustereiden muodostamiseen **visuaalisesti selkeällä** ja **hallittavalla** tavalla. Data luodaan seuraavilla ominaisuuksilla:

-  **Näytteiden määrä**: luodaan datasarja, jossa on `300` havaintoa;

- **Keskusten määrä**: asetetaan todellisten klustereiden määrä arvoon `4`. Tämä tarkoittaa, että keinotekoinen data sisältää neljä erillistä ryhmää;

- **Klusterin keskihajonta**: säädetään havaintojen hajontaa kussakin klusterissa, asettamalla se arvoon `0.60` melko tiiviitä klustereita varten;

- **Satunnaissiementäminen**: käytetään kiinteää `random_state`-arvoa toistettavuuden varmistamiseksi, jolloin datan generointi on aina samanlaista.

```python
X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)
```

## K-means-toteutus

Kun keinotekoinen data on luotu, sovelletaan siihen **K-means-algoritmia**. Tarkastellaan, miten K-means pyrkii **jakamaan datan klustereihin** aiemmissa luvuissa opittujen periaatteiden mukaisesti.

K-means voidaan alustaa ja opettaa Pythonissa seuraavasti:

```python
kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)
``` 

Optimaalisen klusterimäärän määrittämiseksi käytetään aiemmissa luvuissa esiteltyjä menetelmiä:

- **WSS-menetelmä**: lasketaan Within-Sum-of-Squares eri K-arvoille ja analysoidaan elbow-kuvaajaa optimaalisen K:n löytämiseksi;

- **Silhouette-pistemäärämenetelmä**: lasketaan Silhouette Score eri K-arvoille ja tarkastellaan Silhouette-kuvaajaa sekä keskimääräisiä Silhouette-pisteitä parhaan klusterilaadun saavuttamiseksi.

Lopuksi **visualisoinnit** ovat keskeisessä roolissa toteutuksessa. Visualisoidaan:

- Itse keinotekoinen data, jotta nähdään **aineiston klusterirakenne**;

- **WSS-kuvaaja**, jolla tunnistetaan elbow-kohta;

- **Silhouette-kuvaaja**, jolla arvioidaan klusterien laatua eri K-arvoilla;

- **Lopulliset K-means-klusterit** keinotekoisen datan päällä, jotta voidaan visuaalisesti varmistaa klusteroinnin tulokset ja valittu optimaalinen K.

Lataa tämän luvun koodi

Hanki vankka ymmärrys klusterianalyysistä, joka on keskeinen valvomattoman oppimisen menetelmä mallien löytämiseen merkitsemättömästä datasta. Tutustu K-Means-, hierarkkisen klusteroinnin, DBSCAN:n ja GMM-menetelmien perusteisiin sekä saa käytännön kokemusta oikeilla aineistoilla, jotta voit soveltaa klusterointia todellisiin ongelmiin.

Perehdy klusteroinnin perusteisiin ja selvitä, miten se eroaa luokittelusta. Tutustu keskeisiin algoritmeihin, työkaluihin ja kirjastoihin, jotka mahdollistavat tämän valvomattoman oppimisen menetelmän piilevien rakenteiden löytämiseksi datasta.

Perusteellinen ymmärrys keskeisistä esikäsittelymenetelmistä, jotka varmistavat tehokkaan klusteroinnin. Puuttuvien arvojen käsittely, kategoristen ominaisuuksien koodaus, datan normalisointi sekä sopivien etäisyysmittareiden ja linkitysten valinta klusteroinnin tarkkuuden parantamiseksi.

Hallitse taidot, joita tarvitaan K-Means-klusteroinnin tehokkaaseen soveltamiseen. Opi algoritmin toimintaperiaate, optimaalisen klusterimäärän määrittäminen sekä käytännön toteutus K-Means-menetelmällä synteettisiin ja todellisiin aineistoihin.

Tutustu hierarkkisen klusteroinnin perusteisiin ja opi ryhmittelemään dataa merkityksellisiin klustereihin dendrogrammien avulla. Vahvista osaamistasi optimaalisen klusterimäärän tunnistamisessa ja menetelmän soveltamisessa sekä synteettisiin että todellisiin aineistoihin.

Tutustu siihen, miten DBSCAN tunnistaa erimuotoisia klustereita ja käsittelee kohinaa aineistossa. Ymmärrä tämän tiheysperusteisen algoritmin toimintaperiaatteet, pisteiden liittäminen klustereihin sekä sen soveltaminen sekä synteettisiin että todellisiin aineistoihin.

Perusteellinen ymmärrys Gaussin sekoitusmalleista ja niiden todennäköisyyspohjaisesta tavasta mallintaa monimutkaisia klusterimuotoja. Gaussin jakauman periaatteet. GMM-mallien toimintaperiaatteet. Soveltaminen sekä esimerkkiaineistoon että todellisiin aineistoihin.

Toteutus Esimerkkiaineistolla

Keinotekoinen datasarja

K-means-toteutus