Summary  
This chapter demonstrates how to implement the K-means clustering algorithm in code by generating a synthetic dataset, fitting K-means, using the WSS (elbow) and Silhouette score methods to select the optimal number of clusters, and visualizing the resulting clusters and centroids.  

General domain of usage  
Unsupervised data clustering and exploratory analysis

Du skal nå gå gjennom et praktisk eksempel på bruk av **K-means klynging**. For dette formålet vil du bruke et **dummy-datasett**. Dummy-datasett er kunstig genererte datasett som ofte brukes til demonstrasjon og læring. De gir oss mulighet til å **kontrollere egenskapene til dataene** og tydelig observere hvordan algoritmer som K-means fungerer.

## Dummy-datasett

Til denne demonstrasjonen vil vi lage et dummy-datasett ved hjelp av funksjonen `make_blobs()`. Denne funksjonen er utmerket for å generere klynger av datapunkter på en **visuelt tydelig** og **kontrollerbar** måte. Vi vil generere data med følgende egenskaper:

-  **Antall eksempler**: vi lager et datasett med `300` datapunkter;

- **Antall sentre**: vi setter antall faktiske klynger til `4`. Dette betyr at dummy-dataene er laget for å ha fire distinkte grupper;

- **Klyngens standardavvik**: vi kontrollerer spredningen av datapunktene innenfor hver klynge, og setter den til `0.60` for relativt kompakte klynger;

- **Random state**: vi bruker en fast `random_state` for reproduserbarhet, slik at datagenereringen er konsistent hver gang du kjører koden.

```python
X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)
```

## K-means-implementering

Når dette dummy-datasettet er opprettet, vil vi deretter bruke **K-means-algoritmen**. Vi skal utforske hvordan K-means forsøker å **dele opp disse dataene i klynger** basert på prinsippene du har lært i tidligere kapitler.

K-means kan initialiseres og trenes slik i Python:

```python
kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)
``` 

For å finne **optimalt antall klynger** for disse dataene, vil vi benytte metodene som er diskutert i tidligere kapitler:

- **WSS-metoden**: vi beregner Within-Sum-of-Squares for ulike verdier av K og analyserer elbow-plottet for å identifisere et mulig optimalt K;

- **Silhouette score-metoden**: vi beregner Silhouette Score for ulike verdier av K og undersøker Silhouette-plottet og gjennomsnittlige Silhouette Scores for å finne den K som gir best klyngekvalitet.

Til slutt vil **visualiseringer** spille en viktig rolle i implementeringen. Vi vil visualisere:

- Selve dummy-dataene, for å se den **innebygde klynge-strukturen**;

- **WSS-plottet**, for å identifisere elbow-punktet;

- **Silhouette-plottet**, for å vurdere klyngekvalitet for ulike K-verdier;

- **De endelige K-means-klyngene** lagt over dummy-dataene, for å visuelt verifisere klyngeringsresultatene og det valgte optimale K.

Last ned koden for dette kapittelet

Få en solid forståelse av klyngeanalyse, en sentral usupervisert læringsteknikk for å avdekke mønstre i umerkede data. Utforsk det grunnleggende innen K-Means, hierarkisk klyngeanalyse, DBSCAN og GMM-er, og få praktisk erfaring med ekte datasett for å bygge selvtillit i anvendelse av klyngeanalyse på reelle problemer.

Fordyp deg i det grunnleggende innen klyngeanalyse og oppdag hvordan det skiller seg fra klassifisering. Utforsk sentrale algoritmer, verktøy og biblioteker som driver denne teknikken for ikke-veiledet læring for å avdekke skjulte mønstre i data.

Få en grundig forståelse av sentrale forhåndsbehandlingsteknikker som sikrer effektiv klyngeanalyse. Lær hvordan man håndterer manglende verdier, koder kategoriske egenskaper, normaliserer data og velger passende avstandsmål og koblinger for å øke nøyaktigheten i klyngeanalysen.

Behersk ferdighetene som kreves for å anvende K-Means-klynging effektivt. Lær hvordan algoritmen fungerer, bestem det optimale antallet klynger, og få praktisk erfaring ved å implementere K-Means på både syntetiske og virkelige datasett.

Utforsk det grunnleggende innen hierarkisk klynging og lær hvordan data kan grupperes i meningsfulle klynger ved hjelp av dendrogrammer. Bygg trygghet i å identifisere det optimale antallet klynger og implementere teknikken på både syntetiske og virkelige datasett.

Utforsk hvordan DBSCAN utmerker seg i å oppdage klynger med varierende former og håndtere støy i data. Lær mekanismene bak denne tetthetsbaserte algoritmen, hvordan punkter tilordnes klynger, og bruk den på både syntetiske og virkelige datasett med trygghet.

Få en grundig forståelse av gaussiske blandingsmodeller og hvordan de bruker sannsynlighet for å modellere komplekse klyngestrukturer. Prinsipper for gaussisk fordeling, utforskning av hvordan GMM fungerer, samt anvendelse på både dummydata og virkelige datasett.

Implementering på Dummy-datasett

Dummy-datasett

K-means-implementering