Summary  
This chapter demonstrates how to implement the K-means clustering algorithm in code by generating a synthetic dataset, fitting K-means, using the WSS (elbow) and Silhouette score methods to select the optimal number of clusters, and visualizing the resulting clusters and centroids.  

General domain of usage  
Unsupervised data clustering and exploratory analysis

Du vil nu gennemgå et praktisk eksempel på anvendelse af **K-means clustering**. Til dette formål vil du bruge et **dummy-datasæt**. Dummy-datasæt er kunstigt genererede datasæt, der ofte anvendes til demonstration og læring. De gør det muligt at **kontrollere dataens karakteristika** og tydeligt observere, hvordan algoritmer som K-means fungerer.

## Dummy-datasæt

Til denne demonstration oprettes et dummy-datasæt ved hjælp af funktionen `make_blobs()`. Denne funktion er fremragende til at generere klynger af datapunkter på en **visuelt tydelig** og **kontrollerbar** måde. Vi genererer data med følgende karakteristika:

-  **Antal eksempler**: vi opretter et datasæt med `300` datapunkter;

- **Antal centre**: vi sætter antallet af reelle klynger til `4`. Dette betyder, at dummy-dataene er designet til at have fire adskilte grupper;

- **Klynge-standardafvigelse**: vi kontrollerer spredningen af datapunkter inden for hver klynge og sætter den til `0.60` for relativt kompakte klynger;

- **Random state**: vi bruger en fast `random_state` for reproducerbarhed, hvilket sikrer, at datagenereringen er ens hver gang koden køres.

```python
X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)
```

## K-means-implementering

Når dette dummy-datasæt er oprettet, anvendes **K-means-algoritmen**. Vi undersøger, hvordan K-means forsøger at **opdele disse data i klynger** baseret på de principper, du har lært i tidligere kapitler.

K-means kan initialiseres og trænes således i Python:

```python
kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)
``` 

For at bestemme det **optimale antal klynger** for disse data anvender vi de metoder, der er gennemgået i de foregående kapitler:

- **WSS-metoden**: vi beregner Within-Sum-of-Squares for forskellige værdier af K og analyserer elbow-plottet for at identificere et potentielt optimalt K;

- **Silhouette score-metoden**: vi beregner Silhouette Score for forskellige værdier af K og undersøger Silhouette-plottet og gennemsnitlige Silhouette-scorer for at finde det K, der maksimerer klyngekvaliteten.

Endelig spiller **visualiseringer** en central rolle i vores implementering. Vi visualiserer:

- Selve dummy-dataene for at se den **underliggende klynge-struktur**;

- **WSS-plottet** for at identificere elbow-punktet;

- **Silhouette-plottet** for at vurdere klyngekvaliteten for forskellige K-værdier;

- **De endelige K-means-klynger** lagt oven på dummy-dataene for visuelt at verificere klyngeresultaterne og det valgte optimale K.

Download koden til dette kapitel

Opnå en solid forståelse af klyngeanalyse, en central ikke-superviseret læringsteknik til at afdække mønstre i uetiketterede data. Udforsk det grundlæggende i K-Means, Hierarkisk Klyngedannelse, DBSCAN og GMM'er, og få praktisk erfaring med rigtige datasæt for at opbygge tillid til anvendelse af klyngeanalyse på virkelige problemer.

Dyk ned i de grundlæggende principper for klyngering og opdag, hvordan det adskiller sig fra klassifikation. Udforsk essentielle algoritmer, værktøjer og biblioteker, der driver denne usuperviserede læringsteknik til at afdække skjulte mønstre i data.

Opnå et solidt kendskab til centrale forbehandlingsteknikker, der sikrer effektiv klyngeanalyse. Håndtering af manglende værdier, kodning af kategoriske variable, normalisering af data samt valg af passende afstandsmål og koblinger for at øge nøjagtigheden af klyngeanalysen.

Opnå færdighederne til effektiv anvendelse af K-Means klyngedannelse. Forstå algoritmens funktion, fastlæg det optimale antal klynger, og få praktisk erfaring med implementering af K-Means på både syntetiske og virkelige datasæt.

Udforsk det grundlæggende i hierarkisk klyngedannelse og lær, hvordan data grupperes i meningsfulde klynger ved hjælp af dendrogrammer. Opnå fortrolighed med at identificere det optimale antal klynger og implementere teknikken på både syntetiske og virkelige datasæt.

Opdag, hvordan DBSCAN udmærker sig ved at identificere klynger med varierende former og håndtere støj i data. Forstå mekanismerne bag denne tæthedsbaserede algoritme, metoder til at tildele punkter til klynger samt anvendelse på både syntetiske og virkelige datasæt med sikkerhed.

Opnå et solidt kendskab til Gaussiske Mixture Models og hvordan de anvender sandsynlighed til at modellere komplekse klyngestrukturer. Gennemgå principperne for Gaussisk fordeling, undersøg hvordan GMM'er fungerer, og opbyg fortrolighed ved at anvende dem på både dummy- og virkelige data.

Implementering på Dummy-Datasæt

Dummy-datasæt

K-means-implementering