Summary  
This chapter demonstrates how to apply the DBSCAN density-based clustering algorithm by scaling features, selecting hyperparameters (epsilon and minimum samples), fitting the model to data, detecting outliers, and visualizing the resulting clusters.  

General domain of usage  
Customer segmentation

Du vil bruge **mall customers** datasættet, som indeholder følgende kolonner:

En unik identifikator tildelt hver kunde i datasættet.

Kundens årlige indkomst i tusinde dollars.

En score tildelt af indkøbscentret baseret på kundens adfærd og forbrugsmønster, hvor 1 er lav og 100 er høj.

Du bør også følge disse trin før klyngedannelse:
     
1.  **Indlæs data:** brug `pandas` til at indlæse CSV-filen;
2.  **Vælg relevante funktioner:** fokus på kolonnerne `'Annual Income (k$)'` og `'Spending Score (1-100)'`;
3.  **Skalering af data (vigtigt for DBSCAN):** da DBSCAN bruger afstandsberegninger, er det vigtigt at skalere funktionerne, så de har lignende intervaller. Du kan bruge `StandardScaler` til dette formål.

Download datasættet

## Fortolkning

Koden opretter **5 klynger** i dette tilfælde. Det er vigtigt at analysere de resulterende klynger for at opnå indsigt i **kundesegmentering**. For eksempel kan du finde klynger, der repræsenterer:

- Høj indkomst, højt forbrug;
- Høj indkomst, lavt forbrug;
- Lav indkomst, højt forbrug;
- Lav indkomst, lavt forbrug;
- Mellem indkomst, mellem forbrug.

DBSCAN er fremragende til at finde klynger med vilkårlige former og håndtere støj, hvilket gør det velegnet til mange virkelige anvendelser, hvor data ikke er pænt organiseret i sfæriske klynger.

Parameterjustering kan være udfordrende. Algoritmen kan have svært ved datasæt med meget forskellige tæthedsgrader, men der findes varianter af DBSCAN som HDBSCAN, der kan fungere bedre.

Vælg DBSCAN, når du har mistanke om ikke-sfæriske klynger, har behov for at identificere outliers, og ikke ønsker at foruddefinere antallet af klynger.

Overvej alternativer som K-means, hvis dine klynger sandsynligvis er sfæriske, du har brug for en meget hurtig algoritme, eller hvis du på forhånd har et godt kendskab til antallet af klynger.

Download koden til dette kapitel

Download af afsnitssammendrag

Opnå en solid forståelse af klyngeanalyse, en central ikke-superviseret læringsteknik til at afdække mønstre i uetiketterede data. Udforsk det grundlæggende i K-Means, Hierarkisk Klyngedannelse, DBSCAN og GMM'er, og få praktisk erfaring med rigtige datasæt for at opbygge tillid til anvendelse af klyngeanalyse på virkelige problemer.

Dyk ned i de grundlæggende principper for klyngering og opdag, hvordan det adskiller sig fra klassifikation. Udforsk essentielle algoritmer, værktøjer og biblioteker, der driver denne usuperviserede læringsteknik til at afdække skjulte mønstre i data.

Opnå et solidt kendskab til centrale forbehandlingsteknikker, der sikrer effektiv klyngeanalyse. Håndtering af manglende værdier, kodning af kategoriske variable, normalisering af data samt valg af passende afstandsmål og koblinger for at øge nøjagtigheden af klyngeanalysen.

Opnå færdighederne til effektiv anvendelse af K-Means klyngedannelse. Forstå algoritmens funktion, fastlæg det optimale antal klynger, og få praktisk erfaring med implementering af K-Means på både syntetiske og virkelige datasæt.

Udforsk det grundlæggende i hierarkisk klyngedannelse og lær, hvordan data grupperes i meningsfulde klynger ved hjælp af dendrogrammer. Opnå fortrolighed med at identificere det optimale antal klynger og implementere teknikken på både syntetiske og virkelige datasæt.

Opdag, hvordan DBSCAN udmærker sig ved at identificere klynger med varierende former og håndtere støj i data. Forstå mekanismerne bag denne tæthedsbaserede algoritme, metoder til at tildele punkter til klynger samt anvendelse på både syntetiske og virkelige datasæt med sikkerhed.

Opnå et solidt kendskab til Gaussiske Mixture Models og hvordan de anvender sandsynlighed til at modellere komplekse klyngestrukturer. Gennemgå principperne for Gaussisk fordeling, undersøg hvordan GMM'er fungerer, og opbyg fortrolighed ved at anvende dem på både dummy- og virkelige data.

Implementering på et Reelt Datasæt

Fortolkning

Afsluttende bemærkninger