Summary  
This chapter demonstrates how to apply the DBSCAN density-based clustering algorithm by scaling features, selecting hyperparameters (epsilon and minimum samples), fitting the model to data, detecting outliers, and visualizing the resulting clusters.  

General domain of usage  
Customer segmentation

Du kommer att använda **mall customers**-datasetet, som innehåller följande kolumner:

En unik identifierare tilldelad varje kund i datasetet.

Kundens årliga inkomst i tusentals dollar.

Ett poäng tilldelat av köpcentret baserat på kundbeteende och konsumtionsmönster, där 1 är lågt och 100 är högt.

Du bör också följa dessa steg innan klustring:
     
1.  **Ladda in data:** använd `pandas` för att läsa in CSV-filen;
2.  **Välj relevanta variabler:** fokusera på kolumnerna `'Annual Income (k$)'` och `'Spending Score (1-100)'`;
3.  **Dataskalning (viktigt för DBSCAN):** eftersom DBSCAN använder avståndsberäkningar är det viktigt att skala variablerna så att de har liknande intervall. Du kan använda `StandardScaler` för detta ändamål.

Ladda ner datasetet

## Tolkning 

Koden skapar **5 kluster** i detta fall. Det är viktigt att analysera de resulterande klustren för att få insikter om **kundsegmentering**. Till exempel kan du hitta kluster som representerar: 

- Hög inkomst, hög konsumtion;     
- Hög inkomst, låg konsumtion;    
- Låg inkomst, hög konsumtion;     
- Låg inkomst, låg konsumtion; 
- Medellön, medelkonsumtion.

DBSCAN är utmärkt för att hitta kluster med godtyckliga former och hantera brus, vilket gör det lämpligt för många verkliga tillämpningar där data inte är prydligt organiserad i sfäriska kluster.

Parameterinställning kan vara utmanande. Det kan prestera dåligt på datamängder med mycket olika densiteter över datarummet, men det finns varianter av DBSCAN som HDBSCAN som kan prestera bättre.

Välj DBSCAN när du misstänker icke-sfäriska kluster, behöver identifiera avvikare och inte vill fördefiniera antalet kluster.

Överväg alternativ som K-means om dina kluster sannolikt är sfäriska, du behöver en mycket snabb algoritm eller om du har god förståelse för antalet kluster i förväg.

Ladda ner koden för detta kapitel

Ladda ner sektionssammanfattning

Få en gedigen förståelse för klusteranalys, en central teknik inom osupervised learning för att identifiera mönster i oetiketterad data. Utforska grunderna i K-Means, Hierarkisk klustring, DBSCAN och GMM, samt få praktisk erfarenhet med verkliga datamängder för att bygga upp förtroende i att tillämpa klustring på verkliga problem.

Fördjupa dig i grunderna för klustring och upptäck hur det skiljer sig från klassificering. Utforska grundläggande algoritmer, verktyg och bibliotek som driver denna oövervakade inlärningsteknik för att avslöja dolda mönster i data.

Få en gedigen förståelse för centrala förbehandlingstekniker som säkerställer effektiv klustring.
Hantering av saknade värden.
Kodning av kategoriska variabler.
Normalisering av data.
Val av lämpliga avståndsmått och länkningar för att förbättra klustringsnoggrannheten.

Behärska de färdigheter som krävs för att tillämpa K-Means-klustring effektivt. Förstå hur algoritmen fungerar, fastställ det optimala antalet kluster och få praktisk erfarenhet genom att implementera K-Means på både syntetiska och verkliga datamängder.

Utforska grunderna i hierarkisk klustring och lär dig att gruppera data i meningsfulla kluster med hjälp av dendrogram. Få förståelse för att identifiera det optimala antalet kluster och tillämpa tekniken på både syntetiska och verkliga dataset.

Utforska hur DBSCAN utmärker sig vid identifiering av kluster med varierande former och hantering av brus i data. Förstå mekanismerna bakom denna täthetsbaserade algoritm, hur punkter tilldelas kluster samt tillämpa den på både syntetiska och verkliga datamängder med säkerhet.

Få en gedigen förståelse för Gaussiska Mixturmodeller och hur de använder sannolikhet för att modellera komplexa klusterformer. Utforska principerna bakom Gaussisk fördelning, undersök hur GMM fungerar och stärk din kompetens genom att tillämpa dem på både simulerad och verklig data.

Implementering på Verklig Datamängd

Tolkning

Avslutande anmärkningar