Summary  
This chapter demonstrates how to apply the DBSCAN density-based clustering algorithm by scaling features, selecting hyperparameters (epsilon and minimum samples), fitting the model to data, detecting outliers, and visualizing the resulting clusters.  

General domain of usage  
Customer segmentation

Käytössä on **mall customers** -aineisto, joka sisältää seuraavat sarakkeet:

Yksilöllinen tunniste, joka on annettu jokaiselle asiakkaalle aineistossa.

Asiakkaan vuositulot tuhansina dollareina.

Ostoskeskittymän asiakkaalle antama pisteytys ostokäyttäytymisen ja kulutustottumusten perusteella, jossa 1 on matala ja 100 korkea.

Ennen klusterointia tulee noudattaa seuraavia vaiheita:
     
1.  **Aineiston lataus:** käytetään `pandas`-kirjastoa CSV-tiedoston lataamiseen;
2.  **Olennaisten ominaisuuksien valinta:** keskitytään sarakkeisiin `'Annual Income (k$)'` ja `'Spending Score (1-100)'`;
3.  **Datan skaalaus (tärkeää DBSCANille):** koska DBSCAN perustuu etäisyyslaskentaan, ominaisuudet tulee skaalata samalle vaihteluvälille. Tähän voidaan käyttää `StandardScaler`-luokkaa.

Lataa aineisto

## Tulkinta

Tässä tapauksessa koodi muodostaa **5 klusteria**. On tärkeää analysoida muodostuneet klusterit saadakseen tietoa **asiakassegmentoinnista**. Esimerkiksi klusterit voivat edustaa:

- Suurituloisia, paljon kuluttavia asiakkaita;
- Suurituloisia, vähän kuluttavia asiakkaita;
- Pienituloisia, paljon kuluttavia asiakkaita;
- Pienituloisia, vähän kuluttavia asiakkaita;
- Keskituloisia, keskiverrosti kuluttavia asiakkaita.

DBSCAN soveltuu erinomaisesti mielivaltaisen muotoisten klustereiden löytämiseen ja kohinan käsittelyyn, mikä tekee siitä sopivan moniin todellisen maailman sovelluksiin, joissa data ei jakaudu siististi pallomaisiin klustereihin.

Parametrien säätäminen voi olla haastavaa. Algoritmi ei välttämättä toimi hyvin aineistoissa, joissa tiheys vaihtelee suuresti, mutta DBSCANista on olemassa muunnelmia, kuten HDBSCAN, jotka voivat toimia paremmin.

Valitse DBSCAN, kun epäilet, että klusterit eivät ole pallomaisia, haluat tunnistaa poikkeamat ja et halua määrittää klustereiden määrää etukäteen.

Harkitse vaihtoehtoja, kuten K-means, jos klusterit ovat todennäköisesti pallomaisia, tarvitset erittäin nopean algoritmin tai tiedät klustereiden määrän etukäteen.

Lataa tämän luvun koodi

Lataa osion yhteenveto

Hanki vankka ymmärrys klusterianalyysistä, joka on keskeinen valvomattoman oppimisen menetelmä mallien löytämiseen merkitsemättömästä datasta. Tutustu K-Means-, hierarkkisen klusteroinnin, DBSCAN:n ja GMM-menetelmien perusteisiin sekä saa käytännön kokemusta oikeilla aineistoilla, jotta voit soveltaa klusterointia todellisiin ongelmiin.

Perehdy klusteroinnin perusteisiin ja selvitä, miten se eroaa luokittelusta. Tutustu keskeisiin algoritmeihin, työkaluihin ja kirjastoihin, jotka mahdollistavat tämän valvomattoman oppimisen menetelmän piilevien rakenteiden löytämiseksi datasta.

Perusteellinen ymmärrys keskeisistä esikäsittelymenetelmistä, jotka varmistavat tehokkaan klusteroinnin. Puuttuvien arvojen käsittely, kategoristen ominaisuuksien koodaus, datan normalisointi sekä sopivien etäisyysmittareiden ja linkitysten valinta klusteroinnin tarkkuuden parantamiseksi.

Hallitse taidot, joita tarvitaan K-Means-klusteroinnin tehokkaaseen soveltamiseen. Opi algoritmin toimintaperiaate, optimaalisen klusterimäärän määrittäminen sekä käytännön toteutus K-Means-menetelmällä synteettisiin ja todellisiin aineistoihin.

Tutustu hierarkkisen klusteroinnin perusteisiin ja opi ryhmittelemään dataa merkityksellisiin klustereihin dendrogrammien avulla. Vahvista osaamistasi optimaalisen klusterimäärän tunnistamisessa ja menetelmän soveltamisessa sekä synteettisiin että todellisiin aineistoihin.

Tutustu siihen, miten DBSCAN tunnistaa erimuotoisia klustereita ja käsittelee kohinaa aineistossa. Ymmärrä tämän tiheysperusteisen algoritmin toimintaperiaatteet, pisteiden liittäminen klustereihin sekä sen soveltaminen sekä synteettisiin että todellisiin aineistoihin.

Perusteellinen ymmärrys Gaussin sekoitusmalleista ja niiden todennäköisyyspohjaisesta tavasta mallintaa monimutkaisia klusterimuotoja. Gaussin jakauman periaatteet. GMM-mallien toimintaperiaatteet. Soveltaminen sekä esimerkkiaineistoon että todellisiin aineistoihin.

Toteutus Oikealla Tietoaineistolla

Tulkinta

Yhteenveto