Summary  
This chapter demonstrates how to preprocess data with feature scaling and PCA, perform hierarchical clustering using Ward linkage, generate and cut a dendrogram, select the optimal number of clusters via silhouette scores, and visualize the resulting clusters in two dimensions.

General domain of usage  
Customer segmentation

Käytät luottokorttiasiakasdataa. Ennen kuin ryhmittelet datan, noudata seuraavia vaiheita:

1.  **Lataa data:** käytä pandas-kirjastoa CSV-tiedoston lataamiseen;

2.  **Käsittele puuttuvat arvot:** tarvittaessa täydennä tai poista rivit, joissa on puuttuvia arvoja;

3.  **Piirteiden skaalaus:** käytä `StandardScaler`-luokkaa piirteiden skaalaamiseen. Tämä on tärkeää, koska hierarkkinen klusterointi perustuu etäisyyslaskelmiin;

4.  **Ulottuvuuksien vähentäminen (PCA):** käytä pääkomponenttianalyysiä (PCA) datan vähentämiseksi kahteen ulottuvuuteen. Tämä helpottaa klustereiden visualisointia.

## Dendrogrammin tulkinta

Analysoi ensin **dendrogrammia** sopivan klusterimäärän määrittämiseksi. Etsi suuria pystysuoria etäisyyksiä, joita mikään pitkä vaakasuora viiva ei ylitä.

Seuraavaksi voit piirtää PCA:n jälkeen datapisteet ja värittää ne **klusteritunnisteiden** mukaan, jotka on saatu katkaisemalla dendrogrammi valitusta korkeudesta.

Lopuksi tulisi tarkastella muodostuneiden klustereiden ominaisuuksia. On suositeltavaa tarkastella **alkuperäisten muuttujien keskiarvoja** (ennen PCA:ta) jokaisessa klusterissa, jotta voidaan ymmärtää, miten klusterit eroavat toisistaan.

## Yhteenveto

Hierarkkinen klusterointi on tehokas menetelmä silloin, kun **klustereiden määrää ei haluta määrittää etukäteen** tai kun on tarpeen ymmärtää **aineiston hierarkkisia suhteita**. Menetelmä voi kuitenkin olla **laskennallisesti raskas** erittäin suurilla aineistoilla, ja oikean linkitysmenetelmän sekä optimaalisen klustereiden määrän valinta vaatii huolellista harkintaa ja usein sekä määrällisiä menetelmiä että asiantuntijaosaamista.

Hanki vankka ymmärrys klusterianalyysistä, joka on keskeinen valvomattoman oppimisen menetelmä mallien löytämiseen merkitsemättömästä datasta. Tutustu K-Means-, hierarkkisen klusteroinnin, DBSCAN:n ja GMM-menetelmien perusteisiin sekä saa käytännön kokemusta oikeilla aineistoilla, jotta voit soveltaa klusterointia todellisiin ongelmiin.

Perehdy klusteroinnin perusteisiin ja selvitä, miten se eroaa luokittelusta. Tutustu keskeisiin algoritmeihin, työkaluihin ja kirjastoihin, jotka mahdollistavat tämän valvomattoman oppimisen menetelmän piilevien rakenteiden löytämiseksi datasta.

Perusteellinen ymmärrys keskeisistä esikäsittelymenetelmistä, jotka varmistavat tehokkaan klusteroinnin. Puuttuvien arvojen käsittely, kategoristen ominaisuuksien koodaus, datan normalisointi sekä sopivien etäisyysmittareiden ja linkitysten valinta klusteroinnin tarkkuuden parantamiseksi.

Hallitse taidot, joita tarvitaan K-Means-klusteroinnin tehokkaaseen soveltamiseen. Opi algoritmin toimintaperiaate, optimaalisen klusterimäärän määrittäminen sekä käytännön toteutus K-Means-menetelmällä synteettisiin ja todellisiin aineistoihin.

Tutustu hierarkkisen klusteroinnin perusteisiin ja opi ryhmittelemään dataa merkityksellisiin klustereihin dendrogrammien avulla. Vahvista osaamistasi optimaalisen klusterimäärän tunnistamisessa ja menetelmän soveltamisessa sekä synteettisiin että todellisiin aineistoihin.

Tutustu siihen, miten DBSCAN tunnistaa erimuotoisia klustereita ja käsittelee kohinaa aineistossa. Ymmärrä tämän tiheysperusteisen algoritmin toimintaperiaatteet, pisteiden liittäminen klustereihin sekä sen soveltaminen sekä synteettisiin että todellisiin aineistoihin.

Perusteellinen ymmärrys Gaussin sekoitusmalleista ja niiden todennäköisyyspohjaisesta tavasta mallintaa monimutkaisia klusterimuotoja. Gaussin jakauman periaatteet. GMM-mallien toimintaperiaatteet. Soveltaminen sekä esimerkkiaineistoon että todellisiin aineistoihin.

Toteutus Asiakasdatan Avulla

Dendrogrammin tulkinta

Yhteenveto

Toteutus Asiakasdatan Avulla

Dendrogrammin tulkinta

Yhteenveto