Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Toteutus Esimerkkiaineistolla | Hierarkkinen Klusterointi
Klusterianalyysi Pythonilla

bookToteutus Esimerkkiaineistolla

Kuten tavallista, käytössä ovat seuraavat kirjastot:

  • sklearn keinotekoisen datan luomiseen ja hierarkkisen klusteroinnin toteuttamiseen (AgglomerativeClustering);

  • scipy dendrogrammin luomiseen ja käsittelyyn;

  • matplotlib klustereiden ja dendrogrammin visualisointiin;

  • numpy numeerisiin operaatioihin.

Keinotekoisen datan luominen

make_blobs()-kirjaston scikit-learn-funktiolla voidaan luoda aineistoja, joissa on eri määrä klustereita ja vaihtelevia erottelutasoja. Tämä auttaa havainnoimaan, miten hierarkkinen klusterointi toimii erilaisissa tilanteissa.

Yleinen algoritmi etenee seuraavasti:

  1. AgglomerativeClustering-olion luonti, jossa määritellään linkage-menetelmä ja muut parametrit;

  2. Mallin sovitus dataan;

  3. Klusteritunnisteiden poiminta, jos klustereiden määrä on päätetty;

  4. Klustereiden visualisointi (jos data on 2D- tai 3D-muodossa) hajontakuvioiden avulla;

  5. SciPy:n linkage-toiminnolla linkage-matriisin luonti ja tämän jälkeen dendrogrammin visualisointi.

Voit myös kokeilla eri linkage-menetelmiä (esim. single, complete, average, Ward's) ja tarkastella, miten ne vaikuttavat klusterointituloksiin ja dendrogrammin rakenteeseen.

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain the difference between the various linkage methods?

How do I interpret a dendrogram in hierarchical clustering?

What are some practical tips for choosing the number of clusters?

bookToteutus Esimerkkiaineistolla

Pyyhkäise näyttääksesi valikon

Kuten tavallista, käytössä ovat seuraavat kirjastot:

  • sklearn keinotekoisen datan luomiseen ja hierarkkisen klusteroinnin toteuttamiseen (AgglomerativeClustering);

  • scipy dendrogrammin luomiseen ja käsittelyyn;

  • matplotlib klustereiden ja dendrogrammin visualisointiin;

  • numpy numeerisiin operaatioihin.

Keinotekoisen datan luominen

make_blobs()-kirjaston scikit-learn-funktiolla voidaan luoda aineistoja, joissa on eri määrä klustereita ja vaihtelevia erottelutasoja. Tämä auttaa havainnoimaan, miten hierarkkinen klusterointi toimii erilaisissa tilanteissa.

Yleinen algoritmi etenee seuraavasti:

  1. AgglomerativeClustering-olion luonti, jossa määritellään linkage-menetelmä ja muut parametrit;

  2. Mallin sovitus dataan;

  3. Klusteritunnisteiden poiminta, jos klustereiden määrä on päätetty;

  4. Klustereiden visualisointi (jos data on 2D- tai 3D-muodossa) hajontakuvioiden avulla;

  5. SciPy:n linkage-toiminnolla linkage-matriisin luonti ja tämän jälkeen dendrogrammin visualisointi.

Voit myös kokeilla eri linkage-menetelmiä (esim. single, complete, average, Ward's) ja tarkastella, miten ne vaikuttavat klusterointituloksiin ja dendrogrammin rakenteeseen.

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 3
some-alt