Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Toteutus Oikealla Tietoaineistolla | DBSCAN
Klusterianalyysi Pythonilla

Toteutus Oikealla Tietoaineistolla

Pyyhkäise näyttääksesi valikon

Käytössä on mall customers -aineisto, joka sisältää seuraavat sarakkeet:

Ennen klusterointia tulee noudattaa seuraavia vaiheita:

  1. Aineiston lataus: käytetään pandas-kirjastoa CSV-tiedoston lataamiseen;
  2. Olennaisten ominaisuuksien valinta: keskitytään sarakkeisiin 'Annual Income (k$)' ja 'Spending Score (1-100)';
  3. Datan skaalaus (tärkeää DBSCANille): koska DBSCAN perustuu etäisyyslaskentaan, ominaisuudet tulee skaalata samalle vaihteluvälille. Tähän voidaan käyttää StandardScaler-luokkaa.

Tulkinta

Tässä tapauksessa koodi muodostaa 5 klusteria. On tärkeää analysoida muodostuneet klusterit saadakseen tietoa asiakassegmentoinnista. Esimerkiksi klusterit voivat edustaa:

  • Suurituloisia, paljon kuluttavia asiakkaita;
  • Suurituloisia, vähän kuluttavia asiakkaita;
  • Pienituloisia, paljon kuluttavia asiakkaita;
  • Pienituloisia, vähän kuluttavia asiakkaita;
  • Keskituloisia, keskiverrosti kuluttavia asiakkaita.
DBSCAN-klusterit

Yhteenveto

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 5. Luku 5
some-alt