Toteutus Oikealla Tietoaineistolla
Pyyhkäise näyttääksesi valikon
Käytössä on mall customers -aineisto, joka sisältää seuraavat sarakkeet:
Ennen klusterointia tulee noudattaa seuraavia vaiheita:
- Aineiston lataus: käytetään
pandas-kirjastoa CSV-tiedoston lataamiseen; - Olennaisten ominaisuuksien valinta: keskitytään sarakkeisiin
'Annual Income (k$)'ja'Spending Score (1-100)'; - Datan skaalaus (tärkeää DBSCANille): koska DBSCAN perustuu etäisyyslaskentaan, ominaisuudet tulee skaalata samalle vaihteluvälille. Tähän voidaan käyttää
StandardScaler-luokkaa.
Tulkinta
Tässä tapauksessa koodi muodostaa 5 klusteria. On tärkeää analysoida muodostuneet klusterit saadakseen tietoa asiakassegmentoinnista. Esimerkiksi klusterit voivat edustaa:
- Suurituloisia, paljon kuluttavia asiakkaita;
- Suurituloisia, vähän kuluttavia asiakkaita;
- Pienituloisia, paljon kuluttavia asiakkaita;
- Pienituloisia, vähän kuluttavia asiakkaita;
- Keskituloisia, keskiverrosti kuluttavia asiakkaita.
Yhteenveto
Oliko kaikki selvää?
Kiitos palautteestasi!
Osio 5. Luku 5
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Osio 5. Luku 5