Summary  
This chapter covers transforming categorical features into numerical form using ordinal encoding for ordered categories and one-hot encoding for nominal categories.

General domain of usage  
Machine learning data preprocessing

Klusterointialgoritmit kuten **K-means** vaativat **numeerista dataa**. Kategoriset ominaisuudet täytyy muuntaa numeeriseen muotoon koodaamalla. Opit **ordinaali-** ja **one-hot-koodauksesta**.

## Ordinaalikoodaus

**Ordinaalikoodaus** muuntaa järjestetyt kategoriat numeerisiksi arvoiksi säilyttäen niiden **järjestyksen**. Esimerkiksi sarakkeen `'education_level'` ordinaalikoodaus muuttaa arvot `"High School"`, `"Bachelor's"`, `"Master's"`, `'PhD'` arvoiksi `0`, `1`, `2`, `3`.

Tämä olettaa, että koodattujen arvojen välillä on **merkityksellinen numeerinen ero**, mikä ei aina pidä paikkaansa.

```python
from sklearn.preprocessing import OrdinalEncoder

education_levels = [['High School',
                     "Bachelor's",
                     "Master's",
                     "PhD"]]
encoder = OrdinalEncoder(categories=education_levels)

df[['education_encoded']] = encoder.fit_transform(df[['education_level']]) 
```

Tällaista koodausta tulisi käyttää vain **ordinaalisille ominaisuuksille**, joissa kategorioiden järjestyksellä on merkitystä.

Huomio

## One-Hot-koodaus

One-hot-koodaus muuntaa **nominaaliset** (järjestämättömät) kategoriat binäärisiksi sarakkeiksi, joissa jokainen kategoria muodostaa **uuden sarakkeen**. Jos ominaisuudella on `n` kategoriaa, tämä luo tyypillisesti `n` saraketta — yhdessä sarakkeessa arvo on `1` kyseiselle kategorialle ja muissa `0`. Kuitenkin vain `n-1` saraketta tarvitaan tiedon esittämiseen **ilman redundanssia**.

Esimerkiksi `'color'`-sarakkeen arvot `'red'`, `'blue'` ja `'green'` voidaan koodata vain **kahdella** sarakkeella: `'color_red'` ja `'color_blue'`. Jos rivillä on `0` molemmissa, se tarkoittaa, että väri on `'green'`. Pudottamalla yksi sarake vältetään **redundanssi**.

Redundantin sarakkeen poistaminen määritellään parametrilla `drop='first'`:

```python
from sklearn.preprocessing import OneHotEncoder 

encoder = OneHotEncoder(drop='first', sparse=False) 

encoded = encoder.fit_transform(df[['color']]) 
```



Vaikka one-hot-koodaus ei aseta järjestystä ja sopii nominaalisille ominaisuuksille, se voi kasvattaa **aineiston ulottuvuutta**.

Mikä koodausmenetelmä sopii parhaiten kategoriselle ominaisuudelle kuten `'country'`, jonka arvoja ovat esimerkiksi `"USA"`, `"Canada"` ja `"Germany"`, eikä niillä ole luonnollista järjestystä?

Hanki vankka ymmärrys klusterianalyysistä, joka on keskeinen valvomattoman oppimisen menetelmä mallien löytämiseen merkitsemättömästä datasta. Tutustu K-Means-, hierarkkisen klusteroinnin, DBSCAN:n ja GMM-menetelmien perusteisiin sekä saa käytännön kokemusta oikeilla aineistoilla, jotta voit soveltaa klusterointia todellisiin ongelmiin.

Perehdy klusteroinnin perusteisiin ja selvitä, miten se eroaa luokittelusta. Tutustu keskeisiin algoritmeihin, työkaluihin ja kirjastoihin, jotka mahdollistavat tämän valvomattoman oppimisen menetelmän piilevien rakenteiden löytämiseksi datasta.

Perusteellinen ymmärrys keskeisistä esikäsittelymenetelmistä, jotka varmistavat tehokkaan klusteroinnin. Puuttuvien arvojen käsittely, kategoristen ominaisuuksien koodaus, datan normalisointi sekä sopivien etäisyysmittareiden ja linkitysten valinta klusteroinnin tarkkuuden parantamiseksi.

Hallitse taidot, joita tarvitaan K-Means-klusteroinnin tehokkaaseen soveltamiseen. Opi algoritmin toimintaperiaate, optimaalisen klusterimäärän määrittäminen sekä käytännön toteutus K-Means-menetelmällä synteettisiin ja todellisiin aineistoihin.

Tutustu hierarkkisen klusteroinnin perusteisiin ja opi ryhmittelemään dataa merkityksellisiin klustereihin dendrogrammien avulla. Vahvista osaamistasi optimaalisen klusterimäärän tunnistamisessa ja menetelmän soveltamisessa sekä synteettisiin että todellisiin aineistoihin.

Tutustu siihen, miten DBSCAN tunnistaa erimuotoisia klustereita ja käsittelee kohinaa aineistossa. Ymmärrä tämän tiheysperusteisen algoritmin toimintaperiaatteet, pisteiden liittäminen klustereihin sekä sen soveltaminen sekä synteettisiin että todellisiin aineistoihin.

Perusteellinen ymmärrys Gaussin sekoitusmalleista ja niiden todennäköisyyspohjaisesta tavasta mallintaa monimutkaisia klusterimuotoja. Gaussin jakauman periaatteet. GMM-mallien toimintaperiaatteet. Soveltaminen sekä esimerkkiaineistoon että todellisiin aineistoihin.

Kategoristen Ominaisuuksien Koodaus

Ordinaalikoodaus

One-Hot-koodaus