Summary  
The chapter explains the k-Nearest Neighbors algorithm, which classifies a new instance by finding its k closest labeled neighbors in feature space and assigning the most frequent class among them.

General domain of usage  
Binary classification of sweets (cookies vs. non-cookies) based on weight.

Aloitetaan luokittelun perusteista yksinkertaisimmalla tehtävällä – **binääriluokittelu**. Oletetaan, että haluamme luokitella makeisia kekseiksi/ei-kekseiksi yhden ominaisuuden perusteella: niiden painon.

Yksinkertainen tapa ennustaa uuden tapauksen luokka on tarkastella sen **lähintä naapuria**. Esimerkissämme meidän täytyy löytää makeinen, jonka paino on lähimpänä uutta tapausta.

Tämä on **k-lähimmän naapurin** (**k-NN**) perusajatus – tarkastellaan vain naapureita.
k-NN-algoritmi olettaa, että samankaltaiset asiat sijaitsevat **lähellä toisiaan**. Toisin sanoen, samankaltaiset asiat ovat lähellä toisiaan. **k** k-NN:ssä tarkoittaa niiden naapureiden määrää, jotka otetaan huomioon ennustettaessa.

Yllä olevassa esimerkissä tarkasteltiin vain **1** naapuria, joten kyseessä oli 1-lähin naapuri. Yleensä k asetetaan kuitenkin suuremmaksi, sillä vain yhden naapurin tarkastelu voi olla **epäluotettavaa**:

Jos **k** (naapureiden määrä) on suurempi kuin yksi, valitaan **yleisin luokka** naapurustosta ennusteeksi. Tässä on esimerkki kahden uuden tapauksen ennustamisesta, kun **k=3**:

Kuten huomaat, **k**-arvon muuttaminen voi johtaa erilaisiin ennusteisiin.

Ajoittain k-NN tuottaa **tasapelin**, kun useita luokkia esiintyy yhtä monta kertaa lähimpien naapureiden joukossa. Useimmat kirjastot, mukaan lukien scikit-learn, ratkaisevat tasapelin **valitsemalla ensimmäisen luokan** sisäisessä järjestyksessään – tämä kannattaa huomioida, sillä se voi hienovaraisesti vaikuttaa toistettavuuteen ja tulkintaan.

Huomio

Miten k-Nearest Neighbors -algoritmi ennustaa uuden tapauksen luokan, kun k > 1?

Hallitse keskeiset luokittelualgoritmit, jotka ovat modernin koneoppimisen ytimessä. Tutustu siihen, miten mallit kuten k-NN, logistinen regressio, päätöspuut ja satunnaismetsät tekevät ennusteita, arvioi niiden tarkkuutta ja ymmärrä, milloin kutakin kannattaa käyttää. Kehitä taitoja vertailla malleja ja valita paras vaihtoehto aineistosi perusteella.

Opi, miten k-lähimmän naapurin algoritmi tekee ennusteita samankaltaisuuden perusteella. Sisältää useiden piirteiden käsittelyn, parametrien säätämisen ja ristiinvalidoinnin hyödyntämisen tarkkuuden parantamiseksi.

Ymmärrä, miten logistinen regressio mallintaa todennäköisyyksiä ja luokittelee tuloksia. Harjoittele sen toteuttamista, päätösrajojen tulkintaa sekä regularisoinnin soveltamista ylisovittamisen estämiseksi.

Opi, kuinka päätöspuut jakavat dataa merkityksellisiin ryhmiin ominaisuuksien arvojen perusteella. Tutustu siihen, miten parametrit, kuten puun syvyys ja lehden miniminäytteiden määrä, vaikuttavat mallin suorituskykyyn ja yleistettävyyteen.

Tutustu siihen, miten satunnaismetsät yhdistävät useita päätöspuita parantaakseen tarkkuutta ja vankkuutta. Ymmärrä satunnaisuuden rooli ja sovella tätä yhdistelmämallia reaalimaailman dataan.

Mallien arviointi mittareilla, kuten tarkkuus, precision, recall ja F1-pisteet. Sekamatriksien tulkinta ja useiden luokittelijoiden vertailu parhaan mallin tunnistamiseksi.

Mikä on k-NN