Summary  
This chapter covers hyperparameter search strategies for k-nearest neighbors, explaining how GridSearchCV exhaustively tests all combinations of n_neighbors, weights, and p parameters (leading to high computational cost) and how RandomizedSearchCV can sample combinations more efficiently.

General domain of usage  
Hyperparameter optimization in machine learning

Ennen kuin käytät `GridSearchCV`:tä, huomaa, että `KNeighborsClassifier`-luokalla on enemmän hyperparametreja kuin pelkkä `n_neighbors`. Kaksi tärkeää ovat `weights` ja `p`.

## Painot

Oletuksena luokittelija käyttää `weights='uniform'`, jolloin kaikki *k* naapuria äänestävät yhtä paljon.
Asettamalla `weights='distance'` **läheisemmät naapurit saavat enemmän vaikutusvaltaa**, mikä usein parantaa ennusteita, kun lähellä olevat pisteet ovat merkityksellisempiä.

## P

Parametri `p` määrittää etäisyysmetriikan:

* `p=1`: **Manhattan-etäisyys**;
* `p=2`: **Euklidinen etäisyys**.

Parametri `p` voi olla **mikä tahansa positiivinen kokonaisluku**. Etäisyyksiä on monia erilaisia, mutta niitä on vaikeampi havainnollistaa kuin arvoja `p=1` tai `p=2`.

Älä huoli, jos `weights`- tai `p`-parametrien yksityiskohdat eivät ole selviä. Ne esitellään vain osoittamaan, että **mallin ennusteisiin voi vaikuttaa useampi kuin yksi hyperparametri**. Käsittele niitä esimerkkeinä hyperparametreista, joita voidaan säätää.


Huomio

Aiemmin säädettiin vain `n_neighbors`-parametria. Kaikkien kolmen hyperparametrin tutkimiseen käytetään:

```python
param_grid = {
    'n_neighbors': [1, 3, 5, 7],
    'weights': ['distance', 'uniform'],
    'p': [1, 2]
}
```

`GridSearchCV` kokeilee **kaikkia mahdollisia yhdistelmiä** löytääkseen parhaan, joten se kokeilee kaikkia näitä:

Suurempi ruudukko kuten:

```python
param_grid = {
    'n_neighbors': [...],
    'weights': ['distance', 'uniform'],
    'p': [1, 2, 3, 4, 5]
}
```

luo 100 yhdistelmää. Kun käytetään 5-kertaista ristiinvalidointia, malli opetetaan **500 kertaa**.
Tämä toimii pienillä aineistoilla, mutta suuremmilla se hidastuu liikaa.

Laskenta-ajan vähentämiseksi **`RandomizedSearchCV`** testaa vain **satunnaisen osajoukon** yhdistelmistä, ja löytää yleensä hyviä tuloksia paljon nopeammin kuin täydellinen ruutuhaku.

`GridSearchCV`-n suurin ongelma on, että se kokeilee kaikki mahdolliset yhdistelmät (mitä on määritelty `param_grid`-parametrissa), mikä voi viedä paljon aikaa. Onko tämä väite oikein?

Koneoppimista käytetään nykyään kaikkialla. Haluatko oppia sen itse? Tämä kurssi on johdatus koneoppimisen maailmaan, jossa opit peruskäsitteet, työskentelet Scikit-learnin – suosituimman ML-kirjaston – kanssa ja rakennat ensimmäisen koneoppimisprojektisi.
Kurssi on tarkoitettu opiskelijoille, joilla on perustiedot Pythonista, Pandasista ja Numpysta.

Koneoppimisen käsitteiden ja ML-projektin työnkulun oppiminen.

Esikäsittely on todennäköisesti tärkein vaihe ML-projektissa. Tämä luku käsittelee esikäsittelyvaiheet, joita tarvitaan lähes kaikissa aineistoissa.

Putkisto on kätevä tapa yhdistää kaikki esikäsittelyvaiheet sekä malli. Putkistot helpottavat huomattavasti mallin kouluttamista ja käyttöä.

Mallintaminen on ML-projektin viihdyttävin vaihe. Opitaan rakentamaan, hienosäätämään ja arvioimaan mallia!

GridSearchCV:n Puute

Painot

P