Summary  
This chapter explains how to use an estimator’s `.fit()`, `.predict()`, and `.score()` methods to train a model, generate predictions, and evaluate its performance.  

General domain of usage  
Supervised machine learning

Tietojen esikäsittelyn ja putkistojen rakentamisen perusteet on nyt käsitelty. Seuraava vaihe on **mallintaminen**.


**Malli** Scikit-learnissa on **estimaattori**, joka tarjoaa `.predict()`- ja `.score()`-metodit sekä kaikilta estimaattoreilta perityn `.fit()`-metodin.


## .fit() 

Kun data on esikäsitelty ja valmis mallille, ensimmäinen vaihe mallin rakentamisessa on **mallin kouluttaminen**. Tämä tehdään käyttämällä `.fit(X, y)`-metodia.

**Valvotussa oppimisessa** (regressio, luokittelu) `.fit()` vaatii sekä `X` että `y`.
**Valvomattomassa oppimisessa** (esim. klusterointi) kutsutaan vain `.fit(X)`. `y`:n välittäminen ei aiheuta virhettä — se yksinkertaisesti ohitetaan.

Huomio

Koulutuksen aikana malli **oppii** ennustamiseen tarvittavat säännönmukaisuudet. Mitä malli oppii ja kuinka kauan koulutus kestää riippuu algoritmista. Koulutus on usein **hitainta** koneoppimisessa, erityisesti suurilla aineistoilla.

## .predict()

Koulutuksen jälkeen käytetään `.predict()`-metodia ennusteiden tuottamiseen:

```python
model.fit(X, y)
y_pred = model.predict(X_new)
```

## .score()

`.score()` arvioi koulutetun mallin, tyypillisesti **testijoukolla**:

```python
model.fit(X, y)
model.score(X_test, y_test)
```

Se vertaa ennusteita todellisiin kohteisiin. Oletuksena metriikkana on **tarkkuus** luokittelussa.

`X_test` viittaa tietojoukon osajoukkoon, jota kutsutaan **testijoukoksi**, ja jota käytetään mallin suorituskyvyn arviointiin koulutuksen jälkeen. Se sisältää **piirteet** (syötedata). `y_test` on vastaava osajoukko **todellisia luokkia** `X_test`:lle. Näiden avulla arvioidaan, kuinka hyvin malli ennustaa uutta, aiemmin näkemätöntä dataa.

Koneoppimista käytetään nykyään kaikkialla. Haluatko oppia sen itse? Tämä kurssi on johdatus koneoppimisen maailmaan, jossa opit peruskäsitteet, työskentelet Scikit-learnin – suosituimman ML-kirjaston – kanssa ja rakennat ensimmäisen koneoppimisprojektisi.
Kurssi on tarkoitettu opiskelijoille, joilla on perustiedot Pythonista, Pandasista ja Numpysta.

Koneoppimisen käsitteiden ja ML-projektin työnkulun oppiminen.

Esikäsittely on todennäköisesti tärkein vaihe ML-projektissa. Tämä luku käsittelee esikäsittelyvaiheet, joita tarvitaan lähes kaikissa aineistoissa.

Putkisto on kätevä tapa yhdistää kaikki esikäsittelyvaiheet sekä malli. Putkistot helpottavat huomattavasti mallin kouluttamista ja käyttöä.

Mallintaminen on ML-projektin viihdyttävin vaihe. Opitaan rakentamaan, hienosäätämään ja arvioimaan mallia!

Mallit

.fit()

.predict()

.score()

Mallit

.fit()

.predict()

.score()