Summary  
This chapter introduces how to structure a modular machine learning pipeline—covering data ingestion, preprocessing (cleaning, exploratory analysis, feature engineering), model selection and tuning, evaluation, and deployment.  

General domain of usage  
Healthcare

Tarkastellaan työnkulkua, jonka avulla rakennetaan menestyksekäs koneoppimisprojekti.

## Vaihe 1. Datan hankinta

Määrittele ongelma, valitse suorituskykymittari ja päätä, mikä tulos on riittävän hyvä. Kerää tarvittava data saatavilla olevista lähteistä ja muunna se Pythonille sopivaan muotoon.
Jos data on jo olemassa CSV-tiedostossa, esikäsittely voidaan aloittaa heti.

### Esimerkki

Sairaala kokoaa potilastiedot ja demografiset tiedot CSV-tiedostoon. Tavoitteena on **ennustaa uudelleensijoitukset**, tavoitteena **yli 80 % tarkkuus**.

## Vaihe 2. Datan esikäsittely

Tähän vaiheeseen kuuluu:

* **Datan puhdistus**: puuttuvien arvojen ja ei-numeeristen syötteiden käsittely;
* **EDA**: datan analysointi ja visualisointi suhteiden ymmärtämiseksi ja ongelmien havaitsemiseksi;
* **Ominaisuuksien suunnittelu**: sellaisten ominaisuuksien valinta tai luominen, jotka parantavat mallin suorituskykyä.

### Esimerkki

Puuttuvat arvot (esim. verenpaine) täydennetään ja kategoriset ominaisuudet (esim. rotu) muunnetaan numeeriseen muotoon.

## Vaihe 3. Mallintaminen

Tähän vaiheeseen kuuluu:

* **Mallin valinta** ongelmatyypin ja kokeilujen perusteella;
* **Hyperparametrien säätäminen** suorituskyvyn parantamiseksi;
* **Mallin arviointi** näkemättömällä datalla.



Hyperparametrit ovat säädettäviä asetuksia, jotka määrittävät mallin koulutuksen kulun—kuten koulutuksen keston tai mallin monimutkaisuuden.

Lisätietoa

### Esimerkki

**Luokittelumalli** valitaan ennustamaan uudelleensijoittamista (kyllä/ei). Säätämisen jälkeen mallia arvioidaan **validointi-/testijoukolla** yleistettävyyden tarkistamiseksi.

## Vaihe 4. Käyttöönotto

Kun malli toimii hyvin, se **otetaan käyttöön** todellisissa järjestelmissä. Mallia tulee seurata, päivittää uudella datalla ja parantaa ajan myötä, usein aloittaen sykli uudelleen **vaiheesta 1**.

### Esimerkki

Malli integroidaan sairaalan järjestelmään tunnistamaan korkean riskin potilaat sisäänkirjautumisen yhteydessä, mikä auttaa henkilökuntaa toimimaan ajoissa.

Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.

Huomio

Datan esikäsittely ja mallinnus voidaan toteuttaa `scikit-learn`-kirjastolla. Seuraavissa luvuissa esitellään esikäsittelyprosessit ja -putket, minkä jälkeen käsitellään mallinnusta käyttäen **k-lähimmät naapurit** (`KNeighborsClassifier`), mukaan lukien mallin opetus, viritys ja arviointi.

Mikä on "Get the data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

Mikä seuraavista kuvaa parhaiten "Data preprocessing" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

Koneoppimista käytetään nykyään kaikkialla. Haluatko oppia sen itse? Tämä kurssi on johdatus koneoppimisen maailmaan, jossa opit peruskäsitteet, työskentelet Scikit-learnin – suosituimman ML-kirjaston – kanssa ja rakennat ensimmäisen koneoppimisprojektisi.
Kurssi on tarkoitettu opiskelijoille, joilla on perustiedot Pythonista, Pandasista ja Numpysta.

Koneoppimisen käsitteiden ja ML-projektin työnkulun oppiminen.

Esikäsittely on todennäköisesti tärkein vaihe ML-projektissa. Tämä luku käsittelee esikäsittelyvaiheet, joita tarvitaan lähes kaikissa aineistoissa.

Putkisto on kätevä tapa yhdistää kaikki esikäsittelyvaiheet sekä malli. Putkistot helpottavat huomattavasti mallin kouluttamista ja käyttöä.

Mallintaminen on ML-projektin viihdyttävin vaihe. Opitaan rakentamaan, hienosäätämään ja arvioimaan mallia!

Koneoppimisen Työnkulku

Vaihe 1. Datan hankinta

Esimerkki

Vaihe 2. Datan esikäsittely

Esimerkki

Vaihe 3. Mallintaminen

Esimerkki

Vaihe 4. Käyttöönotto

Esimerkki

1. Mikä on "Get the data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

2. Mikä seuraavista kuvaa parhaiten "Data preprocessing" -vaiheen merkitystä koneoppimisprojektin työnkulussa?