Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Koneoppimisen Työnkulku | Koneoppimisen Käsitteet
Koneoppimisen Perusteet Scikit-learnilla

bookKoneoppimisen Työnkulku

Tarkastellaan työnkulkua, jonka avulla rakennetaan onnistunut koneoppimisprojekti.

Vaihe 1. Datan hankinta

Aloita määrittelemällä ongelma ja tunnistamalla tarvittava data. Valitse mittari suorituskyvyn arviointiin ja määritä, mikä tulos katsotaan riittäväksi.

Kerää sitten data, usein useista lähteistä, kuten tietokannoista, ja muunna se Python-käsittelyyn sopivaan muotoon.

Jos data on jo saatavilla .csv-tiedostossa, esikäsittely voidaan aloittaa heti ja tämä vaihe voidaan ohittaa.

Esimerkki

Sairaala tarjoaa historiallisia potilastietoja tietokannastaan sekä väestötietoja kansallisesta terveysrekisteristä, koottuna CSV-tiedostoon. Tehtävänä on ennustaa potilaiden uudelleensijoittumisia, ja yli 80 %:n tarkkuus on määritelty tyydyttävän suorituksen tavoitemittariksi.

Vaihe 2. Datan esikäsittely

Tämä vaihe sisältää:

  • Datan puhdistus: puuttuvien arvojen, ei-numeerisen datan jne. käsittely;
  • Tutkiva data-analyysi (EDA): aineiston analysointi ja visualisointi, jotta löydetään piirteiden välisiä yhteyksiä ja saadaan yleiskuva siitä, miten harjoitusaineistoa voidaan parantaa;
  • Ominaisuuksien suunnittelu: piirteiden valinta, muuntaminen tai uusien luominen EDA:n havaintojen perusteella mallin suorituskyvyn parantamiseksi.

Esimerkki

Sairaalan aineistossa puuttuvat arvot, kuten verenpaine, voidaan täyttää ja kategoriset muuttujat, kuten rotu, voidaan muuntaa numeerisiksi koodeiksi analyysiä varten.

Vaihe 3. Mallintaminen

Tähän vaiheeseen kuuluu:

  • Mallin valinta: yhden tai useamman ongelmaan parhaiten soveltuvan mallin valitseminen algoritmin ominaisuuksien ja kokeellisten tulosten perusteella;
  • Hyperparametrien säätäminen: hyperparametrien hienosäätö parhaan mahdollisen suorituskyvyn saavuttamiseksi.
Note
Lisätietoa

Ajattele hyperparametreja kuin koneen säätönuppeina ja -vivuina, joita voi säätää laitteen toiminnan ohjaamiseksi. Koneoppimisessa nämä "nupit ja vivut" ovat asetuksia (arvoja), joita data-analyytikko säätää ennen mallin koulutuksen aloittamista. Esimerkiksi hyperparametreihin voi kuulua, kuinka kauan mallia koulutetaan tai kuinka yksityiskohtaista koulutuksen tulisi olla.

  • Mallin arviointi: suorituskyvyn mittaaminen aiemmin näkemättömällä datalla.

Esimerkki

Luokittelumalli valitaan ennustamaan potilaiden uudelleen sairaalaan joutumista, mikä sopii binaarisiin lopputuloksiin (uudelleen sairaalaan joutunut tai ei). Sen hyperparametrit säädetään suorituskyvyn optimoimiseksi. Lopuksi arviointi tehdään erillisellä validointi- tai testijoukolla sen tarkistamiseksi, kuinka hyvin malli yleistyy koulutusdatan ulkopuolelle.

Vaihe 4. Käyttöönotto

Kun hienosäädetty malli on saavutettu ja sen suorituskyky on tyydyttävä, seuraava vaihe on käyttöönotto. Käyttöönotettua mallia tulee jatkuvasti valvoa, parantaa tarvittaessa ja päivittää uudella datalla sitä mukaa kun sitä tulee saataville. Tämä prosessi johtaa usein takaisin Vaiheeseen 1.

Esimerkki

Kun malli ennustaa uudelleensijoitukset tarkasti, se integroidaan sairaalan tietokantajärjestelmään ilmoittamaan henkilökunnalle korkean riskin potilaista sisäänkirjauksen yhteydessä, mikä parantaa potilashoitoa.

Note
Huomio

Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.

Datan esikäsittely ja mallinnus voidaan suorittaa scikit-learn-kirjastolla (tuodaan nimellä sklearn). Seuraavat luvut keskittyvät perusesikäsittelyvaiheisiin ja putkistojen rakentamiseen. Mallinnusvaihe esitellään käyttämällä k-lähimmän naapurin algoritmia (KNeighborsClassifier sklearn-kirjastossa) esimerkkinä. Tämä kattaa mallin rakentamisen, hyperparametrien säätämisen ja suorituskyvyn arvioinnin.

1. Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

question mark

Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

Select the correct answer

question mark

Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 3.13

bookKoneoppimisen Työnkulku

Pyyhkäise näyttääksesi valikon

Tarkastellaan työnkulkua, jonka avulla rakennetaan onnistunut koneoppimisprojekti.

Vaihe 1. Datan hankinta

Aloita määrittelemällä ongelma ja tunnistamalla tarvittava data. Valitse mittari suorituskyvyn arviointiin ja määritä, mikä tulos katsotaan riittäväksi.

Kerää sitten data, usein useista lähteistä, kuten tietokannoista, ja muunna se Python-käsittelyyn sopivaan muotoon.

Jos data on jo saatavilla .csv-tiedostossa, esikäsittely voidaan aloittaa heti ja tämä vaihe voidaan ohittaa.

Esimerkki

Sairaala tarjoaa historiallisia potilastietoja tietokannastaan sekä väestötietoja kansallisesta terveysrekisteristä, koottuna CSV-tiedostoon. Tehtävänä on ennustaa potilaiden uudelleensijoittumisia, ja yli 80 %:n tarkkuus on määritelty tyydyttävän suorituksen tavoitemittariksi.

Vaihe 2. Datan esikäsittely

Tämä vaihe sisältää:

  • Datan puhdistus: puuttuvien arvojen, ei-numeerisen datan jne. käsittely;
  • Tutkiva data-analyysi (EDA): aineiston analysointi ja visualisointi, jotta löydetään piirteiden välisiä yhteyksiä ja saadaan yleiskuva siitä, miten harjoitusaineistoa voidaan parantaa;
  • Ominaisuuksien suunnittelu: piirteiden valinta, muuntaminen tai uusien luominen EDA:n havaintojen perusteella mallin suorituskyvyn parantamiseksi.

Esimerkki

Sairaalan aineistossa puuttuvat arvot, kuten verenpaine, voidaan täyttää ja kategoriset muuttujat, kuten rotu, voidaan muuntaa numeerisiksi koodeiksi analyysiä varten.

Vaihe 3. Mallintaminen

Tähän vaiheeseen kuuluu:

  • Mallin valinta: yhden tai useamman ongelmaan parhaiten soveltuvan mallin valitseminen algoritmin ominaisuuksien ja kokeellisten tulosten perusteella;
  • Hyperparametrien säätäminen: hyperparametrien hienosäätö parhaan mahdollisen suorituskyvyn saavuttamiseksi.
Note
Lisätietoa

Ajattele hyperparametreja kuin koneen säätönuppeina ja -vivuina, joita voi säätää laitteen toiminnan ohjaamiseksi. Koneoppimisessa nämä "nupit ja vivut" ovat asetuksia (arvoja), joita data-analyytikko säätää ennen mallin koulutuksen aloittamista. Esimerkiksi hyperparametreihin voi kuulua, kuinka kauan mallia koulutetaan tai kuinka yksityiskohtaista koulutuksen tulisi olla.

  • Mallin arviointi: suorituskyvyn mittaaminen aiemmin näkemättömällä datalla.

Esimerkki

Luokittelumalli valitaan ennustamaan potilaiden uudelleen sairaalaan joutumista, mikä sopii binaarisiin lopputuloksiin (uudelleen sairaalaan joutunut tai ei). Sen hyperparametrit säädetään suorituskyvyn optimoimiseksi. Lopuksi arviointi tehdään erillisellä validointi- tai testijoukolla sen tarkistamiseksi, kuinka hyvin malli yleistyy koulutusdatan ulkopuolelle.

Vaihe 4. Käyttöönotto

Kun hienosäädetty malli on saavutettu ja sen suorituskyky on tyydyttävä, seuraava vaihe on käyttöönotto. Käyttöönotettua mallia tulee jatkuvasti valvoa, parantaa tarvittaessa ja päivittää uudella datalla sitä mukaa kun sitä tulee saataville. Tämä prosessi johtaa usein takaisin Vaiheeseen 1.

Esimerkki

Kun malli ennustaa uudelleensijoitukset tarkasti, se integroidaan sairaalan tietokantajärjestelmään ilmoittamaan henkilökunnalle korkean riskin potilaista sisäänkirjauksen yhteydessä, mikä parantaa potilashoitoa.

Note
Huomio

Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.

Datan esikäsittely ja mallinnus voidaan suorittaa scikit-learn-kirjastolla (tuodaan nimellä sklearn). Seuraavat luvut keskittyvät perusesikäsittelyvaiheisiin ja putkistojen rakentamiseen. Mallinnusvaihe esitellään käyttämällä k-lähimmän naapurin algoritmia (KNeighborsClassifier sklearn-kirjastossa) esimerkkinä. Tämä kattaa mallin rakentamisen, hyperparametrien säätämisen ja suorituskyvyn arvioinnin.

1. Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

question mark

Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

Select the correct answer

question mark

Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5
some-alt