Koneoppimisen Työnkulku
Tarkastellaan työnkulkua, jonka avulla rakennetaan onnistunut koneoppimisprojekti.
Vaihe 1. Datan hankinta
Aloita määrittelemällä ongelma ja tunnistamalla tarvittava data. Valitse mittari suorituskyvyn arviointiin ja määritä, mikä tulos katsotaan riittäväksi.
Kerää sitten data, usein useista lähteistä, kuten tietokannoista, ja muunna se Python-käsittelyyn sopivaan muotoon.
Jos data on jo saatavilla .csv
-tiedostossa, esikäsittely voidaan aloittaa heti ja tämä vaihe voidaan ohittaa.
Esimerkki
Sairaala tarjoaa historiallisia potilastietoja tietokannastaan sekä väestötietoja kansallisesta terveysrekisteristä, koottuna CSV-tiedostoon. Tehtävänä on ennustaa potilaiden uudelleensijoittumisia, ja yli 80 %:n tarkkuus on määritelty tyydyttävän suorituksen tavoitemittariksi.
Vaihe 2. Datan esikäsittely
Tämä vaihe sisältää:
- Datan puhdistus: puuttuvien arvojen, ei-numeerisen datan jne. käsittely;
- Tutkiva data-analyysi (EDA): aineiston analysointi ja visualisointi, jotta löydetään piirteiden välisiä yhteyksiä ja saadaan yleiskuva siitä, miten harjoitusaineistoa voidaan parantaa;
- Ominaisuuksien suunnittelu: piirteiden valinta, muuntaminen tai uusien luominen EDA:n havaintojen perusteella mallin suorituskyvyn parantamiseksi.
Esimerkki
Sairaalan aineistossa puuttuvat arvot, kuten verenpaine, voidaan täyttää ja kategoriset muuttujat, kuten rotu, voidaan muuntaa numeerisiksi koodeiksi analyysiä varten.
Vaihe 3. Mallintaminen
Tähän vaiheeseen kuuluu:
- Mallin valinta: yhden tai useamman ongelmaan parhaiten soveltuvan mallin valitseminen algoritmin ominaisuuksien ja kokeellisten tulosten perusteella;
- Hyperparametrien säätäminen: hyperparametrien hienosäätö parhaan mahdollisen suorituskyvyn saavuttamiseksi.
Ajattele hyperparametreja kuin koneen säätönuppeina ja -vivuina, joita voi säätää laitteen toiminnan ohjaamiseksi. Koneoppimisessa nämä "nupit ja vivut" ovat asetuksia (arvoja), joita data-analyytikko säätää ennen mallin koulutuksen aloittamista. Esimerkiksi hyperparametreihin voi kuulua, kuinka kauan mallia koulutetaan tai kuinka yksityiskohtaista koulutuksen tulisi olla.
- Mallin arviointi: suorituskyvyn mittaaminen aiemmin näkemättömällä datalla.
Esimerkki
Luokittelumalli valitaan ennustamaan potilaiden uudelleen sairaalaan joutumista, mikä sopii binaarisiin lopputuloksiin (uudelleen sairaalaan joutunut tai ei). Sen hyperparametrit säädetään suorituskyvyn optimoimiseksi. Lopuksi arviointi tehdään erillisellä validointi- tai testijoukolla sen tarkistamiseksi, kuinka hyvin malli yleistyy koulutusdatan ulkopuolelle.
Vaihe 4. Käyttöönotto
Kun hienosäädetty malli on saavutettu ja sen suorituskyky on tyydyttävä, seuraava vaihe on käyttöönotto. Käyttöönotettua mallia tulee jatkuvasti valvoa, parantaa tarvittaessa ja päivittää uudella datalla sitä mukaa kun sitä tulee saataville. Tämä prosessi johtaa usein takaisin Vaiheeseen 1.
Esimerkki
Kun malli ennustaa uudelleensijoitukset tarkasti, se integroidaan sairaalan tietokantajärjestelmään ilmoittamaan henkilökunnalle korkean riskin potilaista sisäänkirjauksen yhteydessä, mikä parantaa potilashoitoa.
Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.
Datan esikäsittely ja mallinnus voidaan suorittaa scikit-learn
-kirjastolla (tuodaan nimellä sklearn
). Seuraavat luvut keskittyvät perusesikäsittelyvaiheisiin ja putkistojen rakentamiseen. Mallinnusvaihe esitellään käyttämällä k-lähimmän naapurin algoritmia (KNeighborsClassifier
sklearn
-kirjastossa) esimerkkinä. Tämä kattaa mallin rakentamisen, hyperparametrien säätämisen ja suorituskyvyn arvioinnin.
1. Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?
2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.13
Koneoppimisen Työnkulku
Pyyhkäise näyttääksesi valikon
Tarkastellaan työnkulkua, jonka avulla rakennetaan onnistunut koneoppimisprojekti.
Vaihe 1. Datan hankinta
Aloita määrittelemällä ongelma ja tunnistamalla tarvittava data. Valitse mittari suorituskyvyn arviointiin ja määritä, mikä tulos katsotaan riittäväksi.
Kerää sitten data, usein useista lähteistä, kuten tietokannoista, ja muunna se Python-käsittelyyn sopivaan muotoon.
Jos data on jo saatavilla .csv
-tiedostossa, esikäsittely voidaan aloittaa heti ja tämä vaihe voidaan ohittaa.
Esimerkki
Sairaala tarjoaa historiallisia potilastietoja tietokannastaan sekä väestötietoja kansallisesta terveysrekisteristä, koottuna CSV-tiedostoon. Tehtävänä on ennustaa potilaiden uudelleensijoittumisia, ja yli 80 %:n tarkkuus on määritelty tyydyttävän suorituksen tavoitemittariksi.
Vaihe 2. Datan esikäsittely
Tämä vaihe sisältää:
- Datan puhdistus: puuttuvien arvojen, ei-numeerisen datan jne. käsittely;
- Tutkiva data-analyysi (EDA): aineiston analysointi ja visualisointi, jotta löydetään piirteiden välisiä yhteyksiä ja saadaan yleiskuva siitä, miten harjoitusaineistoa voidaan parantaa;
- Ominaisuuksien suunnittelu: piirteiden valinta, muuntaminen tai uusien luominen EDA:n havaintojen perusteella mallin suorituskyvyn parantamiseksi.
Esimerkki
Sairaalan aineistossa puuttuvat arvot, kuten verenpaine, voidaan täyttää ja kategoriset muuttujat, kuten rotu, voidaan muuntaa numeerisiksi koodeiksi analyysiä varten.
Vaihe 3. Mallintaminen
Tähän vaiheeseen kuuluu:
- Mallin valinta: yhden tai useamman ongelmaan parhaiten soveltuvan mallin valitseminen algoritmin ominaisuuksien ja kokeellisten tulosten perusteella;
- Hyperparametrien säätäminen: hyperparametrien hienosäätö parhaan mahdollisen suorituskyvyn saavuttamiseksi.
Ajattele hyperparametreja kuin koneen säätönuppeina ja -vivuina, joita voi säätää laitteen toiminnan ohjaamiseksi. Koneoppimisessa nämä "nupit ja vivut" ovat asetuksia (arvoja), joita data-analyytikko säätää ennen mallin koulutuksen aloittamista. Esimerkiksi hyperparametreihin voi kuulua, kuinka kauan mallia koulutetaan tai kuinka yksityiskohtaista koulutuksen tulisi olla.
- Mallin arviointi: suorituskyvyn mittaaminen aiemmin näkemättömällä datalla.
Esimerkki
Luokittelumalli valitaan ennustamaan potilaiden uudelleen sairaalaan joutumista, mikä sopii binaarisiin lopputuloksiin (uudelleen sairaalaan joutunut tai ei). Sen hyperparametrit säädetään suorituskyvyn optimoimiseksi. Lopuksi arviointi tehdään erillisellä validointi- tai testijoukolla sen tarkistamiseksi, kuinka hyvin malli yleistyy koulutusdatan ulkopuolelle.
Vaihe 4. Käyttöönotto
Kun hienosäädetty malli on saavutettu ja sen suorituskyky on tyydyttävä, seuraava vaihe on käyttöönotto. Käyttöönotettua mallia tulee jatkuvasti valvoa, parantaa tarvittaessa ja päivittää uudella datalla sitä mukaa kun sitä tulee saataville. Tämä prosessi johtaa usein takaisin Vaiheeseen 1.
Esimerkki
Kun malli ennustaa uudelleensijoitukset tarkasti, se integroidaan sairaalan tietokantajärjestelmään ilmoittamaan henkilökunnalle korkean riskin potilaista sisäänkirjauksen yhteydessä, mikä parantaa potilashoitoa.
Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.
Datan esikäsittely ja mallinnus voidaan suorittaa scikit-learn
-kirjastolla (tuodaan nimellä sklearn
). Seuraavat luvut keskittyvät perusesikäsittelyvaiheisiin ja putkistojen rakentamiseen. Mallinnusvaihe esitellään käyttämällä k-lähimmän naapurin algoritmia (KNeighborsClassifier
sklearn
-kirjastossa) esimerkkinä. Tämä kattaa mallin rakentamisen, hyperparametrien säätämisen ja suorituskyvyn arvioinnin.
1. Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?
2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?
Kiitos palautteestasi!