Pyyhkäise näyttääksesi valikon

Tutustu koneoppimismallin koko elinkaareen aina datan valmistelusta tulosten tulkintaan sidosryhmille. Rakenna ja arvioi lineaarinen regressiomalli suoraan BigQueryssa.

Datan valmistelu ja skeeman suunnittelu

Ennen mallinnuksen aloittamista tulee määrittää, missä data sijaitsee ja miten se on jäsennelty:

Skeeman luominen: määrittele sarakkeiden nimet ja tietotyypit, jotta data voidaan ladata ja kysellä oikein;
Datan lataaminen ja tarkastelu: käytä pieniä aineistoja alkuvaiheen korrelaatioiden havainnointiin, kuten kuinka makuuhuoneiden määrä vaikuttaa talojen hintoihin;
Korrelaatioiden ymmärtäminen: yhdistä useita ominaisuuksia löytääksesi vahvat ennustavat suhteet, joita tarvitaan todellisissa sovelluksissa.

Mallin koulutus ja logiikka

Koneoppiminen tarkoittaa mallin opettamista tunnistamaan matemaattisia suhteita syötteiden ja tulosten välillä:

Mallin valinta: käytä lineaarista regressiota jatkuvien numeeristen arvojen ennustamiseen;
Muuttujien määrittely: aseta kohdemuuttuja (esim. hinta) ja syöteominaisuudet (esim. neliömäärä ja makuuhuoneiden määrä);
Oppimisprosessi: koulutus tapahtuu iteraatioina, joissa malli säätää itseään oppimisnopeuden perusteella minimoidakseen tappion (keskineliövirhe).

Arviointi ja validointi

Mallin todellisen oppimisen varmistamiseksi sen suorituskyky tulee validoida:

Koulutus- ja arviointijako: pidä noin 20 prosenttia datasta mallin testaamiseen ennennäkemättömillä esimerkeillä;
Mallin arviointimittarit: käytä (R-squared) -arvoa ennustekyvyn mittaamiseen; arvot yli 0,8 osoittavat yleensä vahvaa perustaa;
Arvojen vertailu: analysoi ennustettujen ja todellisten arvojen prosentuaalista virhettä mallin tarkkuuden varmistamiseksi.

Ennusteiden tekeminen ja tulkinta

Tavoitteena on tuottaa uusia, käyttökelpoisia oivalluksia datasta:

Ennusteiden tuottaminen: sovella koulutettua mallia uusiin, aiemmin näkymättömiin havaintoihin simuloidaksesi todellista käyttöä;
Painojen tulkinta: tarkastele ominaisuuspainoja selvittääksesi, mitkä syötteet, kuten makuuhuoneiden määrä, vaikuttavat eniten lopulliseen ennusteeseen;
Perusleikkaukset (baseline intercepts): tunnista intercept-arvo ymmärtääksesi perusennusteen, kun kaikki syöteominaisuudet ovat nollia.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 6. Luku 3

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

BigQuery ML -mallin Läpikäynti