Mallinnuksen Yhteenveto
Olet nyt oppinut rakentamaan mallin, integroimaan sen putkeen ja säätämään hyperparametreja. Kaksi arviointimenetelmää on myös käsitelty: train-test-jako ja ristiinvalidointi.
Seuraava vaihe on yhdistää mallin arviointi ja hyperparametrien säätö käyttäen GridSearchCV
- tai RandomizedSearchCV
-menetelmää.
Koska aineistomme on hyvin pieni, käytämme GridSearchCV
:tä, mutta kaikki alla mainittu pätee myös RandomizedSearchCV
:hen.
Tavoitteena on saavuttaa korkein ristiinvalidointipistemäärä aineistolla, sillä ristiinvalidointi on vakaampi ja vähemmän riippuvainen datan jakotavasta kuin train-test-lähestymistapa.
GridSearchCV
on suunniteltu erityisesti tähän tarkoitukseen: se tunnistaa hyperparametrit, joilla saavutetaan paras ristiinvalidointipistemäärä, ja tuottaa hienosäädetyn mallin, joka toimii optimaalisesti koulutusdatalla.
.best_score_
-attribuutti tallentaa haun aikana löytyneen korkeimman ristiinvalidointipistemäärän.
Parhaat hyperparametrit yhdelle tietylle tietoaineistolle eivät välttämättä ole yleisesti parhaat. Jos aineistoon lisätään uutta dataa, optimaaliset hyperparametrit voivat muuttua.
Tämän seurauksena saavutettu .best_score_
voi olla korkeampi kuin suorituskyky täysin uudella datalla, sillä hyperparametrit eivät välttämättä yleisty yhtä hyvin koulutusdatan ulkopuolelle.
Tyypillisesti tietoaineisto jaetaan ensin koulutus- ja testijoukkoon. Ristiinvalidointi suoritetaan koulutusjoukolla mallin hienosäätöä ja parhaan kokoonpanon löytämistä varten. Lopuksi optimoitua mallia arvioidaan testijoukolla, joka sisältää täysin näkemätöntä dataa, jotta voidaan arvioida mallin todellista suorituskykyä.
Yhteenvetona koko työnkulku koostuu seuraavista vaiheista:
- Datan esikäsittely;
- Tietoaineiston jakaminen koulutus- ja testijoukkoon;
- Ristiinvalidoinnin käyttö koulutusjoukossa parhaiten suoriutuvan mallin löytämiseksi;
- Mallin arviointi testijoukolla.
Kolmas vaihe sisältää yleensä useiden algoritmien testaamisen ja niiden hyperparametrien säätämisen parhaan vaihtoehdon tunnistamiseksi. Tämän kurssin yksinkertaistamiseksi käytettiin vain yhtä algoritmia.
Ennen siirtymistä loppuhaasteeseen on tärkeää huomioida, että ristiinvalidointi ei ole ainoa tapa mallien hienosäätöön. Kun tietoaineistot kasvavat suuremmiksi, ristiinvalidointipisteiden laskeminen vie enemmän aikaa, ja tavallinen train-test-jako tarjoaa enemmän vakautta testijoukon koon kasvaessa.
Tästä syystä suuret tietoaineistot jaetaan usein kolmeen osaan: opetusjoukkoon, validointijoukkoon ja testijoukkoon. Malli opetetaan opetusjoukolla ja arvioidaan validointijoukolla, jotta voidaan valita parhaiten suoriutuva malli tai hyperparametrit.
Tämä valinta perustuu validointijoukon pisteisiin ristiinvalidointipisteiden sijaan. Lopuksi valittu malli arvioidaan testijoukolla, joka koostuu täysin uudesta datasta, jotta voidaan varmistaa sen suorituskyky.
Penguins-aineisto on pieni, sisältäen vain 342 havaintoa. Tämän rajallisen koon vuoksi seuraavassa luvussa arviointiin käytetään ristiinvalidointipistettä.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.13
Mallinnuksen Yhteenveto
Pyyhkäise näyttääksesi valikon
Olet nyt oppinut rakentamaan mallin, integroimaan sen putkeen ja säätämään hyperparametreja. Kaksi arviointimenetelmää on myös käsitelty: train-test-jako ja ristiinvalidointi.
Seuraava vaihe on yhdistää mallin arviointi ja hyperparametrien säätö käyttäen GridSearchCV
- tai RandomizedSearchCV
-menetelmää.
Koska aineistomme on hyvin pieni, käytämme GridSearchCV
:tä, mutta kaikki alla mainittu pätee myös RandomizedSearchCV
:hen.
Tavoitteena on saavuttaa korkein ristiinvalidointipistemäärä aineistolla, sillä ristiinvalidointi on vakaampi ja vähemmän riippuvainen datan jakotavasta kuin train-test-lähestymistapa.
GridSearchCV
on suunniteltu erityisesti tähän tarkoitukseen: se tunnistaa hyperparametrit, joilla saavutetaan paras ristiinvalidointipistemäärä, ja tuottaa hienosäädetyn mallin, joka toimii optimaalisesti koulutusdatalla.
.best_score_
-attribuutti tallentaa haun aikana löytyneen korkeimman ristiinvalidointipistemäärän.
Parhaat hyperparametrit yhdelle tietylle tietoaineistolle eivät välttämättä ole yleisesti parhaat. Jos aineistoon lisätään uutta dataa, optimaaliset hyperparametrit voivat muuttua.
Tämän seurauksena saavutettu .best_score_
voi olla korkeampi kuin suorituskyky täysin uudella datalla, sillä hyperparametrit eivät välttämättä yleisty yhtä hyvin koulutusdatan ulkopuolelle.
Tyypillisesti tietoaineisto jaetaan ensin koulutus- ja testijoukkoon. Ristiinvalidointi suoritetaan koulutusjoukolla mallin hienosäätöä ja parhaan kokoonpanon löytämistä varten. Lopuksi optimoitua mallia arvioidaan testijoukolla, joka sisältää täysin näkemätöntä dataa, jotta voidaan arvioida mallin todellista suorituskykyä.
Yhteenvetona koko työnkulku koostuu seuraavista vaiheista:
- Datan esikäsittely;
- Tietoaineiston jakaminen koulutus- ja testijoukkoon;
- Ristiinvalidoinnin käyttö koulutusjoukossa parhaiten suoriutuvan mallin löytämiseksi;
- Mallin arviointi testijoukolla.
Kolmas vaihe sisältää yleensä useiden algoritmien testaamisen ja niiden hyperparametrien säätämisen parhaan vaihtoehdon tunnistamiseksi. Tämän kurssin yksinkertaistamiseksi käytettiin vain yhtä algoritmia.
Ennen siirtymistä loppuhaasteeseen on tärkeää huomioida, että ristiinvalidointi ei ole ainoa tapa mallien hienosäätöön. Kun tietoaineistot kasvavat suuremmiksi, ristiinvalidointipisteiden laskeminen vie enemmän aikaa, ja tavallinen train-test-jako tarjoaa enemmän vakautta testijoukon koon kasvaessa.
Tästä syystä suuret tietoaineistot jaetaan usein kolmeen osaan: opetusjoukkoon, validointijoukkoon ja testijoukkoon. Malli opetetaan opetusjoukolla ja arvioidaan validointijoukolla, jotta voidaan valita parhaiten suoriutuva malli tai hyperparametrit.
Tämä valinta perustuu validointijoukon pisteisiin ristiinvalidointipisteiden sijaan. Lopuksi valittu malli arvioidaan testijoukolla, joka koostuu täysin uudesta datasta, jotta voidaan varmistaa sen suorituskyky.
Penguins-aineisto on pieni, sisältäen vain 342 havaintoa. Tämän rajallisen koon vuoksi seuraavassa luvussa arviointiin käytetään ristiinvalidointipistettä.
Kiitos palautteestasi!