Mallit
Tietojen esikäsittelyn ja putkiston rakentamisen perusteet on nyt käsitelty. Seuraava vaihe on mallintaminen.
Malli Scikit-learnissa on estimaattori, joka tarjoaa .predict()- ja .score()-metodit sekä kaikilta estimaattoreilta perityn .fit()-metodin.
.fit()
Kun data on esikäsitelty ja valmis mallille, mallin rakentamisen ensimmäinen vaihe on mallin kouluttaminen. Tämä tehdään käyttämällä .fit(X, y).
Valvotussa oppimisessa (supervised learning, kuten regressio ja luokittelu) .fit() vaatii sekä X että y.
Valvomattomassa oppimisessa (unsupervised learning, esim. klusterointi) kutsutaan vain .fit(X). y-arvon välittäminen ei aiheuta virhettä — se yksinkertaisesti ohitetaan.
Koulutuksen aikana malli oppii ennustamiseen tarvittavat säännönmukaisuudet. Mitä malli oppii ja kuinka kauan koulutus kestää, riippuu algoritmista. Koulutus on usein hitainta koneoppimisessa, erityisesti suurilla aineistoilla.
.predict()
Koulutuksen jälkeen käytä .predict()-metodia ennusteiden tuottamiseen:
model.fit(X, y)
y_pred = model.predict(X_new)
.score()
.score() arvioi koulutetun mallin, tyypillisesti testijoukolla:
model.fit(X, y)
model.score(X_test, y_test)
Se vertaa ennusteita todellisiin kohteisiin. Oletuksena mittarina on tarkkuus luokittelutehtävissä.
X_test viittaa tietoaineiston osajoukkoon, jota kutsutaan testijoukoksi ja jota käytetään mallin suorituskyvyn arviointiin koulutuksen jälkeen. Se sisältää piirteet (syötedata). y_test on vastaava todellisten luokkien osajoukko X_test:lle. Yhdessä ne arvioivat, kuinka hyvin malli ennustaa uutta, aiemmin näkemätöntä dataa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
What are some common algorithms used for modeling in Scikit-learn?
Can you explain the difference between `.fit()`, `.predict()`, and `.score()` in more detail?
How do I choose which metric to use for evaluating my model?
Mahtavaa!
Completion arvosana parantunut arvoon 3.13
Mallit
Pyyhkäise näyttääksesi valikon
Tietojen esikäsittelyn ja putkiston rakentamisen perusteet on nyt käsitelty. Seuraava vaihe on mallintaminen.
Malli Scikit-learnissa on estimaattori, joka tarjoaa .predict()- ja .score()-metodit sekä kaikilta estimaattoreilta perityn .fit()-metodin.
.fit()
Kun data on esikäsitelty ja valmis mallille, mallin rakentamisen ensimmäinen vaihe on mallin kouluttaminen. Tämä tehdään käyttämällä .fit(X, y).
Valvotussa oppimisessa (supervised learning, kuten regressio ja luokittelu) .fit() vaatii sekä X että y.
Valvomattomassa oppimisessa (unsupervised learning, esim. klusterointi) kutsutaan vain .fit(X). y-arvon välittäminen ei aiheuta virhettä — se yksinkertaisesti ohitetaan.
Koulutuksen aikana malli oppii ennustamiseen tarvittavat säännönmukaisuudet. Mitä malli oppii ja kuinka kauan koulutus kestää, riippuu algoritmista. Koulutus on usein hitainta koneoppimisessa, erityisesti suurilla aineistoilla.
.predict()
Koulutuksen jälkeen käytä .predict()-metodia ennusteiden tuottamiseen:
model.fit(X, y)
y_pred = model.predict(X_new)
.score()
.score() arvioi koulutetun mallin, tyypillisesti testijoukolla:
model.fit(X, y)
model.score(X_test, y_test)
Se vertaa ennusteita todellisiin kohteisiin. Oletuksena mittarina on tarkkuus luokittelutehtävissä.
X_test viittaa tietoaineiston osajoukkoon, jota kutsutaan testijoukoksi ja jota käytetään mallin suorituskyvyn arviointiin koulutuksen jälkeen. Se sisältää piirteet (syötedata). y_test on vastaava todellisten luokkien osajoukko X_test:lle. Yhdessä ne arvioivat, kuinka hyvin malli ennustaa uutta, aiemmin näkemätöntä dataa.
Kiitos palautteestasi!