Mallit
Tietojen esikäsittelyn ja putkiston rakentamisen perusteet on nyt käsitelty. Seuraava vaihe on mallintaminen.
Malli Scikit-learnissa on estimaattori, joka tarjoaa .predict()
- ja .score()
-metodit sekä kaikilta estimaattoreilta perityn .fit()
-metodin.
.fit()
Kun data on esikäsitelty ja valmis mallille, mallin rakentamisen ensimmäinen vaihe on mallin kouluttaminen. Tämä tehdään käyttämällä .fit(X, y)
.
Jotta mallia voidaan opettaa suorittamaan ohjatun oppimisen tehtävä (esim. regressio, luokittelu), sekä X
että y
tulee välittää .fit()
-metodille.
Jos kyseessä on ohjaamattoman oppimisen tehtävä (esim. klusterointi), mallin opettaminen ei vaadi nimettyä dataa, joten voit välittää vain X
-muuttujan, .fit(X)
. Kuitenkin, jos käytät .fit(X, y)
, se ei aiheuta virhettä. Malli yksinkertaisesti ohittaa y
-muuttujan.
Mallin opetuksen aikana se opp ii kaiken tarvittavan ennusteiden tekemiseen. Se, mitä malli oppii ja kuinka kauan opetus kestää, riippuu valitusta algoritmista. Jokaiselle tehtävälle on saatavilla useita malleja, jotka perustuvat eri algoritmeihin. Jotkut malleista opettavat hitaammin, toiset nopeammin.
Kuitenkin opetus on yleensä koneoppimisen aikaa vievin vaihe. Jos opetusjoukko on suuri, mallin opettaminen voi kestää minuutteja, tunteja tai jopa päiviä.
.predict()
Kun malli on opetettu käyttämällä .fit()
-metodia, se voi suorittaa ennusteita. Ennustaminen on yhtä helppoa kuin kutsua .predict()
-metodia:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
Yleensä halutaan ennustaa tavoitearvo uusille havaintoarvoille, X_new
.
.score()
.score()
-metodia käytetään koulutetun mallin suorituskyvyn mittaamiseen. Yleensä se lasketaan testijoukolla (seuraavissa luvuissa selitetään, mitä se tarkoittaa). Tässä on syntaksi:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
.score()
-metodi vaatii todelliset tavoitearvot (y_test
esimerkissä). Se laskee ennusteen X_test
-havaintoihin ja vertaa tätä ennustetta todelliseen tavoitteeseen (y_test
) käyttäen jotakin metriikkaa. Oletuksena tämä metriikka on tarkkuus luokittelussa.
X_test
viittaa tietoaineiston osajoukkoon, joka tunnetaan nimellä testijoukko ja jota käytetään mallin suorituskyvyn arviointiin koulutuksen jälkeen. Se sisältää piirteet (syötedata). y_test
on vastaava osajoukko todellisia luokkia X_test
:lle. Yhdessä ne arvioivat, kuinka hyvin malli ennustaa uutta, aiemmin näkemätöntä dataa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain more about what an estimator is in Scikit-learn?
What are some common algorithms used for modeling in Scikit-learn?
How does the .score() method differ for regression and classification tasks?
Awesome!
Completion rate improved to 3.13
Mallit
Pyyhkäise näyttääksesi valikon
Tietojen esikäsittelyn ja putkiston rakentamisen perusteet on nyt käsitelty. Seuraava vaihe on mallintaminen.
Malli Scikit-learnissa on estimaattori, joka tarjoaa .predict()
- ja .score()
-metodit sekä kaikilta estimaattoreilta perityn .fit()
-metodin.
.fit()
Kun data on esikäsitelty ja valmis mallille, mallin rakentamisen ensimmäinen vaihe on mallin kouluttaminen. Tämä tehdään käyttämällä .fit(X, y)
.
Jotta mallia voidaan opettaa suorittamaan ohjatun oppimisen tehtävä (esim. regressio, luokittelu), sekä X
että y
tulee välittää .fit()
-metodille.
Jos kyseessä on ohjaamattoman oppimisen tehtävä (esim. klusterointi), mallin opettaminen ei vaadi nimettyä dataa, joten voit välittää vain X
-muuttujan, .fit(X)
. Kuitenkin, jos käytät .fit(X, y)
, se ei aiheuta virhettä. Malli yksinkertaisesti ohittaa y
-muuttujan.
Mallin opetuksen aikana se opp ii kaiken tarvittavan ennusteiden tekemiseen. Se, mitä malli oppii ja kuinka kauan opetus kestää, riippuu valitusta algoritmista. Jokaiselle tehtävälle on saatavilla useita malleja, jotka perustuvat eri algoritmeihin. Jotkut malleista opettavat hitaammin, toiset nopeammin.
Kuitenkin opetus on yleensä koneoppimisen aikaa vievin vaihe. Jos opetusjoukko on suuri, mallin opettaminen voi kestää minuutteja, tunteja tai jopa päiviä.
.predict()
Kun malli on opetettu käyttämällä .fit()
-metodia, se voi suorittaa ennusteita. Ennustaminen on yhtä helppoa kuin kutsua .predict()
-metodia:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
Yleensä halutaan ennustaa tavoitearvo uusille havaintoarvoille, X_new
.
.score()
.score()
-metodia käytetään koulutetun mallin suorituskyvyn mittaamiseen. Yleensä se lasketaan testijoukolla (seuraavissa luvuissa selitetään, mitä se tarkoittaa). Tässä on syntaksi:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
.score()
-metodi vaatii todelliset tavoitearvot (y_test
esimerkissä). Se laskee ennusteen X_test
-havaintoihin ja vertaa tätä ennustetta todelliseen tavoitteeseen (y_test
) käyttäen jotakin metriikkaa. Oletuksena tämä metriikka on tarkkuus luokittelussa.
X_test
viittaa tietoaineiston osajoukkoon, joka tunnetaan nimellä testijoukko ja jota käytetään mallin suorituskyvyn arviointiin koulutuksen jälkeen. Se sisältää piirteet (syötedata). y_test
on vastaava osajoukko todellisia luokkia X_test
:lle. Yhdessä ne arvioivat, kuinka hyvin malli ennustaa uutta, aiemmin näkemätöntä dataa.
Kiitos palautteestasi!