Modeller
Grunnleggende dataforbehandling og oppbygging av pipelines er nå dekket. Neste steg er modellering.
En modell i Scikit-learn er en estimator som tilbyr metodene .predict()
og .score()
, i tillegg til .fit()
som arves fra alle estimatorer.
.fit()
Når dataene er forhåndsbehandlet og klare for modellen, er det første steget i å bygge en modell å trene en modell. Dette gjøres ved å bruke .fit(X, y)
.
For å trene en modell som utfører en supervised learning-oppgave (f.eks. regresjon, klassifisering), må du sende både X
og y
til .fit()
-metoden.
Hvis du arbeider med en unsupervised learning-oppgave (f.eks. klynging), kreves det ikke merkede data, så du kan kun sende variabelen X
, .fit(X)
. Å bruke .fit(X, y)
vil imidlertid ikke gi en feil. Modellen vil bare ignorere variabelen y
.
Under trening lærer en modell alt den trenger for å kunne gjøre prediksjoner. Hva modellen lærer og hvor lang tid treningen tar, avhenger av valgt algoritme. For hver oppgave finnes det mange modeller, basert på ulike algoritmer. Noen trener saktere, mens andre trener raskere.
Trening er likevel vanligvis den mest tidkrevende delen av maskinlæring. Hvis treningssettet er stort, kan det ta minutter, timer eller til og med dager å trene en modell.
.predict()
Når modellen er trent ved hjelp av .fit()
-metoden, kan den utføre prediksjoner. Predikering er så enkelt som å kalle .predict()
-metoden:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
Vanligvis ønsker du å predikere et mål for nye instanser, X_new
.
.score()
Metoden .score()
brukes til å måle ytelsen til en trent modell. Vanligvis beregnes dette på testsettet (de neste kapitlene forklarer hva dette er). Her er syntaksen:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
Metoden .score()
krever faktiske målverdier (y_test
i eksemplet). Den beregner prediksjonen for X_test
-instanser og sammenligner denne prediksjonen med sanne målverdier (y_test
) ved hjelp av en eller annen metrikk. Som standard er denne metrikken nøyaktighet for klassifisering.
X_test
refererer til delsettet av datasettet, kjent som testsettet, som brukes til å evaluere en modells ytelse etter trening. Det inneholder funksjonene (inngangsdata). y_test
er det tilsvarende delsettet av sanne etiketter for X_test
. Sammen vurderer de hvor godt modellen predikerer nye, ukjente data.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain more about what an estimator is in Scikit-learn?
What are some common algorithms used for modeling in Scikit-learn?
How does the .score() method differ for regression and classification tasks?
Awesome!
Completion rate improved to 3.13
Modeller
Sveip for å vise menyen
Grunnleggende dataforbehandling og oppbygging av pipelines er nå dekket. Neste steg er modellering.
En modell i Scikit-learn er en estimator som tilbyr metodene .predict()
og .score()
, i tillegg til .fit()
som arves fra alle estimatorer.
.fit()
Når dataene er forhåndsbehandlet og klare for modellen, er det første steget i å bygge en modell å trene en modell. Dette gjøres ved å bruke .fit(X, y)
.
For å trene en modell som utfører en supervised learning-oppgave (f.eks. regresjon, klassifisering), må du sende både X
og y
til .fit()
-metoden.
Hvis du arbeider med en unsupervised learning-oppgave (f.eks. klynging), kreves det ikke merkede data, så du kan kun sende variabelen X
, .fit(X)
. Å bruke .fit(X, y)
vil imidlertid ikke gi en feil. Modellen vil bare ignorere variabelen y
.
Under trening lærer en modell alt den trenger for å kunne gjøre prediksjoner. Hva modellen lærer og hvor lang tid treningen tar, avhenger av valgt algoritme. For hver oppgave finnes det mange modeller, basert på ulike algoritmer. Noen trener saktere, mens andre trener raskere.
Trening er likevel vanligvis den mest tidkrevende delen av maskinlæring. Hvis treningssettet er stort, kan det ta minutter, timer eller til og med dager å trene en modell.
.predict()
Når modellen er trent ved hjelp av .fit()
-metoden, kan den utføre prediksjoner. Predikering er så enkelt som å kalle .predict()
-metoden:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
Vanligvis ønsker du å predikere et mål for nye instanser, X_new
.
.score()
Metoden .score()
brukes til å måle ytelsen til en trent modell. Vanligvis beregnes dette på testsettet (de neste kapitlene forklarer hva dette er). Her er syntaksen:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
Metoden .score()
krever faktiske målverdier (y_test
i eksemplet). Den beregner prediksjonen for X_test
-instanser og sammenligner denne prediksjonen med sanne målverdier (y_test
) ved hjelp av en eller annen metrikk. Som standard er denne metrikken nøyaktighet for klassifisering.
X_test
refererer til delsettet av datasettet, kjent som testsettet, som brukes til å evaluere en modells ytelse etter trening. Det inneholder funksjonene (inngangsdata). y_test
er det tilsvarende delsettet av sanne etiketter for X_test
. Sammen vurderer de hvor godt modellen predikerer nye, ukjente data.
Takk for tilbakemeldingene dine!