Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Modeller | Modellering
ML Introduktion med Scikit-learn

bookModeller

Grundlæggende principper for datapreprocessering og opbygning af pipelines er nu gennemgået. Næste skridt er modellering.

En model i Scikit-learn er en estimator, der tilbyder metoderne .predict() og .score(), samt .fit() som arves fra alle estimators.

.fit()

Når data er preprocesseret og klar til modellen, er det første trin i opbygningen af en model træning af en model. Dette udføres ved hjælp af .fit(X, y).

Note
Bemærk

For at træne en model til en supervised learning opgave (f.eks. regression, klassifikation), skal både X og y gives til .fit()-metoden.

Ved unsupervised learning opgaver (f.eks. klyngedannelse) kræves der ikke mærkede data, så du kan kun give X-variablen, .fit(X). Det vil dog ikke give en fejl at bruge .fit(X, y). Modellen vil blot ignorere y-variablen.

Under træning lærer en model alt, hvad den behøver for at kunne lave forudsigelser. Hvad modellen lærer, og hvor lang tid træningen tager, afhænger af den valgte algoritme. Til hver opgave findes der adskillige modeller baseret på forskellige algoritmer. Nogle træner langsommere, mens andre træner hurtigere.

Træning er dog generelt den mest tidskrævende del af maskinlæring. Hvis træningssættet er stort, kan det tage minutter, timer eller endda dage at træne en model.

.predict()

Når modellen er trænet ved hjælp af .fit()-metoden, kan den udføre forudsigelser. Forudsigelse foretages blot ved at kalde .predict()-metoden:

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

Normalt ønsker man at forudsige et mål for nye instanser, X_new.

.score()

Metoden .score() anvendes til at måle en trænet models ydeevne. Typisk beregnes den på testdatasættet (de følgende kapitler forklarer, hvad det er). Her er syntaksen:

model.fit(X, y) # Training the model
model.score(X_test, y_test)

Metoden .score() kræver faktiske målte værdier (y_test i eksemplet). Den beregner forudsigelsen for X_test-instanser og sammenligner denne forudsigelse med de sande målte værdier (y_test) ved hjælp af en eller anden metrisk metode. Som standard er denne metrik nøjagtighed for klassifikation.

Note
Bemærk

X_test refererer til det datasæt, der kaldes testdatasættet, som bruges til at evaluere en models ydeevne efter træning. Det indeholder features (inputdata). y_test er det tilsvarende sæt af sande labels for X_test. Sammen vurderer de, hvor godt modellen forudsiger nye, usete data.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain more about what an estimator is in Scikit-learn?

What are some common algorithms used for modeling in Scikit-learn?

How does the .score() method differ for regression and classification tasks?

Awesome!

Completion rate improved to 3.13

bookModeller

Stryg for at vise menuen

Grundlæggende principper for datapreprocessering og opbygning af pipelines er nu gennemgået. Næste skridt er modellering.

En model i Scikit-learn er en estimator, der tilbyder metoderne .predict() og .score(), samt .fit() som arves fra alle estimators.

.fit()

Når data er preprocesseret og klar til modellen, er det første trin i opbygningen af en model træning af en model. Dette udføres ved hjælp af .fit(X, y).

Note
Bemærk

For at træne en model til en supervised learning opgave (f.eks. regression, klassifikation), skal både X og y gives til .fit()-metoden.

Ved unsupervised learning opgaver (f.eks. klyngedannelse) kræves der ikke mærkede data, så du kan kun give X-variablen, .fit(X). Det vil dog ikke give en fejl at bruge .fit(X, y). Modellen vil blot ignorere y-variablen.

Under træning lærer en model alt, hvad den behøver for at kunne lave forudsigelser. Hvad modellen lærer, og hvor lang tid træningen tager, afhænger af den valgte algoritme. Til hver opgave findes der adskillige modeller baseret på forskellige algoritmer. Nogle træner langsommere, mens andre træner hurtigere.

Træning er dog generelt den mest tidskrævende del af maskinlæring. Hvis træningssættet er stort, kan det tage minutter, timer eller endda dage at træne en model.

.predict()

Når modellen er trænet ved hjælp af .fit()-metoden, kan den udføre forudsigelser. Forudsigelse foretages blot ved at kalde .predict()-metoden:

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

Normalt ønsker man at forudsige et mål for nye instanser, X_new.

.score()

Metoden .score() anvendes til at måle en trænet models ydeevne. Typisk beregnes den på testdatasættet (de følgende kapitler forklarer, hvad det er). Her er syntaksen:

model.fit(X, y) # Training the model
model.score(X_test, y_test)

Metoden .score() kræver faktiske målte værdier (y_test i eksemplet). Den beregner forudsigelsen for X_test-instanser og sammenligner denne forudsigelse med de sande målte værdier (y_test) ved hjælp af en eller anden metrisk metode. Som standard er denne metrik nøjagtighed for klassifikation.

Note
Bemærk

X_test refererer til det datasæt, der kaldes testdatasættet, som bruges til at evaluere en models ydeevne efter træning. Det indeholder features (inputdata). y_test er det tilsvarende sæt af sande labels for X_test. Sammen vurderer de, hvor godt modellen forudsiger nye, usete data.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 1
some-alt