Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Modeller | Modellering
ML Introduktion med Scikit-learn

bookModeller

De grundlæggende principper for datapreprocessering og opbygning af pipelines er nu gennemgået. Næste skridt er modellering.

En model i Scikit-learn er en estimator, der tilbyder metoderne .predict() og .score(), samt .fit() som arves fra alle estimators.

.fit()

Når dataene er forbehandlet og klar til modellen, er det første trin i opbygningen af en model træning af en model. Dette udføres ved hjælp af .fit(X, y).

Note
Bemærk

For at træne en model til en supervised learning opgave (f.eks. regression, klassifikation), skal både X og y gives til .fit()-metoden.

Ved unsupervised learning opgaver (f.eks. klyngedannelse) kræves der ikke mærkede data, så du kan kun give variablen X, .fit(X). Det vil dog ikke give en fejl at bruge .fit(X, y). Modellen vil blot ignorere variablen y.

Under træning lærer en model alt, hvad der er nødvendigt for at kunne lave forudsigelser. Hvad modellen lærer, og hvor lang tid træningen tager, afhænger af den valgte algoritme. Til hver opgave findes der adskillige modeller baseret på forskellige algoritmer. Nogle træner langsommere, mens andre træner hurtigere.

Træning er dog generelt den mest tidskrævende del af maskinlæring. Hvis træningssættet er stort, kan det tage minutter, timer eller endda dage at træne en model.

.predict()

Når modellen er trænet ved hjælp af .fit()-metoden, kan den udføre forudsigelser. Forudsigelse foretages ved blot at kalde .predict()-metoden:

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

Normalt ønsker man at forudsige et mål for nye instanser, X_new.

.score()

Metoden .score() anvendes til at måle en trænet models ydeevne. Den beregnes typisk på testdatasættet (de følgende kapitler forklarer, hvad det er). Her er syntaksen:

model.fit(X, y) # Training the model
model.score(X_test, y_test)

Metoden .score() kræver faktiske målte værdier (y_test i eksemplet). Den beregner forudsigelsen for X_test-instanser og sammenligner denne forudsigelse med de sande mål (y_test) ved hjælp af en eller anden metrisk metode. Som standard er denne metrik nøjagtighed for klassifikation.

Note
Bemærk

X_test refererer til den delmængde af datasættet, kendt som testdatasættet, der bruges til at evaluere en models ydeevne efter træning. Det indeholder features (inputdata). y_test er den tilsvarende delmængde af sande labels for X_test. Sammen vurderer de, hvor godt modellen forudsiger nye, usete data.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain more about what an estimator is in Scikit-learn?

What are some common algorithms used for modeling in Scikit-learn?

How does the .score() method differ for regression and classification tasks?

Awesome!

Completion rate improved to 3.13

bookModeller

Stryg for at vise menuen

De grundlæggende principper for datapreprocessering og opbygning af pipelines er nu gennemgået. Næste skridt er modellering.

En model i Scikit-learn er en estimator, der tilbyder metoderne .predict() og .score(), samt .fit() som arves fra alle estimators.

.fit()

Når dataene er forbehandlet og klar til modellen, er det første trin i opbygningen af en model træning af en model. Dette udføres ved hjælp af .fit(X, y).

Note
Bemærk

For at træne en model til en supervised learning opgave (f.eks. regression, klassifikation), skal både X og y gives til .fit()-metoden.

Ved unsupervised learning opgaver (f.eks. klyngedannelse) kræves der ikke mærkede data, så du kan kun give variablen X, .fit(X). Det vil dog ikke give en fejl at bruge .fit(X, y). Modellen vil blot ignorere variablen y.

Under træning lærer en model alt, hvad der er nødvendigt for at kunne lave forudsigelser. Hvad modellen lærer, og hvor lang tid træningen tager, afhænger af den valgte algoritme. Til hver opgave findes der adskillige modeller baseret på forskellige algoritmer. Nogle træner langsommere, mens andre træner hurtigere.

Træning er dog generelt den mest tidskrævende del af maskinlæring. Hvis træningssættet er stort, kan det tage minutter, timer eller endda dage at træne en model.

.predict()

Når modellen er trænet ved hjælp af .fit()-metoden, kan den udføre forudsigelser. Forudsigelse foretages ved blot at kalde .predict()-metoden:

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

Normalt ønsker man at forudsige et mål for nye instanser, X_new.

.score()

Metoden .score() anvendes til at måle en trænet models ydeevne. Den beregnes typisk på testdatasættet (de følgende kapitler forklarer, hvad det er). Her er syntaksen:

model.fit(X, y) # Training the model
model.score(X_test, y_test)

Metoden .score() kræver faktiske målte værdier (y_test i eksemplet). Den beregner forudsigelsen for X_test-instanser og sammenligner denne forudsigelse med de sande mål (y_test) ved hjælp af en eller anden metrisk metode. Som standard er denne metrik nøjagtighed for klassifikation.

Note
Bemærk

X_test refererer til den delmængde af datasættet, kendt som testdatasættet, der bruges til at evaluere en models ydeevne efter træning. Det indeholder features (inputdata). y_test er den tilsvarende delmængde af sande labels for X_test. Sammen vurderer de, hvor godt modellen forudsiger nye, usete data.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 1
some-alt