Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Overtilpasning | Velge Den Beste Modellen
Practice
Projects
Quizzes & Challenges
Quizzes
Challenges
/
Lineær Regresjon med Python

bookOvertilpasning

Overfitting

Vurder de to regresjonslinjene nedenfor. Hvilken er best?

Målingene antyder at den andre modellen er bedre, så vi bruker den til å predikere X_new = [0.2, 0.5, 2.7]. Men etter å ha sammenlignet prediksjonene med faktiske verdier, presterer den første modellen bedre.

Dette skjer fordi den andre modellen overtilpasser — den er for kompleks og tilpasser seg treningsdataene for tett, og klarer ikke å generalisere til nye tilfeller.

Underfitting

Underfitting oppstår når en modell er for enkel til å tilpasse selv treningsdataene, noe som også fører til dårlige prediksjoner på ukjente data.

Vi kan derfor forsøke å avgjøre om modellen underfitter eller overfitter visuelt.

Siden vi ikke kan visualisere høy-dimensjonale modeller, trenger vi en annen metode for å oppdage overfitting eller underfitting.

Trenings- og testdeling

For å estimere ytelse på ukjente data, deler vi datasettet i et treningssett og et testsett med kjente målverdier.

Vi trener på treningssettet og beregner måleverdier for både trenings- og testsett for å sammenligne ytelse.

Delingen må være tilfeldig. Vanligvis går 20–30 % til testsettet, og 70–80 % brukes til trening. Scikit-learn tilbyr en enkel måte å gjøre dette på.

For eksempel, for å dele treningssettet i 70 % trening/30 % test, kan du bruke følgende kode:

from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
question-icon

Basert på MSE-verdiene for modellene, avgjør om de overtilpasser/undertilpasser treningssettet (datasettet er det samme).

Model 1: Training set's MSE=0.2, Test set's MSE=0.215 .
Model 2: Training set's MSE=0.14, Test set's MSE=0.42
.
Model 3: Training set's MSE=0.5, Test set's MSE=0.47
.

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 2

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain more about how overfitting and underfitting affect model performance?

What are some ways to prevent overfitting in machine learning models?

How do I choose the right train-test split ratio for my dataset?

bookOvertilpasning

Sveip for å vise menyen

Overfitting

Vurder de to regresjonslinjene nedenfor. Hvilken er best?

Målingene antyder at den andre modellen er bedre, så vi bruker den til å predikere X_new = [0.2, 0.5, 2.7]. Men etter å ha sammenlignet prediksjonene med faktiske verdier, presterer den første modellen bedre.

Dette skjer fordi den andre modellen overtilpasser — den er for kompleks og tilpasser seg treningsdataene for tett, og klarer ikke å generalisere til nye tilfeller.

Underfitting

Underfitting oppstår når en modell er for enkel til å tilpasse selv treningsdataene, noe som også fører til dårlige prediksjoner på ukjente data.

Vi kan derfor forsøke å avgjøre om modellen underfitter eller overfitter visuelt.

Siden vi ikke kan visualisere høy-dimensjonale modeller, trenger vi en annen metode for å oppdage overfitting eller underfitting.

Trenings- og testdeling

For å estimere ytelse på ukjente data, deler vi datasettet i et treningssett og et testsett med kjente målverdier.

Vi trener på treningssettet og beregner måleverdier for både trenings- og testsett for å sammenligne ytelse.

Delingen må være tilfeldig. Vanligvis går 20–30 % til testsettet, og 70–80 % brukes til trening. Scikit-learn tilbyr en enkel måte å gjøre dette på.

For eksempel, for å dele treningssettet i 70 % trening/30 % test, kan du bruke følgende kode:

from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
question-icon

Basert på MSE-verdiene for modellene, avgjør om de overtilpasser/undertilpasser treningssettet (datasettet er det samme).

Model 1: Training set's MSE=0.2, Test set's MSE=0.215 .
Model 2: Training set's MSE=0.14, Test set's MSE=0.42
.
Model 3: Training set's MSE=0.5, Test set's MSE=0.47
.

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 2
some-alt