Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Sammanfattning av Modellering | Modellering
ML-introduktion Med Scikit-learn

bookSammanfattning av Modellering

Du har nu lärt dig hur man bygger en modell, integrerar den i en pipeline och justerar hyperparametrar. Två utvärderingsmetoder har också behandlats: train-test-split och korsvalidering.

Nästa steg är att kombinera modellutvärdering med hyperparameterjustering med hjälp av GridSearchCV eller RandomizedSearchCV.

Note
Notering

Eftersom vår datamängd är liten kommer vi att använda GridSearchCV, men allt som nämns nedan gäller även för RandomizedSearchCV.

Målet är att uppnå högsta korsvalideringspoäng på datamängden, eftersom korsvalidering är mer stabil och mindre beroende av hur datan delas upp än train-test-metoden.

GridSearchCV är särskilt utformad för detta syfte: den identifierar de hyperparametrar som ger bästa korsvalideringspoäng och producerar en finjusterad modell som presterar optimalt på träningsdatan.

Attributet .best_score_ lagrar den högsta korsvalideringspoängen som hittats under sökningen.

Note
Notera

De bästa hyperparametrarna för ett specifikt dataset är inte nödvändigtvis de bästa generellt. Om ny data läggs till kan de optimala hyperparametrarna ändras.

Därför kan det uppnådda värdet för .best_score_ vara högre än prestandan på helt osedd data, eftersom hyperparametrarna kanske inte generaliserar lika bra utanför träningsdatasetet.

Vanligtvis delas datasetet först upp i tränings- och testmängder. Korsvalidering tillämpas sedan på träningsmängden för att finjustera modellen och identifiera den bästa konfigurationen. Slutligen utvärderas den optimerade modellen på testmängden, som innehåller helt osedd data, för att bedöma dess prestanda i verkliga situationer.

Sammanfattningsvis består hela arbetsflödet av:

  1. Förbehandling av data;
  2. Uppdelning av datasetet i tränings- och testmängder;
  3. Användning av korsvalidering på träningsmängden för att hitta den bäst presterande modellen;
  4. Utvärdering av den modellen på testmängden.
Note
Studera vidare

Det tredje steget innebär vanligtvis att testa flera algoritmer och justera deras hyperparametrar för att identifiera det bästa alternativet. För enkelhetens skull användes endast en algoritm i denna kurs.

Innan du går vidare till den slutliga utmaningen är det viktigt att notera att korsvalidering inte är den enda metoden för att finjustera modeller. När dataseten blir större tar det mer tid att beräkna korsvalideringspoäng, och den vanliga train-test-uppdelningen ger mer stabilitet tack vare den ökade storleken på testuppsättningen.

Därför delas stora dataset ofta in i tre uppsättningar: en träningsuppsättning, en valideringsuppsättning och en testuppsättning. Modellen tränas på träningsuppsättningen och utvärderas på valideringsuppsättningen för att välja den modell eller de hyperparametrar som presterar bäst.

Detta urval använder valideringsuppsättningens poäng istället för korsvalideringspoäng. Slutligen utvärderas den valda modellen på testuppsättningen, som består av helt okända data, för att verifiera dess prestanda.

Penguins-datasetet är litet, med endast 342 instanser. På grund av denna begränsade storlek kommer korsvalideringspoängen att användas för utvärdering i nästa kapitel.

question mark

Varför är korsvalidering särskilt värdefull för hyperparametertuning i mindre dataset, till skillnad från större dataset där train-test-split kan föredras?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 9

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 3.13

bookSammanfattning av Modellering

Svep för att visa menyn

Du har nu lärt dig hur man bygger en modell, integrerar den i en pipeline och justerar hyperparametrar. Två utvärderingsmetoder har också behandlats: train-test-split och korsvalidering.

Nästa steg är att kombinera modellutvärdering med hyperparameterjustering med hjälp av GridSearchCV eller RandomizedSearchCV.

Note
Notering

Eftersom vår datamängd är liten kommer vi att använda GridSearchCV, men allt som nämns nedan gäller även för RandomizedSearchCV.

Målet är att uppnå högsta korsvalideringspoäng på datamängden, eftersom korsvalidering är mer stabil och mindre beroende av hur datan delas upp än train-test-metoden.

GridSearchCV är särskilt utformad för detta syfte: den identifierar de hyperparametrar som ger bästa korsvalideringspoäng och producerar en finjusterad modell som presterar optimalt på träningsdatan.

Attributet .best_score_ lagrar den högsta korsvalideringspoängen som hittats under sökningen.

Note
Notera

De bästa hyperparametrarna för ett specifikt dataset är inte nödvändigtvis de bästa generellt. Om ny data läggs till kan de optimala hyperparametrarna ändras.

Därför kan det uppnådda värdet för .best_score_ vara högre än prestandan på helt osedd data, eftersom hyperparametrarna kanske inte generaliserar lika bra utanför träningsdatasetet.

Vanligtvis delas datasetet först upp i tränings- och testmängder. Korsvalidering tillämpas sedan på träningsmängden för att finjustera modellen och identifiera den bästa konfigurationen. Slutligen utvärderas den optimerade modellen på testmängden, som innehåller helt osedd data, för att bedöma dess prestanda i verkliga situationer.

Sammanfattningsvis består hela arbetsflödet av:

  1. Förbehandling av data;
  2. Uppdelning av datasetet i tränings- och testmängder;
  3. Användning av korsvalidering på träningsmängden för att hitta den bäst presterande modellen;
  4. Utvärdering av den modellen på testmängden.
Note
Studera vidare

Det tredje steget innebär vanligtvis att testa flera algoritmer och justera deras hyperparametrar för att identifiera det bästa alternativet. För enkelhetens skull användes endast en algoritm i denna kurs.

Innan du går vidare till den slutliga utmaningen är det viktigt att notera att korsvalidering inte är den enda metoden för att finjustera modeller. När dataseten blir större tar det mer tid att beräkna korsvalideringspoäng, och den vanliga train-test-uppdelningen ger mer stabilitet tack vare den ökade storleken på testuppsättningen.

Därför delas stora dataset ofta in i tre uppsättningar: en träningsuppsättning, en valideringsuppsättning och en testuppsättning. Modellen tränas på träningsuppsättningen och utvärderas på valideringsuppsättningen för att välja den modell eller de hyperparametrar som presterar bäst.

Detta urval använder valideringsuppsättningens poäng istället för korsvalideringspoäng. Slutligen utvärderas den valda modellen på testuppsättningen, som består av helt okända data, för att verifiera dess prestanda.

Penguins-datasetet är litet, med endast 342 instanser. På grund av denna begränsade storlek kommer korsvalideringspoängen att användas för utvärdering i nästa kapitel.

question mark

Varför är korsvalidering särskilt värdefull för hyperparametertuning i mindre dataset, till skillnad från större dataset där train-test-split kan föredras?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 9
some-alt