Summary  
This chapter introduces reinforcement learning as a machine learning paradigm characterized by trial-and-error interaction with an environment to maximize cumulative rewards, contrasting it with supervised and unsupervised learning approaches.  

General domain of usage  
Game playing

**Maskinlæring** består av tre hovedparadigmer, hver egnet for ulike typer problemer. **Forsterkende læring** er ett av dem, sammen med **overvåket læring** og **uovervåket læring**.

## Nøkkelfunksjoner ved RL

- **Ingen merkede data**: RL krever ikke forhåndsdefinerte input-output-par, men lærer i stedet av erfaring;
- **Læring gjennom prøving og feiling**: agenten utforsker ulike handlinger og forbedrer strategien basert på tilbakemelding;
- **Sekvensielle beslutninger**: RL er utviklet for oppgaver der nåværende beslutninger påvirker fremtidige utfall;
- **Maksimering av belønning**: læringsmålet er å optimalisere langsiktige belønninger fremfor kortsiktig korrekthet.

## Sammenligning av de tre ML-paradigmene

## Hvorfor er forsterkningslæring annerledes
Forsterkningslæring har noen likheter med andre paradigmer, men skiller seg ut på grunn av sin unike tilnærming til læringsprosessen.
### Veiledet læring
I **veiledet læring** gir et datasett eksplisitte instruksjoner om hva som er riktig utdata. I **forsterkningslæring** finnes det **ingen eksplisitt veiledning**—agenten må finne ut de beste handlingene gjennom erfaring.

### Uveiledet læring
**Uveiledet læring** finner **skjulte mønstre** i data uten spesifikke mål. **Forsterkningslæring** lærer **gjennom interaksjon** med et miljø for å oppnå et **eksplisitt mål** (f.eks. å vinne et spill).

Reinforcement Learning (RL) er en kraftig gren av maskinlæring som fokuserer på å trene intelligente agenter gjennom interaksjon med sitt miljø. I dette kurset lærer du hvordan agenter gradvis oppdager effektive atferder gjennom prøving og feiling. Du starter med grunnleggende konsepter som Markov beslutningsprosesser og multi-armede banditter, og fortsetter med dynamisk programmering, Monte Carlo-metoder og temporal difference-læring.

Lær hvordan man trener agenter til å ta optimale beslutninger gjennom prøving og feiling. Utforsk det grunnleggende innenfor teori om forsterkende læring. Få praktisk erfaring med å sette opp og kjøre et Gymnasium-miljø.

Forstå utforskning-utnyttelse-avveiningen gjennom multi-armet bandittproblem. Implementering av handlingsverdiestimering, ε-grådig, øvre konfidensgrense og gradient-bandittmetoder. Evaluering av algoritmers ytelse på simulerte belønningsmaksimeringsoppgaver.

Behersk dynamisk programmering for modellbasert RL. Oppdag hvordan Bellman-likninger kan brukes til å evaluere og forbedre policyer. Implementering av policy- og verdiiterasjonsalgoritmer. Utforsk generalisert policyiterasjon som det teoretiske grunnlaget for modellfrie metoder.

Behersk Monte Carlo-metoder for modellfri RL. Estimer verdifunksjoner og utled optimale policyer fra fullstendige episoder. Implementer on-policy og off-policy Monte Carlo-kontrollalgoritmer. Utforsk strategier for utforskning for å optimalisere modellfri læring.

Behersk temporal difference-læring for modellfri RL. Estimeringsmetoder for verdifunksjoner fra delvise episoder ved bruk av TD(0)-oppdateringer. Implementering av on-policy SARSA og off-policy Q-Learning-algoritmer. Utforsk hvordan Monte Carlo-metoder og TD-læring kombineres i n-trinns TD og TD(λ).

RL Kontra Andre Læringsparadigmer

Nøkkelfunksjoner ved RL

Sammenligning av de tre ML-paradigmene

Hvorfor er forsterkningslæring annerledes

Veiledet læring

Uveiledet læring