Lære Modell, Policy og Verdier | Kjerneprinsipper i RL

Modell

Definisjon

En modell er en representasjon av miljøet som definerer overgangssannsynligheter mellom tilstander og forventede belønninger for utførte handlinger.

Forsterkningslæringsalgoritmer kan deles inn i to kategorier:

Modellbasert: I denne tilnærmingen lærer agenten eller har tilgang til en modell av miljøet, noe som gjør det mulig å simulere fremtidige tilstander og belønninger før handlinger utføres. Dette gjør det mulig for agenten å planlegge og ta mer informerte beslutninger;
Modellfri: I denne tilnærmingen har ikke agenten en direkte modell av miljøet. Den lærer utelukkende gjennom interaksjon med miljøet, og er avhengig av prøving og feiling for å finne de beste handlingene.

I praksis er miljøer med eksplisitte modeller uvanlige, noe som gjør det vanskelig for agenter å basere seg på modellbaserte strategier. Som et resultat har modellfrie tilnærminger blitt mer utbredt og grundig studert innen forskning og anvendelser av forsterkningslæring.

Politikk

Definisjon

Politikk $\pi$ er strategien en agent følger for å bestemme sine handlinger basert på nåværende tilstand i miljøet.

Det finnes to typer politikk:

Deterministisk politikk: agenten velger alltid den samme handlingen for en gitt tilstand;
Stokastisk politikk: agenten velger handlinger basert på sannsynlighetsfordelinger.

Under læringsprosessen er agentens mål å finne en optimal policy. En optimal policy er en som maksimerer den forventede avkastningen, og veileder agenten til å ta de best mulige beslutningene i enhver gitt tilstand.

Verdi-funksjoner

Verdi-funksjoner er avgjørende for å forstå hvordan en agent vurderer potensialet til en bestemt tilstand eller tilstand-handlingspar. De brukes til å estimere fremtidige forventede belønninger, og hjelper agenten med å ta informerte beslutninger.

Tilstandsverdifunksjon

Definisjon

Tilstandsverdifunksjon $V$ (eller $v$ ) er en funksjon som gir forventet avkastning ved å være i en spesifikk tilstand og følge en bestemt policy. Den hjelper med å vurdere hvor ønskelige tilstandene er.

Verdien til en tilstand kan uttrykkes matematisk slik:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilstands-handlingsverdifunksjon

Definisjon

Tilstands-handlingsverdifunksjon $Q$ (eller $q$ ) er en funksjon som gir den forventede avkastningen av å utføre en spesifikk handling i en gitt tilstand og deretter følge en spesifikk policy. Den hjelper med å evaluere hvor ønskelige handlinger er i ulike tilstander.

Tilstands-handlingsverdifunksjon kalles ofte handlingsverdifunksjon.

Verdien av en handling kan uttrykkes matematisk slik:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Forholdet mellom modell, policy og verdifunksjoner

Begrepene modell, policy og verdifunksjoner er nært knyttet sammen og danner et omfattende rammeverk for kategorisering av RL-algoritmer. Dette rammeverket defineres av to hovedakser:

Læringsmål: denne aksen representerer spekteret av RL-algoritmer basert på deres avhengighet av verdifunksjoner, policy-funksjoner eller en kombinasjon av begge;
Modellbruk: denne aksen skiller algoritmer basert på om de benytter en modell av miljøet eller kun lærer gjennom interaksjon.

Ved å kombinere disse dimensjonene kan vi klassifisere RL-algoritmer i ulike kategorier, hver med sine egne egenskaper og ideelle bruksområder. Å forstå disse sammenhengene hjelper med å velge riktig algoritme for spesifikke oppgaver, og sikrer effektiv læring og beslutningsprosesser.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain the difference between model-based and model-free reinforcement learning in more detail?

What is the significance of value functions in reinforcement learning?

How do deterministic and stochastic policies affect an agent's behavior?

Sveip for å vise menyen

Modell

Definisjon

En modell er en representasjon av miljøet som definerer overgangssannsynligheter mellom tilstander og forventede belønninger for utførte handlinger.

Forsterkningslæringsalgoritmer kan deles inn i to kategorier:

Modellbasert: I denne tilnærmingen lærer agenten eller har tilgang til en modell av miljøet, noe som gjør det mulig å simulere fremtidige tilstander og belønninger før handlinger utføres. Dette gjør det mulig for agenten å planlegge og ta mer informerte beslutninger;
Modellfri: I denne tilnærmingen har ikke agenten en direkte modell av miljøet. Den lærer utelukkende gjennom interaksjon med miljøet, og er avhengig av prøving og feiling for å finne de beste handlingene.

Politikk

Definisjon

Politikk $\pi$ er strategien en agent følger for å bestemme sine handlinger basert på nåværende tilstand i miljøet.

Det finnes to typer politikk:

Deterministisk politikk: agenten velger alltid den samme handlingen for en gitt tilstand;
Stokastisk politikk: agenten velger handlinger basert på sannsynlighetsfordelinger.

Verdi-funksjoner

Tilstandsverdifunksjon

Definisjon

Verdien til en tilstand kan uttrykkes matematisk slik:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilstands-handlingsverdifunksjon

Definisjon

Tilstands-handlingsverdifunksjon kalles ofte handlingsverdifunksjon.

Verdien av en handling kan uttrykkes matematisk slik:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Forholdet mellom modell, policy og verdifunksjoner

Begrepene modell, policy og verdifunksjoner er nært knyttet sammen og danner et omfattende rammeverk for kategorisering av RL-algoritmer. Dette rammeverket defineres av to hovedakser:

Læringsmål: denne aksen representerer spekteret av RL-algoritmer basert på deres avhengighet av verdifunksjoner, policy-funksjoner eller en kombinasjon av begge;
Modellbruk: denne aksen skiller algoritmer basert på om de benytter en modell av miljøet eller kun lærer gjennom interaksjon.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5