 Politiikan Iterointi
Politiikan Iterointi
Ajatus politiikan iteroinnin taustalla on yksinkertainen:
- Valitaan jokin alkuperäinen π ja v;
- Käytetään politiikan arviointia päivittämään v, kunnes se on yhdenmukainen π:n kanssa;
- Käytetään politiikan parantamista päivittämään π, kunnes se on ahne suhteessa v:hen;
- Toistetaan vaiheet 2–3, kunnes konvergenssi saavutetaan.
Tässä menetelmässä osittaisia päivityksiä ei tehdä:
- Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
- Politiikan parantamisen aikana politiikka tehdään ahneeksi arvotoimintoa kohtaan.
Pseudokoodi
Oliko kaikki selvää?
Kiitos palautteestasi!
Osio 3. Luku 7
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
What does it mean for a policy to be "greedy" with respect to a value function?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7 Politiikan Iterointi
Politiikan Iterointi
Pyyhkäise näyttääksesi valikon
Ajatus politiikan iteroinnin taustalla on yksinkertainen:
- Valitaan jokin alkuperäinen π ja v;
- Käytetään politiikan arviointia päivittämään v, kunnes se on yhdenmukainen π:n kanssa;
- Käytetään politiikan parantamista päivittämään π, kunnes se on ahne suhteessa v:hen;
- Toistetaan vaiheet 2–3, kunnes konvergenssi saavutetaan.
Tässä menetelmässä osittaisia päivityksiä ei tehdä:
- Politiikan arvioinnin aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
- Politiikan parantamisen aikana politiikka tehdään ahneeksi arvotoimintoa kohtaan.
Pseudokoodi
Oliko kaikki selvää?
Kiitos palautteestasi!
Osio 3. Luku 7