Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

Ajatus **politiikan iteroinnin** taustalla on yksinkertainen:
1. Valitaan jokin alkuperäinen $$\pi$$ ja $$v$$;
2. Käytetään politiikan arviointia päivittämään $$v$$, kunnes se on yhdenmukainen $$\pi$$:n kanssa;
3. Käytetään politiikan parantamista päivittämään $$\pi$$, kunnes se on ahne suhteessa $$v$$:hen;
4. Toistetaan vaiheet 2–3, kunnes konvergenssi saavutetaan.

Tässä menetelmässä **osittaisia päivityksiä ei tehdä**:
- **Politiikan arvioinnin** aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
- **Politiikan parantamisen** aikana politiikka tehdään ahneeksi arvotoimintoa kohtaan.

Pseudokoodin perusteella, mikä ehto saa politiikan iteroinnin ulomman silmukan pysähtymään?

Vahvistusoppiminen (RL) on koneoppimisen tehokas osa-alue, joka keskittyy älykkäiden agenttien kouluttamiseen vuorovaikutuksessa ympäristönsä kanssa. Tällä kurssilla opit, kuinka agentit löytävät vähitellen tehokkaita toimintatapoja kokeilun ja erehdyksen kautta. Aloitat keskeisistä käsitteistä, kuten Markovin päätösprosesseista ja moniaseisista bandiiteista, ja etenet dynaamiseen ohjelmointiin, Monte Carlo -menetelmiin ja ajallisen eron oppimiseen.

Opi, kuinka agentteja koulutetaan tekemään optimaalisia päätöksiä kokeilun ja erehdyksen kautta. Tutustu vahvistusoppimisen teorian perusteisiin. Saat käytännön kokemusta Gymnasium-ympäristön asettamisesta ja suorittamisesta.

Hallitse tutkimisen ja hyödyntämisen välinen tasapaino moniaseisen bandiittiongelman avulla. Toteuta toimenpidearvon estimointi, ε-ahne, yläluottamusraja ja gradienttibandiitti -menetelmät. Arvioi algoritmien suorituskykyä simuloiduissa palkkioiden maksimointitehtävissä.

Hallitse dynaaminen ohjelmointi mallipohjaisessa RL:ssä. Opi, kuinka Bellmanin yhtälöitä voidaan käyttää politiikkojen arviointiin ja parantamiseen. Toteuta politiikka- ja arvoiterointialgoritmit. Tutustu yleistettyyn politiikkaiterointiin mallittomien menetelmien teoreettisena perustana.

Monte Carlo -menetelmien hallinta mallittomassa RL:ssä. Arvofunktioiden estimointi ja optimaalisten politiikkojen johtaminen täydellisistä episodeista. On-policy- ja off-policy-Monte Carlo -ohjausalgoritmien toteutus. Tutkimusstrategioiden löytäminen mallittoman oppimisen optimointiin.

Aikaisen eron oppimisen hallinta mallittomassa RL:ssä. Arvofunktioiden estimointi osittaisista episodeista TD(0)-päivityksiä käyttäen. On-policy SARSA- ja off-policy Q-Learning -algoritmien toteutus. Monte Carlo -menetelmien ja TD-oppimisen yhdistäminen n-askeleen TD:ssä ja TD(λ):ssa.

Politiikan Iterointi

Pseudokoodi