Oppiskele TD(0): Arvotoiminnon Estimointi

TD-oppimisen yksinkertaisin versio on nimeltään TD(0). Se päivittää tilan arvon välittömän palkkion ja seuraavan tilan arvioidun arvon perusteella. Kyseessä on yksiaskelinen TD-menetelmä.

Päivityssääntö

Kun tila on $S_t$ , palkkio $R_{t+1}$ ja seuraava tila $S_{t+1}$ , päivityssääntö on seuraava:

V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

missä

$\alpha$ on oppimisnopeus eli askelkoko;
$\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t)$ on TD-virhe.

Intuitio

Tilaarvofunktio $v_\pi$ voidaan määritellä ja laajentaa seuraavasti:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Tämä antaa $\delta_t$ :n ensimmäisen osan — koetun tuoton $R_{t+1} + \gamma V(S_{t+1})$ . Ja $\delta_t$ :n toinen osa on odotettu tuotto $V(S_t)$ . TD-virhe $\delta_t$ on siis havaittavissa oleva ero sen välillä, mitä todella tapahtui ja mitä aiemmin oletettiin tapahtuvan. Päivityssääntö säätää aiempaa arviota hieman jokaisella askeleella, tuoden sen lähemmäs totuutta.

TD(0) vs Monte Carlo -estimaatio

Sekä TD(0) että Monte Carlo -estimaatio käyttävät otantakokemusta tilan arvofunktion $v_\pi(s)$ arvioimiseen politiikalle $\pi$ . Vakioiden konvergenssiehtojen vallitessa molemmat lähestymistavat konvergoituvat todelliseen $v_\pi(s)$ :ään, kun jokaisen tilan vierailujen määrä lähestyy ääretöntä. Käytännössä kuitenkin käytettävissä oleva data on aina rajallista, ja nämä kaksi menetelmää eroavat merkittävästi siinä, miten ne hyödyntävät dataa ja kuinka nopeasti ne oppivat.

Harha–vaihtelu -tasapaino

Bias–variance-vaihtokaupan näkökulmasta:

Monte Carlo -estimaatio odottaa jakson päättymistä ja käyttää sitten koko tuottoa arvojen päivittämiseen. Tämä tuottaa harhattomia estimaatteja — tuotot heijastavat todellista jakaumaa — mutta ne voivat vaihdella voimakkaasti, erityisesti pitkissä tai erittäin stokastisissa tehtävissä. Korkea varianssi tarkoittaa, että tarvitaan useita jaksoja, jotta kohina tasoittuu ja arvion vakaus saavutetaan.

TD(0) käyttää bootstrap-menetelmää yhdistämällä jokaisen yhden askeleen palkinnon seuraavan tilan nykyiseen arvoestimaattiin. Tämä tuo mukanaan harhaa — varhaiset päivitykset perustuvat epätäydellisiin arvioihin — mutta pitää varianssin pienenä, koska jokainen päivitys perustuu pieneen, inkrementaaliseen virheeseen. Alhaisempi varianssi mahdollistaa palkkiotiedon nopeamman leviämisen tilojen välillä, vaikka alkuharha voikin hidastaa konvergenssia.

Datan oppiminen vs Mallin oppiminen

Toinen tapa tarkastella näitä kahta menetelmää on analysoida, mitä ne todella oppivat:

Monte Carlo -estimaatio oppii suoraan havaituista tuotoista, käytännössä sovittaen arvoestimaattinsa niihin tiettyihin jaksoihin, jotka se on nähnyt. Tämä tarkoittaa, että se minimoi virheen näillä harjoittelupoluilla, mutta koska se ei koskaan rakenna eksplisiittistä näkemystä siitä, miten tilat johtavat toisiinsa, se voi olla heikko yleistämään uusiin tai hieman erilaisiin tilanteisiin.

TD(0) puolestaan käyttää bootstrap-menetelmää jokaisessa yhden askeleen siirtymässä, yhdistäen välittömän palkinnon seuraavan tilan arvoestimaattiin. Näin se käytännössä tallentaa tilojen väliset suhteet — implisiittisen mallin ympäristön dynamiikasta. Tämä mallimainen ymmärrys mahdollistaa TD(0):lle paremman yleistämisen näkemättömiin siirtymiin, mikä usein johtaa tarkempiin arvoestimaatteihin uudella datalla.

Pseudokoodi

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 5. Luku 2

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Pyyhkäise näyttääksesi valikon