Вивчайте Інкрементні Реалізації

Зберігання кожного повернення для кожної пари стан-дія може швидко вичерпати пам'ять і суттєво збільшити час обчислень — особливо у великих середовищах. Це обмеження впливає як на on-policy, так і на off-policy алгоритми керування Монте-Карло. Щоб вирішити цю проблему, застосовуються інкрементальні стратегії обчислень, подібні до тих, що використовуються в алгоритмах багаторуких бандитів. Ці методи дозволяють оновлювати оцінки значень у реальному часі, без необхідності зберігати всю історію повернень.

On-Policy Monte Carlo Control

Для on-policy методу стратегія оновлення подібна до стратегії, що використовується в алгоритмах MAB:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

де $\displaystyle \alpha = \frac{1}{N(s, a)}$ для оцінки середнього значення. Єдині значення, які потрібно зберігати — це поточні оцінки значень дій $Q(s, a)$ та кількість відвідувань пари стан-дія $(s, a)$ $N(s, a)$ .

Псевдокод

Off-Policy Monte Carlo Control

Для off-policy методу з звичайним імпортанс-семплінгом усе відбувається так само, як і для on-policy методу.

Більш цікава ситуація виникає з зваженим імпортанс-семплінгом. Рівняння виглядає так само:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

але $\displaystyle \alpha = \frac{1}{N(s, a)}$ не можна використовувати, оскільки:

Кожне повернення зважується за допомогою $\rho$ ;
Остаточна сума ділиться не на $N(s, a)$ , а на $\sum \rho(s, a)$ .

Значення $\alpha$ , яке можна використати у цьому випадку, дорівнює $\displaystyle \frac{W}{C(s,a)}$ , де:

$W$ — це $\rho$ для поточної траєкторії;
$C(s, a)$ дорівнює $\sum \rho(s, a)$ .

І кожного разу, коли пара стан-дія $(s, a)$ зустрічається, $\rho$ поточної траєкторії додається до $C(s, a)$ :

C(s, a) \gets C(s, a) + W

Псевдокод

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 4. Розділ 7

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the difference between on-policy and off-policy Monte Carlo control?

How does incremental computation improve efficiency in Monte Carlo methods?

Can you clarify how the weighted importance sampling update works?

Awesome!

Completion rate improved to 2.7

Свайпніть щоб показати меню

On-Policy Monte Carlo Control

Для on-policy методу стратегія оновлення подібна до стратегії, що використовується в алгоритмах MAB:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

Псевдокод

Off-Policy Monte Carlo Control

Для off-policy методу з звичайним імпортанс-семплінгом усе відбувається так само, як і для on-policy методу.

Більш цікава ситуація виникає з зваженим імпортанс-семплінгом. Рівняння виглядає так само:

Q(s, a) \gets Q(s, a) + \alpha (G - Q(s, a))

але $\displaystyle \alpha = \frac{1}{N(s, a)}$ не можна використовувати, оскільки:

Кожне повернення зважується за допомогою $\rho$ ;
Остаточна сума ділиться не на $N(s, a)$ , а на $\sum \rho(s, a)$ .

Значення $\alpha$ , яке можна використати у цьому випадку, дорівнює $\displaystyle \frac{W}{C(s,a)}$ , де:

$W$ — це $\rho$ для поточної траєкторії;
$C(s, a)$ дорівнює $\sum \rho(s, a)$ .

І кожного разу, коли пара стан-дія $(s, a)$ зустрічається, $\rho$ поточної траєкторії додається до $C(s, a)$ :

C(s, a) \gets C(s, a) + W

Псевдокод

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 4. Розділ 7