Policy Iteration
メニューを表示するにはスワイプしてください
The idea behind policy iteration is simple:
- Take some initial π and v;
- Use policy evaluation to update v until it's consistent with π;
- Use policy improvement to update π until it's greedy with respect to v;
- Repeat steps 2-3 until convergence.
In this method, there are no partial updates:
- During policy evaluation, values are updated for each state, until they are consistent with current policy;
- During policy improvement, policy is made greedy with respect to value function.
Pseudocode
すべて明確でしたか?
フィードバックありがとうございます!
セクション 3. 章 7
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 3. 章 7