Iteración de Políticas
La idea detrás de la iteración de políticas es simple:
- Tomar una π y v iniciales;
- Utilizar la evaluación de políticas para actualizar v hasta que sea consistente con π;
- Utilizar la mejora de políticas para actualizar π hasta que sea codiciosa respecto a v;
- Repetir los pasos 2-3 hasta la convergencia.
En este método, no hay actualizaciones parciales:
- Durante la evaluación de políticas, los valores se actualizan para cada estado, hasta que sean consistentes con la política actual;
- Durante la mejora de políticas, la política se vuelve codiciosa respecto a la función de valor.
Pseudocódigo
¿Todo estuvo claro?
¡Gracias por tus comentarios!
Sección 3. Capítulo 7
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
What does it mean for a policy to be "greedy" with respect to a value function?
Can you walk me through the pseudocode step by step?
Genial!
Completion tasa mejorada a 2.7
Iteración de Políticas
Desliza para mostrar el menú
La idea detrás de la iteración de políticas es simple:
- Tomar una π y v iniciales;
- Utilizar la evaluación de políticas para actualizar v hasta que sea consistente con π;
- Utilizar la mejora de políticas para actualizar π hasta que sea codiciosa respecto a v;
- Repetir los pasos 2-3 hasta la convergencia.
En este método, no hay actualizaciones parciales:
- Durante la evaluación de políticas, los valores se actualizan para cada estado, hasta que sean consistentes con la política actual;
- Durante la mejora de políticas, la política se vuelve codiciosa respecto a la función de valor.
Pseudocódigo
¿Todo estuvo claro?
¡Gracias por tus comentarios!
Sección 3. Capítulo 7