Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

La idea detrás de la **iteración de políticas** es simple:
1. Tomar una $$\pi$$ y $$v$$ iniciales;
2. Utilizar la evaluación de políticas para actualizar $$v$$ hasta que sea consistente con $$\pi$$;
3. Utilizar la mejora de políticas para actualizar $$\pi$$ hasta que sea codiciosa respecto a $$v$$;
4. Repetir los pasos 2-3 hasta la convergencia.

En este método, **no hay actualizaciones parciales**:
- Durante la **evaluación de políticas**, los valores se actualizan para cada estado, hasta que sean consistentes con la política actual;
- Durante la **mejora de políticas**, la política se vuelve codiciosa respecto a la función de valor.

Según el pseudocódigo, ¿qué condición hace que el ciclo externo de la iteración de políticas se detenga?

El Aprendizaje por Refuerzo (RL) es una rama poderosa del aprendizaje automático enfocada en entrenar agentes inteligentes mediante la interacción con su entorno. En este curso, aprenderás cómo los agentes descubren gradualmente comportamientos efectivos a través de la prueba y error. Comenzando con conceptos fundamentales como los procesos de decisión de Markov y los bandidos de múltiples brazos, avanzarás por programación dinámica, métodos de Monte Carlo y aprendizaje por diferencia temporal.

Descubra cómo entrenar agentes para tomar decisiones óptimas mediante prueba y error.
Explore los conceptos esenciales de la teoría de aprendizaje por refuerzo.
Obtenga experiencia práctica configurando y ejecutando un entorno Gymnasium.

Domina el equilibrio entre exploración y explotación mediante el problema del bandido de varios brazos. Implementación de estimación de valor de acción, métodos ε-greedy, límite superior de confianza y bandido de gradiente. Evaluación del rendimiento de los algoritmos en tareas simuladas de maximización de recompensas.

Dominio de la programación dinámica para RL basado en modelos.
Descubrimiento de cómo las ecuaciones de Bellman pueden utilizarse para evaluar y mejorar políticas.
Implementación de algoritmos de iteración de políticas y de valores.
Exploración de la iteración generalizada de políticas como fundamento teórico para métodos sin modelo.

Domina los métodos de Monte Carlo para RL sin modelo. Estimación de funciones de valor y derivación de políticas óptimas a partir de episodios completos. Implementación de algoritmos de control Monte Carlo en política y fuera de política. Descubrimiento de estrategias de exploración para optimizar el aprendizaje sin modelo.

Dominio del aprendizaje por diferencia temporal para RL sin modelo. Estimación de funciones de valor a partir de episodios parciales utilizando actualizaciones TD(0). Implementación de los algoritmos SARSA en política y Q-Learning fuera de política. Exploración de la combinación de métodos Monte Carlo y aprendizaje TD en TD de n pasos y TD(λ).

Iteración de Políticas

Pseudocódigo