Aprende Mejora de Políticas | Programación Dinámica

Definición

Mejora de la política es un proceso de optimización de la política basado en las estimaciones actuales de la función de valor.

Nota

Al igual que con la evaluación de la política, la mejora de la política puede trabajar tanto con la función de valor de estado como con la función de valor de acción. Sin embargo, para los métodos de programación dinámica, se utilizará la función de valor de estado.

Ahora que puedes estimar la función de valor de estado para cualquier política, un siguiente paso natural es explorar si existen políticas mejores que la actual. Una forma de hacerlo es considerar tomar una acción diferente $a$ en un estado $s$ , y seguir la política actual después de eso. Si esto te resulta familiar, es porque es similar a cómo definimos la función de valor de acción:

q_\pi(s, a) = \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Si este nuevo valor es mayor que el valor original del estado $v_\pi(s)$ , indica que tomar la acción $a$ en el estado $s$ y luego continuar con la política $\pi$ conduce a mejores resultados que seguir estrictamente la política $\pi$ . Dado que los estados son independientes, es óptimo seleccionar siempre la acción $a$ cada vez que se encuentre el estado $s$ . Por lo tanto, podemos construir una política mejorada $\pi'$ , idéntica a $\pi$ excepto que selecciona la acción $a$ en el estado $s$ , lo que sería superior a la política original $\pi$ .

Teorema de mejora de la política

El razonamiento descrito anteriormente puede generalizarse como el teorema de mejora de la política:

\begin{aligned} &q_\pi(s, \pi'(s)) \ge v_\pi(s) \qquad &\forall s \in S\\ \implies &v_{\pi'}(s) \ge v_\pi(s) \qquad &\forall s \in S \end{aligned}

La demostración de este teorema es relativamente sencilla y se puede lograr mediante una sustitución repetida:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &\le q_\pi(s, \pi'(s))\\ &= \E_{\pi'}[R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]\\ &\le \E_{\pi'}[R_{t+1} + \gamma q_\pi(S_{t+1}, \pi'(S_{t+1})) | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma \E_{\pi'}[R_{t+2} + \gamma v_\pi(S_{t+2})] | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 v_\pi(S_{t+2}) | S_t = s]\\ &...\\ &\le \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= v_{\pi'}(s) \end{aligned}

Estrategia de mejora

Aunque actualizar las acciones para ciertos estados puede conducir a mejoras, es más efectivo actualizar las acciones para todos los estados simultáneamente. Específicamente, para cada estado $s$ , seleccionar la acción $a$ que maximice el valor de acción $q_\pi(s, a)$ :

\begin{aligned} \pi'(s) &\gets \argmax_a q_\pi(s, a)\\ &\gets \argmax_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

donde $\argmax$ (abreviatura de argumento del máximo) es un operador que devuelve el valor de la variable que maximiza una función dada.

La política codiciosa resultante, denotada por $\pi'$ , cumple con las condiciones del teorema de mejora de la política por construcción, garantizando que $\pi'$ es al menos tan buena como la política original $\pi$ , y típicamente mejor.

Si $\pi'$ es tan buena como, pero no mejor que $\pi$ , entonces tanto $\pi'$ como $\pi$ son políticas óptimas, ya que sus funciones de valor son iguales y satisfacen la ecuación de optimalidad de Bellman:

v_\pi(s) = \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 5

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú

Definición

Mejora de la política es un proceso de optimización de la política basado en las estimaciones actuales de la función de valor.

Nota

q_\pi(s, a) = \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Teorema de mejora de la política

El razonamiento descrito anteriormente puede generalizarse como el teorema de mejora de la política:

\begin{aligned} &q_\pi(s, \pi'(s)) \ge v_\pi(s) \qquad &\forall s \in S\\ \implies &v_{\pi'}(s) \ge v_\pi(s) \qquad &\forall s \in S \end{aligned}

La demostración de este teorema es relativamente sencilla y se puede lograr mediante una sustitución repetida:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &\le q_\pi(s, \pi'(s))\\ &= \E_{\pi'}[R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]\\ &\le \E_{\pi'}[R_{t+1} + \gamma q_\pi(S_{t+1}, \pi'(S_{t+1})) | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma \E_{\pi'}[R_{t+2} + \gamma v_\pi(S_{t+2})] | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 v_\pi(S_{t+2}) | S_t = s]\\ &...\\ &\le \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= v_{\pi'}(s) \end{aligned}

Estrategia de mejora

\begin{aligned} \pi'(s) &\gets \argmax_a q_\pi(s, a)\\ &\gets \argmax_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

donde $\argmax$ (abreviatura de argumento del máximo) es un operador que devuelve el valor de la variable que maximiza una función dada.

v_\pi(s) = \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 3. Capítulo 5

Mejora de Políticas

Teorema de mejora de la política

Estrategia de mejora

Awesome!

Mejora de Políticas

Teorema de mejora de la política

Estrategia de mejora