Summary  
Value iteration is an algorithm for solving Markov Decision Processes by merging policy evaluation and improvement into a single update: it repeatedly applies the Bellman optimality equation to the value function until it converges, then derives the optimal policy.  

General domain of usage  
Reinforcement learning

Embora a **iteração de política** seja uma abordagem eficaz para resolver **MDPs**, ela apresenta uma desvantagem significativa: cada iteração envolve uma etapa separada de **avaliação de política**. Quando a **avaliação de política** é realizada **iterativamente**, são necessárias várias passagens por todo o **espaço de estados**, resultando em considerável sobrecarga computacional e tempos de processamento mais longos.

Uma boa alternativa é a **iteração de valor**, um método que combina a avaliação e a melhoria de política em um **único passo**. Este método atualiza a função de valor diretamente até que ela convirja para a **função de valor ótima**. Uma vez atingida a convergência, a **política ótima** pode ser derivada diretamente desta função de valor ótima.

**A iteração de valor** funciona realizando apenas um backup durante a avaliação de política, antes de executar a melhoria de política. Isso resulta na seguinte fórmula de atualização:

$$
v_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S
$$

Ao transformar a equação de otimalidade de Bellman em uma regra de atualização, a avaliação e a melhoria de política são unificadas em um único passo.

Com base no pseudocódigo, quando a iteração de valores é interrompida?

O Aprendizado por Reforço (RL) é um ramo poderoso do aprendizado de máquina focado no treinamento de agentes inteligentes por meio da interação com seu ambiente. Neste curso, você aprenderá como os agentes descobrem gradualmente comportamentos eficazes através de tentativa e erro. Começando com conceitos fundamentais como processos de decisão de Markov e multi-armed bandits, você avançará por programação dinâmica, métodos de Monte Carlo e aprendizado por diferença temporal.

Descubra como treinar agentes para tomar decisões ótimas por meio de tentativa e erro.
Explore os fundamentos da teoria de aprendizado por reforço.
Obtenha experiência prática configurando e executando um ambiente Gymnasium.

Domínio do equilíbrio entre exploração e exploração por meio do problema do bandido de múltiplos braços. Implementação de estimativa de valor de ação, métodos ε-greedy, limite superior de confiança e bandido de gradiente. Avaliação do desempenho dos algoritmos em tarefas simuladas de maximização de recompensa.

Domínio da programação dinâmica para RL baseado em modelos.
Descoberta de como as equações de Bellman podem ser utilizadas para avaliar e aprimorar políticas.
Implementação dos algoritmos de iteração de política e de valor.
Exploração da iteração generalizada de políticas como base teórica para métodos sem modelo.

Domínio dos métodos de Monte Carlo para RL sem modelo. Estimativa de funções de valor e derivação de políticas ótimas a partir de episódios completos. Implementação de algoritmos de controle de Monte Carlo on-policy e off-policy. Exploração de estratégias de exploração para otimizar o aprendizado sem modelo.

Domínio do aprendizado por diferença temporal para RL sem modelo. Estimativa de funções de valor a partir de episódios parciais utilizando atualizações TD(0). Implementação dos algoritmos SARSA on-policy e Q-Learning off-policy. Exploração da combinação entre métodos de Monte Carlo e aprendizado por diferença temporal em TD de n passos e TD(λ).

Iteração de Valores

Como Funciona?

Pseudocódigo