Implementações Incrementais
Armazenar cada retorno para cada par estado-ação pode rapidamente esgotar a memória e aumentar significativamente o tempo de computação — especialmente em ambientes grandes. Essa limitação afeta tanto os algoritmos de controle Monte Carlo on-policy quanto off-policy. Para lidar com isso, adotamos estratégias de computação incremental, semelhantes às utilizadas em algoritmos multi-armed bandit. Esses métodos permitem que as estimativas de valor sejam atualizadas em tempo real, sem a necessidade de manter todo o histórico de retornos.
Controle Monte Carlo On-Policy
Para o método on-policy, a estratégia de atualização é semelhante à utilizada em algoritmos MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))onde α=N(s,a)1 para estimativa da média. Os únicos valores que precisam ser armazenados são as estimativas atuais dos valores de ação Q(s,a) e a quantidade de vezes que o par estado-ação (s,a) foi visitado N(s,a).
Pseudocódigo
Controle Monte Carlo Off-Policy
Para o método off-policy com amostragem de importância ordinária, tudo é igual ao método on-policy.
Uma situação mais interessante ocorre com amostragem de importância ponderada. A equação permanece a mesma:
Q(s,a)←Q(s,a)+α(G−Q(s,a))mas α=N(s,a)1 não pode ser usada porque:
- Cada retorno é ponderado por ρ;
- A soma final é dividida não por N(s,a), mas por ∑ρ(s,a).
O valor de α que pode ser realmente utilizado neste caso é igual a C(s,a)W onde:
- W é o ρ da trajetória atual;
- C(s,a) é igual a ∑ρ(s,a).
E cada vez que o par estado-ação (s,a) ocorre, o ρ da trajetória atual é adicionado a C(s,a):
C(s,a)←C(s,a)+WPseudocódigo
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain the difference between on-policy and off-policy Monte Carlo control?
How does incremental computation improve efficiency in Monte Carlo methods?
Can you clarify how the weighted importance sampling update works?
Awesome!
Completion rate improved to 2.7
Implementações Incrementais
Deslize para mostrar o menu
Armazenar cada retorno para cada par estado-ação pode rapidamente esgotar a memória e aumentar significativamente o tempo de computação — especialmente em ambientes grandes. Essa limitação afeta tanto os algoritmos de controle Monte Carlo on-policy quanto off-policy. Para lidar com isso, adotamos estratégias de computação incremental, semelhantes às utilizadas em algoritmos multi-armed bandit. Esses métodos permitem que as estimativas de valor sejam atualizadas em tempo real, sem a necessidade de manter todo o histórico de retornos.
Controle Monte Carlo On-Policy
Para o método on-policy, a estratégia de atualização é semelhante à utilizada em algoritmos MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))onde α=N(s,a)1 para estimativa da média. Os únicos valores que precisam ser armazenados são as estimativas atuais dos valores de ação Q(s,a) e a quantidade de vezes que o par estado-ação (s,a) foi visitado N(s,a).
Pseudocódigo
Controle Monte Carlo Off-Policy
Para o método off-policy com amostragem de importância ordinária, tudo é igual ao método on-policy.
Uma situação mais interessante ocorre com amostragem de importância ponderada. A equação permanece a mesma:
Q(s,a)←Q(s,a)+α(G−Q(s,a))mas α=N(s,a)1 não pode ser usada porque:
- Cada retorno é ponderado por ρ;
- A soma final é dividida não por N(s,a), mas por ∑ρ(s,a).
O valor de α que pode ser realmente utilizado neste caso é igual a C(s,a)W onde:
- W é o ρ da trajetória atual;
- C(s,a) é igual a ∑ρ(s,a).
E cada vez que o par estado-ação (s,a) ocorre, o ρ da trajetória atual é adicionado a C(s,a):
C(s,a)←C(s,a)+WPseudocódigo
Obrigado pelo seu feedback!