Iteração de Valores
Embora a iteração de política seja uma abordagem eficaz para resolver MDPs, ela apresenta uma desvantagem significativa: cada iteração envolve uma etapa separada de avaliação de política. Quando a avaliação de política é realizada iterativamente, são necessárias várias passagens por todo o espaço de estados, resultando em considerável sobrecarga computacional e tempos de processamento mais longos.
Uma boa alternativa é a iteração de valor, um método que combina a avaliação e a melhoria de política em um único passo. Este método atualiza a função de valor diretamente até que ela convirja para a função de valor ótima. Uma vez atingida a convergência, a política ótima pode ser derivada diretamente desta função de valor ótima.
Como Funciona?
A iteração de valor funciona realizando apenas um backup durante a avaliação de política, antes de executar a melhoria de política. Isso resulta na seguinte fórmula de atualização:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SAo transformar a equação de otimalidade de Bellman em uma regra de atualização, a avaliação e a melhoria de política são unificadas em um único passo.
Pseudocódigo
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Incrível!
Completion taxa melhorada para 2.7
Iteração de Valores
Deslize para mostrar o menu
Embora a iteração de política seja uma abordagem eficaz para resolver MDPs, ela apresenta uma desvantagem significativa: cada iteração envolve uma etapa separada de avaliação de política. Quando a avaliação de política é realizada iterativamente, são necessárias várias passagens por todo o espaço de estados, resultando em considerável sobrecarga computacional e tempos de processamento mais longos.
Uma boa alternativa é a iteração de valor, um método que combina a avaliação e a melhoria de política em um único passo. Este método atualiza a função de valor diretamente até que ela convirja para a função de valor ótima. Uma vez atingida a convergência, a política ótima pode ser derivada diretamente desta função de valor ótima.
Como Funciona?
A iteração de valor funciona realizando apenas um backup durante a avaliação de política, antes de executar a melhoria de política. Isso resulta na seguinte fórmula de atualização:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SAo transformar a equação de otimalidade de Bellman em uma regra de atualização, a avaliação e a melhoria de política são unificadas em um único passo.
Pseudocódigo
Obrigado pelo seu feedback!