Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Iteração de Valores | Programação Dinâmica
Practice
Projects
Quizzes & Challenges
Questionários
Challenges
/
Introdução ao Aprendizado por Reforço com Python

bookIteração de Valores

Embora a iteração de política seja uma abordagem eficaz para resolver MDPs, ela apresenta uma desvantagem significativa: cada iteração envolve uma etapa separada de avaliação de política. Quando a avaliação de política é realizada iterativamente, são necessárias várias passagens por todo o espaço de estados, resultando em considerável sobrecarga computacional e tempos de processamento mais longos.

Uma boa alternativa é a iteração de valor, um método que combina a avaliação e a melhoria de política em um único passo. Este método atualiza a função de valor diretamente até que ela convirja para a função de valor ótima. Uma vez atingida a convergência, a política ótima pode ser derivada diretamente desta função de valor ótima.

Como Funciona?

A iteração de valor funciona realizando apenas um backup durante a avaliação de política, antes de executar a melhoria de política. Isso resulta na seguinte fórmula de atualização:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Ao transformar a equação de otimalidade de Bellman em uma regra de atualização, a avaliação e a melhoria de política são unificadas em um único passo.

Pseudocódigo

question mark

Com base no pseudocódigo, quando a iteração de valores é interrompida?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 8

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

bookIteração de Valores

Deslize para mostrar o menu

Embora a iteração de política seja uma abordagem eficaz para resolver MDPs, ela apresenta uma desvantagem significativa: cada iteração envolve uma etapa separada de avaliação de política. Quando a avaliação de política é realizada iterativamente, são necessárias várias passagens por todo o espaço de estados, resultando em considerável sobrecarga computacional e tempos de processamento mais longos.

Uma boa alternativa é a iteração de valor, um método que combina a avaliação e a melhoria de política em um único passo. Este método atualiza a função de valor diretamente até que ela convirja para a função de valor ótima. Uma vez atingida a convergência, a política ótima pode ser derivada diretamente desta função de valor ótima.

Como Funciona?

A iteração de valor funciona realizando apenas um backup durante a avaliação de política, antes de executar a melhoria de política. Isso resulta na seguinte fórmula de atualização:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Ao transformar a equação de otimalidade de Bellman em uma regra de atualização, a avaliação e a melhoria de política são unificadas em um único passo.

Pseudocódigo

question mark

Com base no pseudocódigo, quando a iteração de valores é interrompida?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 8
some-alt