Itération de Politique
L'idée derrière l'itération de politique est simple :
- Prendre une politique initiale π et une fonction de valeur v ;
- Utiliser l'évaluation de politique pour mettre à jour v jusqu'à ce qu'elle soit cohérente avec π ;
- Utiliser l'amélioration de politique pour mettre à jour π jusqu'à ce qu'elle soit cupide par rapport à v ;
- Répéter les étapes 2-3 jusqu'à convergence.
Dans cette méthode, il n'y a aucune mise à jour partielle :
- Lors de l'évaluation de politique, les valeurs sont mises à jour pour chaque état, jusqu'à ce qu'elles soient cohérentes avec la politique actuelle ;
- Lors de l'amélioration de politique, la politique devient cupide par rapport à la fonction de valeur.
Pseudocode
Tout était clair ?
Merci pour vos commentaires !
Section 3. Chapitre 7
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Génial!
Completion taux amélioré à 2.7
Itération de Politique
Glissez pour afficher le menu
L'idée derrière l'itération de politique est simple :
- Prendre une politique initiale π et une fonction de valeur v ;
- Utiliser l'évaluation de politique pour mettre à jour v jusqu'à ce qu'elle soit cohérente avec π ;
- Utiliser l'amélioration de politique pour mettre à jour π jusqu'à ce qu'elle soit cupide par rapport à v ;
- Répéter les étapes 2-3 jusqu'à convergence.
Dans cette méthode, il n'y a aucune mise à jour partielle :
- Lors de l'évaluation de politique, les valeurs sont mises à jour pour chaque état, jusqu'à ce qu'elles soient cohérentes avec la politique actuelle ;
- Lors de l'amélioration de politique, la politique devient cupide par rapport à la fonction de valeur.
Pseudocode
Tout était clair ?
Merci pour vos commentaires !
Section 3. Chapitre 7