Implémentations Incrémentales
Stocker chaque retour pour chaque paire état-action peut rapidement épuiser la mémoire et augmenter considérablement le temps de calcul — en particulier dans les environnements de grande taille. Cette limitation affecte à la fois les algorithmes de contrôle Monte Carlo sur politique et hors politique. Pour y remédier, des stratégies de calcul incrémentiel sont adoptées, similaires à celles utilisées dans les algorithmes multi-bras bandit. Ces méthodes permettent de mettre à jour les estimations de valeur en temps réel, sans conserver l’historique complet des retours.
Contrôle Monte Carlo sur politique
Pour la méthode sur politique, la stratégie de mise à jour ressemble à celle utilisée dans les algorithmes MAB :
Q(s,a)←Q(s,a)+α(G−Q(s,a))où α=N(s,a)1 pour l’estimation de la moyenne. Les seules valeurs à stocker sont les estimations actuelles des valeurs d’action Q(s,a) et le nombre de fois que la paire état-action (s,a) a été visitée N(s,a).
Pseudocode
Contrôle Monte Carlo hors politique
Pour la méthode hors politique avec l'échantillonnage d'importance ordinaire, tout est identique à la méthode sur politique.
Une situation plus intéressante se présente avec l'échantillonnage d'importance pondéré. L'équation reste la même :
Q(s,a)←Q(s,a)+α(G−Q(s,a))mais α=N(s,a)1 ne peut pas être utilisé car :
- Chaque retour est pondéré par ρ ;
- La somme finale est divisée non pas par N(s,a), mais par ∑ρ(s,a).
La valeur de α qui peut effectivement être utilisée dans ce cas est égale à C(s,a)W où :
- W est le ρ pour la trajectoire courante ;
- C(s,a) est égal à ∑ρ(s,a).
Et chaque fois que la paire état-action (s,a) apparaît, le ρ de la trajectoire courante est ajouté à C(s,a) :
C(s,a)←C(s,a)+WPseudocode
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain the difference between on-policy and off-policy Monte Carlo control?
How does incremental computation improve efficiency in Monte Carlo methods?
Can you clarify how the weighted importance sampling update works?
Génial!
Completion taux amélioré à 2.7
Implémentations Incrémentales
Glissez pour afficher le menu
Stocker chaque retour pour chaque paire état-action peut rapidement épuiser la mémoire et augmenter considérablement le temps de calcul — en particulier dans les environnements de grande taille. Cette limitation affecte à la fois les algorithmes de contrôle Monte Carlo sur politique et hors politique. Pour y remédier, des stratégies de calcul incrémentiel sont adoptées, similaires à celles utilisées dans les algorithmes multi-bras bandit. Ces méthodes permettent de mettre à jour les estimations de valeur en temps réel, sans conserver l’historique complet des retours.
Contrôle Monte Carlo sur politique
Pour la méthode sur politique, la stratégie de mise à jour ressemble à celle utilisée dans les algorithmes MAB :
Q(s,a)←Q(s,a)+α(G−Q(s,a))où α=N(s,a)1 pour l’estimation de la moyenne. Les seules valeurs à stocker sont les estimations actuelles des valeurs d’action Q(s,a) et le nombre de fois que la paire état-action (s,a) a été visitée N(s,a).
Pseudocode
Contrôle Monte Carlo hors politique
Pour la méthode hors politique avec l'échantillonnage d'importance ordinaire, tout est identique à la méthode sur politique.
Une situation plus intéressante se présente avec l'échantillonnage d'importance pondéré. L'équation reste la même :
Q(s,a)←Q(s,a)+α(G−Q(s,a))mais α=N(s,a)1 ne peut pas être utilisé car :
- Chaque retour est pondéré par ρ ;
- La somme finale est divisée non pas par N(s,a), mais par ∑ρ(s,a).
La valeur de α qui peut effectivement être utilisée dans ce cas est égale à C(s,a)W où :
- W est le ρ pour la trajectoire courante ;
- C(s,a) est égal à ∑ρ(s,a).
Et chaque fois que la paire état-action (s,a) apparaît, le ρ de la trajectoire courante est ajouté à C(s,a) :
C(s,a)←C(s,a)+WPseudocode
Merci pour vos commentaires !