Q-Learning: Off-Policy-TD-Lernen
Das Erlernen einer optimalen Politik mit SARSA kann herausfordernd sein. Ähnlich wie bei der On-Policy-Monte-Carlo-Steuerung erfordert es in der Regel einen allmählichen Abbau von ε im Laufe der Zeit, der schließlich gegen Null geht, um von Exploration zu Exploitation überzugehen. Dieser Prozess ist oft langsam und kann eine umfangreiche Trainingszeit erfordern. Eine Alternative ist die Verwendung einer Off-Policy-Methode wie Q-Learning.
Q-Learning ist ein Off-Policy-TD-Steuerungsalgorithmus, der zur Schätzung der optimalen Aktionswertfunktion q∗(s,a) verwendet wird. Er aktualisiert seine Schätzungen basierend auf der aktuell besten Aktion und ist damit ein Off-Policy-Algorithmus.
Aktualisierungsregel
Im Gegensatz zur Off-Policy-Monte-Carlo-Steuerung benötigt Q-Learning kein Importance Sampling, um Unterschiede zwischen Verhaltens- und Zielpolitik auszugleichen. Stattdessen basiert es auf einer direkten Aktualisierungsregel, die SARSA sehr ähnlich ist, jedoch mit einem entscheidenden Unterschied.
Die Q-Learning-Aktualisierungsregel lautet:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))Der einzige Unterschied zu SARSA liegt im Zielwert. Anstatt wie SARSA den Wert der tatsächlich ausgeführten nächsten Aktion zu verwenden:
γQ(St+1,At+1)verwendet Q-Learning den Wert der bestmöglichen nächsten Aktion:
γamaxQ(St+1,a)Diese subtile Änderung hat große Auswirkungen: Sie ermöglicht es Q-Learning, Aktionen anhand einer Schätzung der optimalen Politik zu bewerten, selbst während der Agent noch exploriert. Das macht es zu einer Off-Policy-Methode — es lernt über die gierige Politik, unabhängig von den während des Trainings gewählten Aktionen.
Wann sollte Q-Learning verwendet werden?
Q-Learning ist vorzuziehen, wenn:
- Arbeit mit deterministischen Umgebungen oder Umgebungen;
- Bedarf an schnellerer Konvergenzgeschwindigkeit.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain the main differences between SARSA and Q-learning in more detail?
When should I choose SARSA over Q-learning?
Can you provide an example of how Q-learning is applied in practice?
Awesome!
Completion rate improved to 2.7
Q-Learning: Off-Policy-TD-Lernen
Swipe um das Menü anzuzeigen
Das Erlernen einer optimalen Politik mit SARSA kann herausfordernd sein. Ähnlich wie bei der On-Policy-Monte-Carlo-Steuerung erfordert es in der Regel einen allmählichen Abbau von ε im Laufe der Zeit, der schließlich gegen Null geht, um von Exploration zu Exploitation überzugehen. Dieser Prozess ist oft langsam und kann eine umfangreiche Trainingszeit erfordern. Eine Alternative ist die Verwendung einer Off-Policy-Methode wie Q-Learning.
Q-Learning ist ein Off-Policy-TD-Steuerungsalgorithmus, der zur Schätzung der optimalen Aktionswertfunktion q∗(s,a) verwendet wird. Er aktualisiert seine Schätzungen basierend auf der aktuell besten Aktion und ist damit ein Off-Policy-Algorithmus.
Aktualisierungsregel
Im Gegensatz zur Off-Policy-Monte-Carlo-Steuerung benötigt Q-Learning kein Importance Sampling, um Unterschiede zwischen Verhaltens- und Zielpolitik auszugleichen. Stattdessen basiert es auf einer direkten Aktualisierungsregel, die SARSA sehr ähnlich ist, jedoch mit einem entscheidenden Unterschied.
Die Q-Learning-Aktualisierungsregel lautet:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))Der einzige Unterschied zu SARSA liegt im Zielwert. Anstatt wie SARSA den Wert der tatsächlich ausgeführten nächsten Aktion zu verwenden:
γQ(St+1,At+1)verwendet Q-Learning den Wert der bestmöglichen nächsten Aktion:
γamaxQ(St+1,a)Diese subtile Änderung hat große Auswirkungen: Sie ermöglicht es Q-Learning, Aktionen anhand einer Schätzung der optimalen Politik zu bewerten, selbst während der Agent noch exploriert. Das macht es zu einer Off-Policy-Methode — es lernt über die gierige Politik, unabhängig von den während des Trainings gewählten Aktionen.
Wann sollte Q-Learning verwendet werden?
Q-Learning ist vorzuziehen, wenn:
- Arbeit mit deterministischen Umgebungen oder Umgebungen;
- Bedarf an schnellerer Konvergenzgeschwindigkeit.
Danke für Ihr Feedback!