Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Q-Learning: Off-Policy-TD-Lernen | Temporal-Differenz-Lernen
Einführung in Reinforcement Learning

bookQ-Learning: Off-Policy-TD-Lernen

Das Erlernen einer optimalen Politik mit SARSA kann herausfordernd sein. Ähnlich wie bei der On-Policy-Monte-Carlo-Steuerung erfordert es in der Regel einen allmählichen Abbau von ε\varepsilon im Laufe der Zeit, der schließlich gegen Null geht, um von Exploration zu Exploitation überzugehen. Dieser Prozess ist oft langsam und kann eine umfangreiche Trainingszeit erfordern. Eine Alternative ist die Verwendung einer Off-Policy-Methode wie Q-Learning.

Note
Definition

Q-Learning ist ein Off-Policy-TD-Steuerungsalgorithmus, der zur Schätzung der optimalen Aktionswertfunktion q(s,a)q_*(s, a) verwendet wird. Er aktualisiert seine Schätzungen basierend auf der aktuell besten Aktion und ist damit ein Off-Policy-Algorithmus.

Aktualisierungsregel

Im Gegensatz zur Off-Policy-Monte-Carlo-Steuerung benötigt Q-Learning kein Importance Sampling, um Unterschiede zwischen Verhaltens- und Zielpolitik auszugleichen. Stattdessen basiert es auf einer direkten Aktualisierungsregel, die SARSA sehr ähnlich ist, jedoch mit einem entscheidenden Unterschied.

Die Q-Learning-Aktualisierungsregel lautet:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Der einzige Unterschied zu SARSA liegt im Zielwert. Anstatt wie SARSA den Wert der tatsächlich ausgeführten nächsten Aktion zu verwenden:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

verwendet Q-Learning den Wert der bestmöglichen nächsten Aktion:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Diese subtile Änderung hat große Auswirkungen: Sie ermöglicht es Q-Learning, Aktionen anhand einer Schätzung der optimalen Politik zu bewerten, selbst während der Agent noch exploriert. Das macht es zu einer Off-Policy-Methode — es lernt über die gierige Politik, unabhängig von den während des Trainings gewählten Aktionen.

Wann sollte Q-Learning verwendet werden?

Q-Learning ist vorzuziehen, wenn:

  • Arbeit mit deterministischen Umgebungen oder Umgebungen;
  • Bedarf an schnellerer Konvergenzgeschwindigkeit.
question mark

Was unterscheidet Q-Learning als Off-Policy-Algorithmus?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the main differences between SARSA and Q-learning in more detail?

When should I choose SARSA over Q-learning?

Can you provide an example of how Q-learning is applied in practice?

Awesome!

Completion rate improved to 2.7

bookQ-Learning: Off-Policy-TD-Lernen

Swipe um das Menü anzuzeigen

Das Erlernen einer optimalen Politik mit SARSA kann herausfordernd sein. Ähnlich wie bei der On-Policy-Monte-Carlo-Steuerung erfordert es in der Regel einen allmählichen Abbau von ε\varepsilon im Laufe der Zeit, der schließlich gegen Null geht, um von Exploration zu Exploitation überzugehen. Dieser Prozess ist oft langsam und kann eine umfangreiche Trainingszeit erfordern. Eine Alternative ist die Verwendung einer Off-Policy-Methode wie Q-Learning.

Note
Definition

Q-Learning ist ein Off-Policy-TD-Steuerungsalgorithmus, der zur Schätzung der optimalen Aktionswertfunktion q(s,a)q_*(s, a) verwendet wird. Er aktualisiert seine Schätzungen basierend auf der aktuell besten Aktion und ist damit ein Off-Policy-Algorithmus.

Aktualisierungsregel

Im Gegensatz zur Off-Policy-Monte-Carlo-Steuerung benötigt Q-Learning kein Importance Sampling, um Unterschiede zwischen Verhaltens- und Zielpolitik auszugleichen. Stattdessen basiert es auf einer direkten Aktualisierungsregel, die SARSA sehr ähnlich ist, jedoch mit einem entscheidenden Unterschied.

Die Q-Learning-Aktualisierungsregel lautet:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Der einzige Unterschied zu SARSA liegt im Zielwert. Anstatt wie SARSA den Wert der tatsächlich ausgeführten nächsten Aktion zu verwenden:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

verwendet Q-Learning den Wert der bestmöglichen nächsten Aktion:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Diese subtile Änderung hat große Auswirkungen: Sie ermöglicht es Q-Learning, Aktionen anhand einer Schätzung der optimalen Politik zu bewerten, selbst während der Agent noch exploriert. Das macht es zu einer Off-Policy-Methode — es lernt über die gierige Politik, unabhängig von den während des Trainings gewählten Aktionen.

Wann sollte Q-Learning verwendet werden?

Q-Learning ist vorzuziehen, wenn:

  • Arbeit mit deterministischen Umgebungen oder Umgebungen;
  • Bedarf an schnellerer Konvergenzgeschwindigkeit.
question mark

Was unterscheidet Q-Learning als Off-Policy-Algorithmus?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 4
some-alt