Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Generalisierte Politikiteration | Dynamische Programmierung
Einführung in Reinforcement Learning

bookGeneralisierte Politikiteration

In den vorherigen Kapiteln haben Sie Politikbewertung und Politikverbesserung kennengelernt. Diese Prozesse ergänzen sich gegenseitig und werden natürlich in einem Rahmenwerk kombiniert, das als generalisierte Politikiteration bekannt ist.

Note
Definition

Generalisierte Politikiteration (GPI) ist ein Rahmenwerk, in dem Politikbewertung und Politikverbesserung iterativ miteinander interagieren, mit dem gemeinsamen Ziel, eine optimale Politik zu bestimmen.

Die meisten Methoden des Reinforcement Learnings lassen sich im Rahmen der GPI beschreiben. Die wesentlichen Unterschiede zwischen diesen Methoden ergeben sich aus den konkreten Umsetzungen der Politikbewertung und Politikverbesserung sowie aus der Art ihrer Interaktionen.

Interaktion zwischen zwei Prozessen

Politikbewertung und Politikverbesserung können je nach Perspektive sowohl als kooperative als auch als kompetitive Prozesse betrachtet werden:

  • Kooperativ: Beide Prozesse verfolgen ein gemeinsames Ziel—die optimale Politik und Wertfunktion zu finden. Die Politikbewertung schätzt die Wertfunktion für eine gegebene Politik, während die Politikverbesserung die Politik auf Grundlage dieser Schätzungen verfeinert;
  • Kompetitiv: Jeder Prozess hat widersprüchliche Ziele. Die Politikbewertung zielt darauf ab, die Wertfunktion für die aktuelle Politik genau zu schätzen, was häufig dazu führt, dass die Politik nicht mehr gierig ist. Im Gegensatz dazu passt die Politikverbesserung die Politik so an, dass sie gierig bezüglich der aktuellen Wertfunktionsschätzungen ist, wodurch diese Schätzungen typischerweise falsch werden. Dieses ständige Wechselspiel setzt sich fort, bis sowohl die Politik als auch die Wertfunktion ihre optimalen Formen erreichen.

Zusammenfassung

Generalisierte Politikiteration ist ein nützliches Rahmenkonzept, um zu verstehen, wie verschiedene Methoden des Reinforcement Learnings die MDPs lösen. In den kommenden Kapiteln wird erläutert, wie diese Konzepte angewendet werden können, um zwei grundlegende DP-Methoden zu entwickeln: Politikiteration und Wertiteration.

question mark

Wählen Sie die beiden Prozesse aus, die im Rahmen der generalisierten Politikiteration zusammenarbeiten

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 6

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.7

bookGeneralisierte Politikiteration

Swipe um das Menü anzuzeigen

In den vorherigen Kapiteln haben Sie Politikbewertung und Politikverbesserung kennengelernt. Diese Prozesse ergänzen sich gegenseitig und werden natürlich in einem Rahmenwerk kombiniert, das als generalisierte Politikiteration bekannt ist.

Note
Definition

Generalisierte Politikiteration (GPI) ist ein Rahmenwerk, in dem Politikbewertung und Politikverbesserung iterativ miteinander interagieren, mit dem gemeinsamen Ziel, eine optimale Politik zu bestimmen.

Die meisten Methoden des Reinforcement Learnings lassen sich im Rahmen der GPI beschreiben. Die wesentlichen Unterschiede zwischen diesen Methoden ergeben sich aus den konkreten Umsetzungen der Politikbewertung und Politikverbesserung sowie aus der Art ihrer Interaktionen.

Interaktion zwischen zwei Prozessen

Politikbewertung und Politikverbesserung können je nach Perspektive sowohl als kooperative als auch als kompetitive Prozesse betrachtet werden:

  • Kooperativ: Beide Prozesse verfolgen ein gemeinsames Ziel—die optimale Politik und Wertfunktion zu finden. Die Politikbewertung schätzt die Wertfunktion für eine gegebene Politik, während die Politikverbesserung die Politik auf Grundlage dieser Schätzungen verfeinert;
  • Kompetitiv: Jeder Prozess hat widersprüchliche Ziele. Die Politikbewertung zielt darauf ab, die Wertfunktion für die aktuelle Politik genau zu schätzen, was häufig dazu führt, dass die Politik nicht mehr gierig ist. Im Gegensatz dazu passt die Politikverbesserung die Politik so an, dass sie gierig bezüglich der aktuellen Wertfunktionsschätzungen ist, wodurch diese Schätzungen typischerweise falsch werden. Dieses ständige Wechselspiel setzt sich fort, bis sowohl die Politik als auch die Wertfunktion ihre optimalen Formen erreichen.

Zusammenfassung

Generalisierte Politikiteration ist ein nützliches Rahmenkonzept, um zu verstehen, wie verschiedene Methoden des Reinforcement Learnings die MDPs lösen. In den kommenden Kapiteln wird erläutert, wie diese Konzepte angewendet werden können, um zwei grundlegende DP-Methoden zu entwickeln: Politikiteration und Wertiteration.

question mark

Wählen Sie die beiden Prozesse aus, die im Rahmen der generalisierten Politikiteration zusammenarbeiten

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 6
some-alt