Episoden und Erträge
Die Länge einer Aufgabe
RL-Aufgaben werden typischerweise als episodisch oder kontinuierlich kategorisiert, abhängig davon, wie der Lernprozess über die Zeit strukturiert ist.
Eine Episode ist eine vollständige Abfolge von Interaktionen zwischen dem Agenten und der Umgebung, beginnend mit einem Anfangszustand und fortschreitend durch eine Reihe von Übergängen, bis ein Endzustand erreicht wird.
Episodische Aufgaben sind solche, die aus einer endlichen Sequenz von Zuständen, Aktionen und Belohnungen bestehen, wobei die Interaktion des Agenten mit der Umgebung in einzelne Episoden unterteilt ist.
Im Gegensatz dazu haben kontinuierliche Aufgaben keinen klaren Abschluss jedes Interaktionszyklus. Der Agent interagiert fortlaufend mit der Umgebung ohne Zurücksetzen in einen Anfangszustand, und der Lernprozess ist fortwährend, häufig ohne einen klaren Endpunkt.
Return
Sie wissen bereits, dass das Hauptziel des Agenten darin besteht, kumulative Belohnungen zu maximieren. Während die Belohnungsfunktion sofortige Belohnungen liefert, berücksichtigt sie keine zukünftigen Ergebnisse, was problematisch sein kann. Ein Agent, der ausschließlich darauf trainiert wird, unmittelbare Belohnungen zu maximieren, könnte langfristige Vorteile übersehen. Um dieses Problem zu lösen, führen wir das Konzept des Return ein.
Return G ist die gesamte akkumulierte Belohnung, die ein Agent von einem gegebenen Zustand an erhält. Sie umfasst alle zukünftigen Belohnungen, nicht nur die unmittelbaren.
Der Return ist eine bessere Darstellung dafür, wie gut ein bestimmter Zustand oder eine Aktion langfristig ist. Das Ziel des Reinforcement Learnings lässt sich nun als Maximierung des Returns definieren.
Wenn T der letzte Zeitschritt ist, sieht die Formel für den Return wie folgt aus:
Gt=Rt+1+Rt+2+Rt+3+...+RTAbzinsung
Während die einfache Rendite ein gutes Ziel bei episodischen Aufgaben darstellt, tritt bei kontinuierlichen Aufgaben ein Problem auf. Ist die Anzahl der Zeitschritte unendlich, kann die Rendite selbst unendlich werden. Um dies zu vermeiden, wird ein Abzinsungsfaktor verwendet, der dafür sorgt, dass zukünftige Belohnungen weniger stark gewichtet werden und die Rendite somit nicht unendlich wird.
Abzinsungsfaktor γ ist ein multiplikativer Faktor, der den aktuellen Wert zukünftiger Belohnungen bestimmt. Er liegt zwischen 0 und 1; ein Wert nahe 0 führt dazu, dass der Agent unmittelbare Belohnungen bevorzugt, während ein Wert nahe 1 dazu führt, dass der Agent zukünftige Belohnungen stärker berücksichtigt.
Return in Kombination mit einem Abzinsungsfaktor wird als abgezinster Return bezeichnet.
Die Formel für den abgezinsten Return lautet:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Selbst bei episodischen Aufgaben bietet die Verwendung eines Abzinsungsfaktors praktische Vorteile: Er motiviert den Agenten, sein Ziel so schnell wie möglich zu erreichen, was zu effizienterem Verhalten führt. Aus diesem Grund wird das Abzinsen auch in eindeutig episodischen Szenarien häufig angewendet.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain what the discount factor γ represents?
What are some examples of episodic and continuous tasks in real life?
Why is it important to use discounted return in reinforcement learning?
Awesome!
Completion rate improved to 2.7
Episoden und Erträge
Swipe um das Menü anzuzeigen
Die Länge einer Aufgabe
RL-Aufgaben werden typischerweise als episodisch oder kontinuierlich kategorisiert, abhängig davon, wie der Lernprozess über die Zeit strukturiert ist.
Eine Episode ist eine vollständige Abfolge von Interaktionen zwischen dem Agenten und der Umgebung, beginnend mit einem Anfangszustand und fortschreitend durch eine Reihe von Übergängen, bis ein Endzustand erreicht wird.
Episodische Aufgaben sind solche, die aus einer endlichen Sequenz von Zuständen, Aktionen und Belohnungen bestehen, wobei die Interaktion des Agenten mit der Umgebung in einzelne Episoden unterteilt ist.
Im Gegensatz dazu haben kontinuierliche Aufgaben keinen klaren Abschluss jedes Interaktionszyklus. Der Agent interagiert fortlaufend mit der Umgebung ohne Zurücksetzen in einen Anfangszustand, und der Lernprozess ist fortwährend, häufig ohne einen klaren Endpunkt.
Return
Sie wissen bereits, dass das Hauptziel des Agenten darin besteht, kumulative Belohnungen zu maximieren. Während die Belohnungsfunktion sofortige Belohnungen liefert, berücksichtigt sie keine zukünftigen Ergebnisse, was problematisch sein kann. Ein Agent, der ausschließlich darauf trainiert wird, unmittelbare Belohnungen zu maximieren, könnte langfristige Vorteile übersehen. Um dieses Problem zu lösen, führen wir das Konzept des Return ein.
Return G ist die gesamte akkumulierte Belohnung, die ein Agent von einem gegebenen Zustand an erhält. Sie umfasst alle zukünftigen Belohnungen, nicht nur die unmittelbaren.
Der Return ist eine bessere Darstellung dafür, wie gut ein bestimmter Zustand oder eine Aktion langfristig ist. Das Ziel des Reinforcement Learnings lässt sich nun als Maximierung des Returns definieren.
Wenn T der letzte Zeitschritt ist, sieht die Formel für den Return wie folgt aus:
Gt=Rt+1+Rt+2+Rt+3+...+RTAbzinsung
Während die einfache Rendite ein gutes Ziel bei episodischen Aufgaben darstellt, tritt bei kontinuierlichen Aufgaben ein Problem auf. Ist die Anzahl der Zeitschritte unendlich, kann die Rendite selbst unendlich werden. Um dies zu vermeiden, wird ein Abzinsungsfaktor verwendet, der dafür sorgt, dass zukünftige Belohnungen weniger stark gewichtet werden und die Rendite somit nicht unendlich wird.
Abzinsungsfaktor γ ist ein multiplikativer Faktor, der den aktuellen Wert zukünftiger Belohnungen bestimmt. Er liegt zwischen 0 und 1; ein Wert nahe 0 führt dazu, dass der Agent unmittelbare Belohnungen bevorzugt, während ein Wert nahe 1 dazu führt, dass der Agent zukünftige Belohnungen stärker berücksichtigt.
Return in Kombination mit einem Abzinsungsfaktor wird als abgezinster Return bezeichnet.
Die Formel für den abgezinsten Return lautet:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Selbst bei episodischen Aufgaben bietet die Verwendung eines Abzinsungsfaktors praktische Vorteile: Er motiviert den Agenten, sein Ziel so schnell wie möglich zu erreichen, was zu effizienterem Verhalten führt. Aus diesem Grund wird das Abzinsen auch in eindeutig episodischen Szenarien häufig angewendet.
Danke für Ihr Feedback!