Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Episoden und Erträge | Kernprinzipien des RL
Einführung in Reinforcement Learning

bookEpisoden und Erträge

Die Länge einer Aufgabe

RL-Aufgaben werden typischerweise als episodisch oder kontinuierlich kategorisiert, abhängig davon, wie der Lernprozess über die Zeit strukturiert ist.

Note
Definition

Eine Episode ist eine vollständige Abfolge von Interaktionen zwischen dem Agenten und der Umgebung, beginnend mit einem Anfangszustand und fortschreitend durch eine Reihe von Übergängen, bis ein Endzustand erreicht wird.

Episodische Aufgaben sind solche, die aus einer endlichen Sequenz von Zuständen, Aktionen und Belohnungen bestehen, wobei die Interaktion des Agenten mit der Umgebung in einzelne Episoden unterteilt ist.

Im Gegensatz dazu haben kontinuierliche Aufgaben keinen klaren Abschluss jedes Interaktionszyklus. Der Agent interagiert fortlaufend mit der Umgebung ohne Zurücksetzen in einen Anfangszustand, und der Lernprozess ist fortwährend, häufig ohne einen klaren Endpunkt.

Return

Sie wissen bereits, dass das Hauptziel des Agenten darin besteht, kumulative Belohnungen zu maximieren. Während die Belohnungsfunktion sofortige Belohnungen liefert, berücksichtigt sie keine zukünftigen Ergebnisse, was problematisch sein kann. Ein Agent, der ausschließlich darauf trainiert wird, unmittelbare Belohnungen zu maximieren, könnte langfristige Vorteile übersehen. Um dieses Problem zu lösen, führen wir das Konzept des Return ein.

Note
Definition

Return GG ist die gesamte akkumulierte Belohnung, die ein Agent von einem gegebenen Zustand an erhält. Sie umfasst alle zukünftigen Belohnungen, nicht nur die unmittelbaren.

Der Return ist eine bessere Darstellung dafür, wie gut ein bestimmter Zustand oder eine Aktion langfristig ist. Das Ziel des Reinforcement Learnings lässt sich nun als Maximierung des Returns definieren.

Wenn TT der letzte Zeitschritt ist, sieht die Formel für den Return wie folgt aus:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Abzinsung

Während die einfache Rendite ein gutes Ziel bei episodischen Aufgaben darstellt, tritt bei kontinuierlichen Aufgaben ein Problem auf. Ist die Anzahl der Zeitschritte unendlich, kann die Rendite selbst unendlich werden. Um dies zu vermeiden, wird ein Abzinsungsfaktor verwendet, der dafür sorgt, dass zukünftige Belohnungen weniger stark gewichtet werden und die Rendite somit nicht unendlich wird.

Note
Definition

Abzinsungsfaktor γ\gamma ist ein multiplikativer Faktor, der den aktuellen Wert zukünftiger Belohnungen bestimmt. Er liegt zwischen 0 und 1; ein Wert nahe 0 führt dazu, dass der Agent unmittelbare Belohnungen bevorzugt, während ein Wert nahe 1 dazu führt, dass der Agent zukünftige Belohnungen stärker berücksichtigt.

Return in Kombination mit einem Abzinsungsfaktor wird als abgezinster Return bezeichnet.

Die Formel für den abgezinsten Return lautet:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Mehr erfahren

Selbst bei episodischen Aufgaben bietet die Verwendung eines Abzinsungsfaktors praktische Vorteile: Er motiviert den Agenten, sein Ziel so schnell wie möglich zu erreichen, was zu effizienterem Verhalten führt. Aus diesem Grund wird das Abzinsen auch in eindeutig episodischen Szenarien häufig angewendet.

question mark

Was stellt der Abzinsungsfaktor γ\gamma dar?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain what the discount factor γ represents?

What are some examples of episodic and continuous tasks in real life?

Why is it important to use discounted return in reinforcement learning?

Awesome!

Completion rate improved to 2.7

bookEpisoden und Erträge

Swipe um das Menü anzuzeigen

Die Länge einer Aufgabe

RL-Aufgaben werden typischerweise als episodisch oder kontinuierlich kategorisiert, abhängig davon, wie der Lernprozess über die Zeit strukturiert ist.

Note
Definition

Eine Episode ist eine vollständige Abfolge von Interaktionen zwischen dem Agenten und der Umgebung, beginnend mit einem Anfangszustand und fortschreitend durch eine Reihe von Übergängen, bis ein Endzustand erreicht wird.

Episodische Aufgaben sind solche, die aus einer endlichen Sequenz von Zuständen, Aktionen und Belohnungen bestehen, wobei die Interaktion des Agenten mit der Umgebung in einzelne Episoden unterteilt ist.

Im Gegensatz dazu haben kontinuierliche Aufgaben keinen klaren Abschluss jedes Interaktionszyklus. Der Agent interagiert fortlaufend mit der Umgebung ohne Zurücksetzen in einen Anfangszustand, und der Lernprozess ist fortwährend, häufig ohne einen klaren Endpunkt.

Return

Sie wissen bereits, dass das Hauptziel des Agenten darin besteht, kumulative Belohnungen zu maximieren. Während die Belohnungsfunktion sofortige Belohnungen liefert, berücksichtigt sie keine zukünftigen Ergebnisse, was problematisch sein kann. Ein Agent, der ausschließlich darauf trainiert wird, unmittelbare Belohnungen zu maximieren, könnte langfristige Vorteile übersehen. Um dieses Problem zu lösen, führen wir das Konzept des Return ein.

Note
Definition

Return GG ist die gesamte akkumulierte Belohnung, die ein Agent von einem gegebenen Zustand an erhält. Sie umfasst alle zukünftigen Belohnungen, nicht nur die unmittelbaren.

Der Return ist eine bessere Darstellung dafür, wie gut ein bestimmter Zustand oder eine Aktion langfristig ist. Das Ziel des Reinforcement Learnings lässt sich nun als Maximierung des Returns definieren.

Wenn TT der letzte Zeitschritt ist, sieht die Formel für den Return wie folgt aus:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Abzinsung

Während die einfache Rendite ein gutes Ziel bei episodischen Aufgaben darstellt, tritt bei kontinuierlichen Aufgaben ein Problem auf. Ist die Anzahl der Zeitschritte unendlich, kann die Rendite selbst unendlich werden. Um dies zu vermeiden, wird ein Abzinsungsfaktor verwendet, der dafür sorgt, dass zukünftige Belohnungen weniger stark gewichtet werden und die Rendite somit nicht unendlich wird.

Note
Definition

Abzinsungsfaktor γ\gamma ist ein multiplikativer Faktor, der den aktuellen Wert zukünftiger Belohnungen bestimmt. Er liegt zwischen 0 und 1; ein Wert nahe 0 führt dazu, dass der Agent unmittelbare Belohnungen bevorzugt, während ein Wert nahe 1 dazu führt, dass der Agent zukünftige Belohnungen stärker berücksichtigt.

Return in Kombination mit einem Abzinsungsfaktor wird als abgezinster Return bezeichnet.

Die Formel für den abgezinsten Return lautet:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Mehr erfahren

Selbst bei episodischen Aufgaben bietet die Verwendung eines Abzinsungsfaktors praktische Vorteile: Er motiviert den Agenten, sein Ziel so schnell wie möglich zu erreichen, was zu effizienterem Verhalten führt. Aus diesem Grund wird das Abzinsen auch in eindeutig episodischen Szenarien häufig angewendet.

question mark

Was stellt der Abzinsungsfaktor γ\gamma dar?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 4
some-alt