Return to site

Bestärkendes Lernen (Reinforcement learning)

Wie Maschinen anhand von Belohnungen lernen können

· ML Methoden

Grundlagen

Bestärkendes Lernen (engl. reinforcement learning) stellt eine Methode des Maschinellen Lernens dar, in der ein Agent erlernt selbständig in seiner Umwelt zu agieren. Dabei erhält er Rückmeldungen zu seinem Verhalten mittels Belohnungen (engl. rewards), deren Frequenz und Höhe für den Agenten anfänglich jedoch unbekannt sind. Hier ist zu beachten, dass Belohnungen auch negativer Art sein können und somit “Bestrafungen” darstellen. Ziel des Agenten ist es zusammengefasst eine Vorgehensweise zu lernen, die die erhaltenen Belohnungen über die Zeit maximiert. Die gesammelten Belohnungen erlauben die Annäherung einer Nutzenfunktion (engl. value function), welche einem Zustand bzw. einer Aktion einen bestimmten Wert zuordnet.

Die obige Abbildung verdeutlicht die formalen Hintergründe des bestärkenden Lernens. Zu jedem Zeitpunkt befinden der Agent und seine Umwelt sich in einem bestimmten Zustand. In diesem Ausgangszustand hat der Agent die Wahl zwischen mehreren Aktionen. Jede dieser Aktionen überführt den Agenten und seine Umwelt in einen Folgezustand. Mit dem Übergang in den Folgezustand erhält der Agent eine Belohnung, welche positiv, negativ oder neutral ausfallen kann. Bei der Bestimmung der nächsten Aktion orientiert sich der Agent an einer sogenannten Strategie (engl. policy), die Zuständen eine Aktion zuordnet. Durch die erhaltenen Belohnungen wird die Strategie des Agenten schrittweise verbessert. Das oben beschriebene Ziel entspricht dann einer Maximierung des erwarteten Gewinns, welcher die Summe der erwarteten Belohnungen darstellt. Hierbei werden näher in der Zukunft liegende Belohnungen zumeist höher gewichtet als weiter in der Zukunft liegende.

Oftmals wird an dieser Stelle die Frage gestellt, wo die Unterschiede zwischen bestärkendem und überwachtem Lernen liegen. Hier können zwei grundlegende Unterschiede festgehalten werden. Erstens lernt der Agent im bestärkenden Lernen durch die kontinuierliche Interaktion mit seiner Umwelt, während das Training eines Algorithmus mittels überwachtem Lernen einen zeitlich begrenzten Vorgang darstellt. Zweitens erhält ein Algorithmus des überwachten Lernens nach der Betrachtung jedes Trainingsbeispiels ein Feedback in Form des wahren Werts der Zielvariable. Im bestärkenden Lernen sind die Trainingsimpulse (in Form von Belohnungen) seltener, d.h. der Agent kann nicht zwangsläufig jede seiner Aktionen unmittelbar evaluieren. 

Beispiele

Im Nachfolgenden sollen die oben beschriebenen Problemstellungen des bestärkenden Lernens anhand zweier Beispiele besser veranschaulicht werden.

Beispiel 1: Algorithmen des bestärkenden Lernens werden oftmals mithilfe von Spielen entwickelt. In den letzten Jahren entwickelte vor allem das Unternehmen DeepMind Agenten, welche in komplexen Brettspielen wie Go oder Schach menschliche Spitzenspieler schlagen konnten. Als Zustand kann der Agent hierbei die momentane Stellung (bzw. Brettsituation) evaluieren und wählt aus der Menge aller legalen Züge, welche seine Aktionen darstellen. Positive Belohnungen erhält der Agent beispielsweise durch das Schlagen von Figuren des Gegners oder den Gewinn des Spiels durch Schachmatt.

Beispiel 2: Auch simplere Geschicklichkeitsspiele eignen sich für die Entwicklung von Agenten mittels bestärkendem Lernen. Als Beispiel sei hier Pong genannt (siehe obige Abbildung). Hier versuchen beide Spieler den Ball am Schläger des anderen Spielers vorbeizubringen. Den momentanen Zustand charakterisieren hier die Position des Balls, seine Bewegungsrichtung, sowie die Positionen der beiden Schläger. Mögliche Aktionen sind Aufwärts- und Abwärtsbewegungen des Schlägers. Belohnungen werden in diesem Fall erst erreicht, wenn der Ball den gegnerischen oder eigenen Schläger passiert.

Weiterführende Literatur

Dieser Artikel soll nur einen kurzen Einstieg in das Prinzip des bestärkenden Lernens liefern. Weiterführende Informationen zu diesem und weiteren Themen lassen sich in den Ressourcen finden, die wir auf KI-Business zusammengestellt haben. Für eine Vertiefung dieses Themas ist insbesondere der Grundlagenteil geeignet.

Bildquellen

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly