Return to site

Überwachtes Lernen (Supervised Learning)

Wie Maschinen anhand von markierten Beispielen lernen können

· ML Methoden

Grundlagen

Das überwachte Lernen bezeichnet ein Teilgebiet des Maschinellen Lernens. Im Englischen wird hierbei von supervised learning gesprochen. Ziel des überwachten Lernens ist es, ein Modell zu entwickeln (oft auch Funktion oder Hypothese genannt), dass für eine bestimmte Menge von Eingabedaten den Wert einer Ausgabevariable vorhersagt. Gelernt wird dieses Modell auf einer Menge von Daten, für die sowohl Eingabe- als auch Ausgabedaten bekannt sind. Intuitiv erlaubt der Abgleich zwischen prognostiziertem und tatsächlichem Ausgabewert während des Trainings, das Modell nach und nach zu verbessern und somit bessere Vorhersagen zu treffen. Das Ziel ist hierbei, wie bei den meisten ML-Anwendungen, möglichst gut generalisieren zu können, d.h. für bislang unbekannte Daten möglichst präzise Vorhersagen zu generieren.

Je nach Art der Ausgabevariable (oftmals auch als Zielvariable bezeichnet) unterscheidet man verschiedene Lernprobleme. Handelt es sich bei der Variable um eine kontinuierliche Variable (z.B. eine reelle Zahl), so spricht man von einem Regressionsproblem. Das Modell muss bei einem solchen Problem lernen, möglichst Prognosen nahe am tatsächlichen Wert zu treffen. Illustrieren lässt sich dieses Lernproblem im zweidimensionalen Raum (entspricht jeweils einer Eingabe- und Ausgabevariable) mit einer Kurve, die möglichst wenig Abstand zu den einzelnen Datenpunkten aufweist (siehe Grafik). Ist die Zielvariable kategorisch, d.h. sie kann nur eine vordefinierte Anzahl an Werten annehmen, handelt es sich um ein Klassifikationsproblem. Schon an der Bezeichnung lässt sich direkt erkennen, dass es bei Modellen dieser Problemklasse darum geht, Trainingsbeispiele der richtigen Klasse zuzuordnen. Die obige Grafik zeigt dabei den einfachsten Fall einer binären Klassifizierung (nur zwei Klassen). Die gelernte Funktion stellt dann eine Trennlinie zwischen den beiden Klassen da.

Beispiele

Im Folgenden werden zwei kurze Beispiele angeführt, um die beschriebenen Grundlagen besser verständlich zu machen:

Beispiel 1: Person A möchte ihr Haus verkaufen. Natürlich möchte er/sie sein Haus nicht zu einem zu günstigen Preis anbieten und sich damit Gewinne entgehen lassen. Zu teuer soll das Haus aber auch nicht angeboten werden, weil sich sonst niemand dafür interessieren wird. In diesem Fall wäre es also praktisch ein Modell zu haben, dass einem anhand von typischen Charakteristika eines Hauses (z.B. Lage, Anzahl der Schlafzimmer, Anzahl der Stockwerke, Gesamtfläche, etc.) einen guten Preis vorhersagen kann. Da es sich beim Preis um jede reelle, positive Zahl handeln kann, handelt es sich hierbei um ein Regressionsproblem. Ein maschinelles Lernverfahren könnte in diesem Fall lernen solche Vorhersagen zu treffen, indem es sich historische Verkaufsdaten ähnlicher Immobilien anschaut.

Beispiel 2: Nun möchte Person A anhand von historischen Börsendaten für jede der Aktien in ihrem Portfolio entscheiden, ob diese gehalten oder verkauft werden soll. Eine mögliche Herangehensweise an dieses Problem wäre, ein statistisches Modell zu trainieren, das diese Vorhersage automatisiert treffen kann. Da die Zielvariable nur zwei mögliche Werte (halten/verkaufen) annehmen kann, kann hier von einem Klassifikationsproblem gesprochen werden.

Weiterführende Literatur

Dieser Artikel soll nur einen kurzen Einstieg in das Prinzip des überwachten Lernens liefern. Weiterführende Informationen zu diesem und weiteren Themen lassen sich in den Ressourcen finden, die wir auf KI-Business zusammengestellt haben. Für eine Vertiefung dieses Themas ist insbesondere der Grundlagenteil geeignet.

Bildquellen

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK