· ML Algorithmen

Lineare Regression ist ein vergleichsweise simples Verfahren des Maschinellen Lernens (ML), das auf Grund seiner Einfachheit und Interpretierbarkeit sehr verbreitet in Industrie und Forschung ist. Der Name des Modells kommt zum einem vom Verwendungszweck (Vorhersage reeller Werte, bezeichnet als Regression), zum anderen daher, dass das Modell linear in seinen Parametern gehalten wird. Wie in vielen ML-Verfahren kommt auch hier häufig die Methode des Gradientenabstiegs für die Optimierung des Modells zum Einsatz.

Funktionsweise

Die Funktionsweise der linearen Regression wird nachfolgend an einem einfachen Beispiel erklärt. Das unten abgebildete Diagram zeigt Beispieldaten für Mietpreise abhängig von der Größe der jeweiligen Wohnung. Wir vermuten hier einen linearen Zusammenhang und wollen für eine unbekannte Wohnung unter Berücksichtigung der Größe einen Preis vorhersagen. Später wird die Qualität des Modells überprüft.

Wir versuchen nun eine Linie zu finden, die die beste Annäherung an diese Datenpunkte darstellt. Die Linie wird nicht exakt passen, sollte aber so nah wie möglich an allen Punkten liegen. Eine Linie im zweidimensionalen Raum ist mathematisch wie folgt definiert:

Schritt für Schritt werden nun zunächst die "Residuen" aller Punkte berechnet, also der Abstand des Punktes zur Linie. Jeder Abstandswert wird quadriert und diese Quadrate werden dann aufsummiert. Die Quadrierung der Abweichungen ist ein mathematisches Detail, auf das wir in diesem Artikel nicht weiter eingehen. Diese Summe stellt den Fehler, also die Gesamtabweichung aller Punkte von der Linie dar und beschreibt, wie "schlecht" die Vorhersage des Mietpreises durch das Modell ist. In jedem Schritt wird nun die Steigung und die Verschiebung der Linie so angepasst, dass der Fehler des Modells sinkt, bis er ein Minimum erreicht.  Dieses Minimum ist in der Regel nicht null (es sei denn alle Punkte liegen exakt auf einer Linie).

Kostenfunktion

Der Fehlerwert wird wie oben beschrieben wie folgt errechnet:

Da wir hier versuchen einen optimalen Wert zu finden, haben wir ein Optimierungsproblem. Im Kontext von Optimierungsproblemen wird diese Funktion auch Kostenfunktion genannt. Diese ist der Schlüssel zu jedem gradientenbasierten Verfahren.

Gradientenabstieg

Wichtig ist nun die Frage, wie errechnet wird, in welche Richtung die Steigung und die Verschiebung der Linie verändert werden müssen, um die Vorhersage zu verbessern. Gradienten lassen sich als mehrdimensionale Ableitungen erklären und geben an, wie sich eine Funktion entlang bestimmter Achsen ändert. Beim Gradientenabstieg wird der Gradient der Kostenfunktion errechnet, nicht der der Vorhersagefunktion. Dieser besteht dann aus zwei Ableitungen (je Dimension eine), mit deren Hilfe wir berechnen können, wie die Parameter m und b angepasst werden müssen.

Lernrate

In jedem Schritt kommt das Modell der optimalen Lösung näher. Steigt der Wert der Kostenfunktion wieder an, können wir davon ausgehen, dass wir das Minimum erreicht haben. Das exakte Minimum ist wahrscheinlich nicht erreicht worden, da die Parameter im letzten Schritt eventuell zu viel angepasst wurden. Deshalb wird an dieser Stelle noch die Lernrate eingeführt, die bestimmt, wie stark die Parameter in jedem Schritt geändert werden. Ist die Lernrate zu hoch, ist das gefundene Minimum relativ ungenau. Ist sie zu niedrig, dauert das Training des linearen Regressionsmodells zu lange. Software-Tools verfügen über Techniken, um die Lernrate dynamisch anzupassen. Die Hintergründe dessen werden in diesem Artikel nicht behandelt.

Qualitätsmessung mit R2

Um festzustellen, wie gut unser Modell den Zusammenhang zwischen Mietpreis und Wohnungsgröße abbildet, wird der Wert R² errechnet, mit dem sich Lineare Regressionsmodelle vergleichen lassen. Für R² wird zunächst die Varianz aller Punkte entlang der vorherzusagenden Achse berechnet. In diesem Falle sind das die Mietkosten. Die Varianz ist hier die Differenz zwischen dem einzelnen Mietpreises und dem durchschnittlichen Mietpreis, geteilt durch die Anzahl der Datenpunkte. Einfach ausgedrückt ist es die durchschnittliche Abweichung der Mietpreise vom Durchschnitt. Danach wird die Varianz entlang der Regressionslinie bestimmt, also die durchschnittliche Abweichung der Mietpreise vom für die Wohnungsgröße vorhergesagten Mietpreis. R² wird nach folgender Formel berechnet und stellt einen Prozentwert da, der aussagt, wie gut das Modell die abhängige Variable, hier der Wohnungspreis, vorhersagen kann.

Ist R² = 1 liegen alle Punkte auf einer Linie und unser Modell kann zu 100% genau den Wohnungspreis aus der Wohnungsgröße vorhersagen. Ist R² = 0, dann hat unser Modell keine Aussagekraft und die beiden Variablen hängen wahrscheinlich nicht zusammen. Anhand dieses Werten könne wir also die Aussagekraft unseres Modells bestimmen und Konsequenzen ziehen (z.B. andere Daten beschaffen, Modell prüfen).

Weiterführende Literatur

Dieser Artikel soll nur einen kurzen Einstieg in die Funktionsweise von linearen Regressionsmodellen liefern. Weiterführende Informationen zu diesem und weiteren Themen lassen sich in den Ressourcen finden, die wir auf KI-Business zusammengestellt haben. Für eine Vertiefung dieses Themas ist insbesondere der Grundlagenteil geeignet.

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK