Return to site

Unüberwachtes Lernen (Unsupervised Learning)

Wie Maschinen Muster in unmarkierten Daten erkennen können

· ML Methoden

Grundlagen

Wie das überwachte Lernen handelt es sich auch beim unüberwachten Lernen (engl. unsupervised learning) um ein Teilgebiet des Maschinellen Lernens. Im Gegensatz zum überwachten Lernen sind die Ausgabevariablen jedoch nicht bekannt, sodass man von unmarkierten Daten sprechen kann. Statt eine Funktion zu lernen, die Eingabe- mit Ausgabevariablen in Verbindung setzt, geht es beim unüberwachten Lernen eher darum, Muster in unmarkierten Daten zu erkennen. Entsprechende Trainingsalgorithmen haben dann das Ziel, beobachtete Muster nach und nach zu verfeinern. Die identifizierten Regelmäßigkeiten sollten dabei möglichst allgemeingültig sein, also auch für nicht berücksichtigte Datenpunkte gelten. Eine zu starke Anpassung an die für das Training genutzten Daten bezeichnet man umhin als Overfitting. Die folgenden Abschnitte führen kurz in gängige Problemstellungen des unüberwachten Lernens ein.Add paragraph text here.

Als häufigste Problemstellung beim unüberwachten Lernen kann die sogenannte Clusteranalyse angesehen werden. Hierbei wird das Ziel verfolgt, eine Menge von Datenpunkten in eine bestimmte Anzahl von Gruppen (sog. Cluster) zu ordnen. Die obige Abbildung zeigt ein Beispiel für diese Problemstellung. Hier werden die zweidimensionalen Datenpunkte in drei Gruppen eingeteilt, welche auf der rechten Seite mit unterschiedlichen Farben dargestellt sind. Bei den meisten Clustering-Algorithmen muss die Anzahl der Gruppen im Vorhinein definiert werden, was bei hochdimensionalen Datensätzen offensichtlich eine Limitation darstellt. 

Unüberwachte Lernverfahren werden neben der Clusteranalyse besonders im Bereich der Anomalie-Erkennung (engl. anomaly detection) eingesetzt. Hier sollen ungewöhnliche Datenpunkte identifiziert werden, die stark von der Mehrheit der betrachteten Trainingsbeispiele abweichen. Im oben abgebildeten Prozess lassen sich periodische Schwingungen erkennen, welche durch die grüne Linie angenähert werden. Die als Sterne markierten Datenpunkte weichen von dieser Annäherung am stärksten ab und können deshalb als Anomalien betrachtet werden. Die identifizierten Anomalien stellen häufig ein Problem für den beobachteten Prozess dar oder deuten auf Fehler im normalen Prozessablauf hin. Neben unüberwachten Trainingsalgorithmen können hier auch überwachte Verfahren eingesetzt werden, die jedoch die Existenz von markierten Trainingsdaten voraussetzen.

Beispiele

Im Nachfolgenden sollen die oben beschriebenen Problemstellungen des unüberwachten Lernens anhand zweier Beispiele besser veranschaulicht werden.

Beispiel 1: Anwaltskanzleien sehen sich häufig dem Problem ausgesetzt, dass sie in großen Datenmengen eine kleine Anzahl relevanter Dokumente identifizieren müssen. Darüberhinaus ist es oft hilfreich zu wissen, welche Dokumente ähnliche Themenstellungen betreffen. Um dieser Problemstellung zu begegnen, können Clustering-Verfahren eingesetzt werden. Dabei stellt jedes Dokument einen Datenpunkt dar, welcher durch eine Menge von Wörtern charakterisiert werden kann. Durch geeignete Verfahren der Textverarbeitung und der Clusteranalyse ist es heute schon möglich, große Zahlen von Dokumenten in Cluster mit ähnlichen Themenstellungen zu gruppieren. Eine Reihe von Beispielen praktischer Anwendungen finden Sie in unserer Startup-Übersicht.

Beispiel 2: In der Fertigung eingesetzte Maschinen sind zunehmend mit einer großen Anzahl an Sensoren ausgestattet, die Echtzeitzugriff auf den Zustand der Maschine ermöglichen. Fertigende Unternehmen setzen Verfahren der Anomalie-Erkennung heutzutage beispielsweise für die vorausschauende Wartung (engl. predictive maintenance) ein, um Probleme in Maschinen frühzeitig erkennen und beheben zu können. Nähere Informationen zum Einsatz von Maschinellem Lernen in Produktion und Beschaffung sind in unserem Branchen-Guide beschrieben.

Weiterführende Literatur

Dieser Artikel soll nur einen kurzen Einstieg in das Prinzip des unüberwachten Lernens liefern. Weiterführende Informationen zu diesem und weiteren Themen lassen sich in den Ressourcen finden, die wir auf KI-Business zusammengestellt haben. Für eine Vertiefung dieses Themas ist insbesondere der Grundlagenteil geeignet.

Bildquellen

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OK