Datenanalyse: Mit Clustering verborgene Muster in Daten entdecken

  • Expertise

Viele Unternehmen kommen mit einer großen Datenmenge zu uns und wollen wissen, was der Mehrwert dieser Daten ist. Eine wichtige Datenanalysemethode, um die in den Daten verborgenen Muster und Faktoren zu entdecken, ist das Clustering.

Was ist der Mehrwert meiner Daten? Wie kann ich von meinen Daten profieren und meine Daten gewinnbringend nutzen? Wir stellen Ihnen verschiedene Analysemethoden vor. Hier das Datenclustering.

Was ist Clustering?

Clustering ist eine Datenanalysemethode, die ähnliche Objekte in einem Datensatz identifiziert und gruppiert. Die so gefundenen Gruppen von „ähnlichen“ Objekten werden als Cluster bezeichnet. Die Gruppenzuordnung als Clusterbildung oder Clustering.

Durch Identifizieren und Gruppieren ähnlicher Daten hilft Clustering Ihrem Unternehmen, die in Daten versteckte Faktoren und Muster zu finden und damit die richtige Geschäftsentscheidung zu treffen oder geeignete Maßnahmen zu ergreifen.

Schauen wir uns nun ein Beispiel an, um die Vorteile der Clusterbildung zu veranschaulichen.

Beispiel - Entwicklung einer Kreditstrategie

Eine Bank entwickelt eine Kreditstrategie für ihre Kund*innen.

Kreditstrategieentwicklung ohne Clusterverfahren: Um zu entscheiden, welches Angebot einem bestimmten Kunden gegeben werden kann, reicht es nicht aus, nur die Details des Kunden zu betrachten. Daher vergleicht die Bank den Kunden mit anderen. Jedoch hat ein Kreditinstitut in der Regel tausende oder Millionen Kund*innen. Daher ist ein einfacher Abgleich eher ineffizient und unpraktisch.

Kreditstrategieentwicklung mit Clusterverfahren: Die Bank führt daher zunächst ein Clustering mit den Kundendaten durch und bildet sechs Gruppen (siehe unten). Dann entwickelt sie sechs Strategien, eine für jede Gruppe. Anstatt den Kunden mit allen anderen Kund*innen zu vergleichen, muss die Bank nur noch prüfen, zu welcher Gruppe der Kunde gehört, um ein passendes Angebot zu unterbreiten.

Kreditstrategieentwicklung mit Clusterverfahren

Cluster 1: Mittleres Einkommen, niedrige jährliche Ausgaben
Cluster 2: Geringes Einkommen, niedrige jährliche Ausgaben
Cluster 3: Hohe Einnahmen, hohe jährliche Ausgaben
Cluster 4: Geringes Einkommen, hohe jährliche Ausgaben
Cluster 5: Mittleres Einkommen, niedrige jährliche Ausgaben
Cluster 6: Sehr hohes Einkommen, hohe jährliche Ausgaben

Anwendungsbeispiele aus der Praxis

Clustering ist in der Wirtschaft eine weit verbreitete Technik und kann in fast allen Branchen eingesetzt werden. Hier stellen wir Ihnen einige gängige Anwendungsbereiche des Clustering vor.

Kundensegmentierung

Das oben angeführte Beispiel für die Entwicklung einer Kreditstrategie ist eine Kundensegmentierung. Hier werden Kunden mit ähnlichen Verhaltensweisen zusammengefasst. Die Kundensegmentierung ist eine der häufigsten Anwendungen des Clusterings.

Durch die Kundensegmentierung können Unternehmen ihre Kunden besser verstehen, einzelne Kundengruppen gezielt ansprechen oder entsprechende Produkte und Dienstleistungen anbieten. Zudem kann auf Grundlage der Daten ein passendes Geschäftsmodell oder eine Entwicklungsstrategien festlegt werden.

Text-Clustering

Neben numerischen Daten haben Unternehmen auch eine große Menge an Textdaten, wie z.B. verschiedene Dokumente, E-Mails, Kundenanfragen oder Produktbewertungen. Text-Cluster gruppieren automatisch ähnliche Textdaten und ermöglichen es dem Unternehmen, ihre Textdokumente schnell und kostengünstig zu analysieren, um daraus geschäftliche Erkenntnisse zu gewinnen.

Durch die automatische Gruppierung von Textdaten können Unternehmen ihre Dokumente ebenfalls effizient organisieren und zusammenfassen, Informationen schnell abrufen und Produktempfehlungen vereinfachen.

Bildsegmentierung

Die Clustering-Methode eignet sich auch, um Bilder zu gruppieren und zu segmentieren. Eine Bilddatei besteht aus einer Menge an verschiedenen Pixeln. Die Bildsegmentierung gruppiert ähnliche Pixel, wodurch Objekte im Bild identifiziert werden können.

Es gibt viele Gründe für eine Bildsegmentierung in der Industrie, z.B. um ein Fließband zu überwachen oder um Objekte zu lokalisieren und zu verfolgen.

Die Bildsegmentierung hat auch eine breite Anwendung im Gesundheitswesen. Die medizinische Bildsegmentierung kann Ärzten helfen, Krankheiten frühzeitig zu diagnostizieren. So kann die die Methode z.B. kranke Zellen erkennen, da diese Zellen eine andere Form oder Größe als gesunde Zellen haben.

Produktempfehlung

Durch Clustering können Produkte leicht empfohlen werden. Ein gängiges Beispiel für Produktempfehlungen ist die Buchempfehlung. Wenn ein Kunde ein Buch sucht, kann der Buchhändler durch das Clustern schnell ähnliche Bücher vorschlagen.

Clustering Algorithmen

Es gibt zahlreiche Algorithmen zur Berechnung von Clustern. Diese sind für verschiedene Datenverteilungen und Problembereiche geeignet und haben unterschiedliche Berechnungskomplexitäten.

Welcher Clustering-Algorithmus eignet sich für meine Anwendung?

Es gibt keine einfache Antwort auf diese Frage. Je nach verwendetem Clustering-Algorithmus können unterschiedliche Strukturen gefunden oder auch nicht gefunden werden. Einige Algorithmen können die vorhandenen Cluster akkurat finden, andere nicht.

Es ist notwendig, zunächst die Eigenschaften der Daten und die Art des Problembereichs zu untersuchen, dann verschiedene Algorithmen und Verfahren zu probieren, um schließlich die beste geeignete Methode zu verwenden.

Bewertung von Clustern

Der Clustering-Algorithmus analysiert Daten und gruppiert ähnliche Daten in Cluster. Jetzt müssen Sie fragen, wie gut erklären die gefundenen Cluster Ihre Daten? Werden Eigenschaften oder Strukturen durch die Cluster dargestellt? Können Sie durch die Cluster etwas Neues und Nützliches erfahren? Um solche Fragen zu beantworten, müssen die gefundenen Cluster einer Bewertung unterzogen werden.

Es gibt verschiedene Methoden und Metriken zur Einschätzung der Qualität von Clustern. Um eine geeignete Bewertungsmetrik und -methode festzulegen, müssen Sie die verwendeten Daten, die vorgegebene Fragestellung sowie den angewandten Clustering-Algorithmus berücksichtigen.

Wir unterstützen Unternehmen kostenlos

Brauchen Sie Unterstützung bei der Analyse Ihrer Daten? Oder möchten Sie mit uns Ihr eigenes Datenprojekt umsetzen? Wir helfen Ihnen, eine passende Lösung zu finden und Ihr Wissen aufzubauen.

Prof. Dr. Martin Leucker
Teilprojektleiter Interoperabilität

Prof. Dr. Martin Leucker

Dr. Jinghua Groppe
Datenanalyse und Data Science

Dr. Jinghua Groppe