KI-gestützte Textklassifikation zur Verwaltung von Unternehmensdaten

  • Expertise

Jedes Unternehmen verfügt über eine große Menge an Textdaten. Dazu gehören E-Mails, Produktbewertungen und viele andere Dokumente. Textdaten sind eine äußerst reichhaltige Informationsquelle. Aufgrund der unstrukturierten Natur der Daten ist es jedoch oftmals schwierig und zeitaufwändig, Erkenntnisgewinne aus ihnen zu gewinnen. Helfen kann eine Textklassifizierung, die auf maschinellem Lernen beruht und dabei hilft, die Texte effektiv zu analysieren. Auf Grundlage dieser Daten können Unternehmen ihre Prozesse beschleunigen.

Textklassifizierung mit maschinellem Lernen

Die auf maschinellem Lernen basierende Textklassifizierung kann freie Texte auf der Grundlage früherer Beobachtungen klassifizieren. Sie besteht aus zwei Phasen: einer Lernphase und einer Klassifikationsphase.

In der Lernphase lernt ein Algorithmus den Zusammenhang zwischen den Textdaten und ihrer Kategorie, den er aus den bisherigen, bereits klassifizierten Daten gewinnt. Daraus baut das Programm einen Klassifikator.

In der Klassifikationsphase ist der Klassifikator dafür da, um aus den Daten die noch fehlenden Kategorisierungen vorauszusagen. Sobald er mit genügend Trainingsbeispielen trainiert ist, kann der Klassifikator genaue Vorhersagen liefern.

Was ist ein Klassifikator?

In der Informatik ist ein Klassifikator ein Algorithmus, der die verschiedenen Merkmale von Daten zu einer Klasse zusammenfasst.

Anwendungsfälle der Textklassifizierung

Die Textklassifizierung hilft Unternehmen dabei, die Verwaltung ihrer Textinhalte zu automatisieren und den Geschäftsprozess zu beschleunigen. Zu den Anwendungen der Textklassifizierung können gehören:

  • Zuordnung der Kundenanfragen: Automatische Zuordnung eingehender Kundenanfragen zum zuständigen Mitarbeitenden oder zur Abteilung.
  • Organisation von Big Content: Mit der automatischen Klassifizierung von Inhalten können Unternehmen umfangreiche Inhalte rasch organisieren und archivieren.
  • Identifizierung der Kundeninteressen: Durch die Analyse der Kundenbewertungen von Produkten kann die Kaufabsicht der Kunden ermittelt werden.
  • Gruppieren der Produktbewertungen: Automatische Einteilung der Produktbewertungen in verschiedene Gruppen, z.B. gut, schlecht und neutral.
  • Erstellen von Berichten: Beschleunigung der Erstellung verschiedener Berichte, z.B. über Kundenanfragen, Kundeninteresse und Produktbewertung.

Aufgaben und Technologien

Textklassifizierung besteht aus mehreren Aufgaben: Datenakquise, Textreinigung, Merkmalsextraktion, Klassifikatoraufbau und Bewertung des Klassifikators. Zur Bewältigung dieser Aufgaben sind verschiedene Arten von Technologien erforderlich: Natural Language Processing, Feature Engineering, maschinelles Lernen und Evaluierung.

  • Aufbau eines Klassifikators: Ein Klassifikator wird von einem Algorithmus des maschinellen Lernens aufgebaut. Der Klassifizierungsalgorithmus trainiert den Klassifikator anhand früherer Erfahrungen, um den Zusammenhang zwischen Texten und ihren Kategorien zu lernen. Der Klassifikator führt Klassifizierungsaufgaben aus und sagt die Kategorie eines Textdokumentes voraus. Die am meisten verbreiteten Klassifizierungsalgorithmen sind Random Forest, Support Vector Machine, K Nearest Neighbors, Multinomial Naïve Bayes, Multinomial Logistic Regression, Gradient Boosting und Transformers (GPT-2, BERT, CTRL).
  • Merkmalsextraktion: Eine Methode aus dem Feature Engineering wandelt Textdaten in numerische Daten um, die vom Klassifizierungsalgorithmus verarbeitet werden können. Die Merkmalsextraktion ist eine sehr wichtige Aufgabe der Textklassifizierung. Die Qualität der Merkmale spielt eine große Rolle für die Genauigkeit der Vorhersage des Klassifikators. Zu den Methoden des Feature Engineering gehören Bag of Words (TF, TF-IDF), Word Embeddings (Word2Vec, GloVe, FastText, ELMo), Text based order NLP-based Features, Topic Models (Latent Dirichlet Allocation), Transformers (GPT-2, BERT, CTRL).
  • Datenvorbereitung: Feature-Engineering-Methoden funktionieren nicht mit sogenanntem Rohtext. Daher müssen die Daten zuerst vorbereitet werden. Dies geschieht mit Methoden wie Tokenisierung, Stemming, Lemmatisierung, Stoppwortentfernung und Teil-der-Sprache-Kennzeichnung. Zudem werden die Techniken des Natural Language Processing benötigt, um die Rohtexte zu analysieren und diese Aufgaben zu erledigen.
Was ist Natural Language Processing (NLP)?

Die Natural-Language-Processing (NLP) ist ein Teilgebiet der Linguistik, der Informatik und der künstlichen Intelligenz, das sich mit der Interaktion zwischen Computern und menschlicher Sprache befasst - insbesondere mit der Frage, wie man Computer so programmiert, dass sie große Mengen an natürlichsprachlichen Daten verarbeiten und analysieren können.

Was ist Stemming?

Als Stemming bezeichnet man in der linguistischen Informatik ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden.

Was ist Lemmatisierung?

Unter Lemmatisierung wird die Rückführung einer gebeugten Form eines Wortes auf ihre Grundform bezeichnet.

  • Evaluation der Klassifikatoren: Sobald ein Klassifikator gebaut ist, muss seine Qualität untersucht werden. Daher wird diese evaluiert. Die Bewertung der Ergebnisse ist eine wichtige Aufgabe in jedem datenwissenschaftlichen Projekt. Mithilfe von Bewertungsmethoden des maschinellen Lernens findet man heraus, wie gut der Klassifikator die Kategorie vorhersagen kann.

Textklassifikation in der Praxis

Bei aller grauer Theorie stellt sich natürlich die Frage, was konkret Unternehmen mit der Analyse ihrer Textdaten machen können. Der Zweckverband Ostholstein lässt zum Beispiel mit dieser Methode seine Postfächer sortieren. Lesen Sie unser Praxisbeispiel zum Thema Künstliche Intelligenz.

Zum Praxisbeispiel

Die Auswahl der richtigen Techniken

Viele Techniken sind entwickelt worden, um die Aufgaben der Klassifikation zu bewältigen. Wir müssen aus ihnen die am besten geeigneten Techniken auswählen, um einen qualitativ hochwertigen Klassifikator aufzubauen. Die Herausforderung besteht also darin, einen geeigneten Klassifikationsalgorithmus, eine geeignete Feature-Engineering-Methode und die geeigneten Parameter zu bestimmen. Das Training von Klassifikatoren mit verschiedenen Kombinationen von Klassifizierungsalgorithmen, Feature-Engineering-Methoden und Parametern ist sehr rechenintensiv und zeitaufwendig.

Die Auswahl der geeigneten Techniken ist wie folgt definiert:

  • Überprüfung des aktuellen Standes der Technologien für Textklassifizierung
  • Auswahl einer Reihe von Techniken entsprechend der Art des Problems
  • Erstellen von Klassifikatoren mit verschiedenen Kombinationen von Techniken und Hyperparametern sowie zur Auswertung der Klassifikatoren
  • Neuaufbau der Klassifikatoren unter Verwendung verschiedener Hyperparameterwerte und Auswertung der Klassifikatoren
  • Bestimmen der Techniken und Hyperparameter, die den genauesten Klassifikator bilden
Was ist ein Hyperparameter?

Beim maschinellen Lernen ist ein Hyperparameter ein Parameter, dessen Wert verwendet wird, um den Lernprozess des KI-Modells zu steuern.

Wie sieht der Entwicklungsprozess für den Klassifikators aus

Die folgende Auflistung beschreibt die sogenannte „Pipeline“ zum Entwickeln eines Klassifikators:

Schritt 1: Datenbeschaffung

Die im Geschäftsprozess erzeugten Daten werden erfasst und beschriftet. Sie sind die Daten zum Trainieren eines Klassifikators. Je mehr wir die Trainingsdaten erfassen, desto genauer kann der Klassifikator vorhersagen.

Schritt 2: Datenerkundung

Wir müssen die Daten kennenlernen, um festzustellen, wie sie in den folgenden Schritten verarbeitet werden sollen.

  • Wie sehen die Daten aus?
  • Welche Eigenschaften hat jede Kategorie?
  • Sind die Kategorien ausgewogen?
  • Was sind die statistischen Merkmale der Daten?
  • Gibt es fehlende Datenwerte, Ausreißer oder Rauschen?

Schritt 3: Datenvorbereitung

Die Daten werden für die Merkmalsextraktion vorbereitet. Zur Datenverarbeitung gehören:

  • Tokenisierung
  • Stemming und Lemitisierung
  • Entfernen von Stoppwörtern
  • Teil-der-Sprache-Kennzeichnung

Schritt 4: Merkmalsextraktion

Die Merkmalsextraktion ist eine sehr wichtige Aufgabe der Textklassifizierung. Sie extrahiert numerische Merkmale aus den Textdaten. Die Genauigkeit der Vorhersage des Klassifikators wird stark von den Ergebnissen der Merkmalsextraktion beeinflusst.

Schritt 5: Klassifikatoraufbau

Ein Klassifizierungsalgorithmus trainiert einen Klassifikator aus den vergangenen Beobachtungen, um die Assoziation zwischen einem Textdokument und seiner Kategorie zu lernen. Anschließend kann der Klassifikator die Kategorie den Texten selbstständig zuordnen.

Schritt 6: Testen und Bewertung des Klassifikators

Der Klassifikator wird nach verschiedenen Metriken bewertet, um die Qualität seiner Klassifikation zu überprüfen, sodass wir wissen, wie gut der Klassifikator ist. Stimmen die Kategorien? Wie hoch ist die Fehlerquote, d.h. wo hat der Algorithmus die Texte falsch zugeordnet?

Schritt 7: Wiederholung der Schritte 4-6

Um einen qualitativ hochwertigen Klassifikator zu finden, müssen die Schritte von 4 bis 6 mit verschiedenen Techniken und Hyperparameterwerten wiederholt werden.

Schritt 8: Festlegung und Einsatz des Klassifikators

Evaluierungsergebnisse aller Klassifikatoren werden zusammen überprüft, über- und unterpassende Klassifikatoren werden ermittelt. Der beste Klassifikator wird festgelegt und dieser kann verwendet werden, um Klassifizierungsaufgaben auszuführen.

Autorin

Dr. Jinghua Groppe
Künstliche Intelligenz (KI), Datenanalyse und Data Science

Dr. Jinghua Groppe

Sie haben Interesse mit uns Ihr erstes Daten- oder KI-Projekt zu starten? Dann melden Sie sich bei einem unserer Expert*innen.