Article

Text Mining: Die neue Chance für Unternehmen

So kann künstliche Intelligenz (KI) Firmen beim Verarbeiten von Verträgen, Abrechnungen, weiteren Dokumenten und Webpages unterstützen

Verträge auf Nebenabreden durchsuchen, Bilanzkennzahlen aus Geschäftsberichten extrahieren, Buchungssätze auf Basis eingelesener Belege generieren oder aktuelle News-Feeds für das Asset-Management scannen: Die Zahl der Dokumente, die Unternehmen verarbeiten müssen, nimmt kontinuierlich zu. Gleichzeitig steigt der Kostendruck. Mit Text Mining lassen sich wertvolle Informationen aus strukturierten und unstrukturierten Dokumenten automatisch auslesen und inhaltlich einordnen – extrem schnell und mit hoher Genauigkeit. Unsere Experten beschreiben Voraussetzungen und Möglichkeiten künstlicher Intelligenz bei der Auswertung nicht-standardisierter Texte in Unternehmen und erklären anhand des Use Case „Textmining Darlehensverträge“ für eine große deutsche Bank, worauf es dabei ankommt.

Als es dem Supercomputer Deep Blue 1997 gelang, den amtierenden Weltmeister Kasparow im Schach zu schlagen, lieferte IBM erstmals den Beweis, dass künstliche Intelligenz (KI) dazu fähig ist, sich auch bei komplexen Aufgaben speziellen Fertigkeiten des menschlichen Gehirns anzunähern – und diese sogar zu übertreffen. Und doch ist es so, dass die größte Herausforderung für KI auch heute noch darin besteht, Dinge zu tun, die einem Menschen eher einfach erscheinen, etwa gesprochene Wörter zu erkennen oder Bilder und Texte zutreffend einzuordnen. Denn dafür ist es erforderlich, Zusammenhänge zu verstehen, um zum Beispiel Ungenauigkeit oder Mehrdeutigkeiten zu erkennen – und das setzt ein immenses Wissen über die Welt voraus, über das Menschen in der Regel bereits subjektiv und intuitiv verfügen. Dieses informelle Wissen Computern zu vermitteln, ist eine Hürde für die Entwicklung von Artificial Intelligence. Wo dies jedoch gelingt, etabliert sie sich in atemberaubender Geschwindigkeit als Schlüsseltechnologie mit enormem Potenzial für Unternehmen.

 

Erfahren Sie in unserem Flyer mehr zu Text Mining in Financial Services:

Wie Computer denken lernten

Den Durchbruch bei den Bemühungen, Computer den Kompetenzen des menschlichen Gehirns anzunähern, ermöglichte das Zusammenspiel von Natural Language Processing und Deep Learning.

Natural Language Processing (NLP) lässt sich als automatische Verarbeitung natürlicher Sprache durch Algorithmen definieren. Die besondere Herausforderung besteht darin, dass Sprache sehr kontextabhängig ist. Wörter haben in Verträgen eine andere Bedeutung als z.B. auf einer Marketing-Website. Zusätzlich sind Menschen in der Lage, sich sehr differenziert auszudrücken, ohne die dahinterstehenden Regeln formal beschreiben zu müssen. NLP verhilft dem Computer dazu, menschliche Sprache rechnerisch soweit zu verarbeiten, dass dieser sinnvoll darauf reagieren kann. Die dabei genutzten Algorithmen können vom Menschen produzierten Text erfassen, analysieren sowie relevante Aspekte identifizieren und extrahieren.

Deep Learning ist ein Teilbereich von Machine Learning, bei dem die Algorithmen von der Struktur und den Funktionen des Gehirns inspiriert sind. Als entscheidende Faktoren für die Qualität dieser künstlichen neuronalen Netzwerke erwiesen sich die immens gewachsene Rechenpower von Computern und der Zugriff auf Big Data. Vereinfacht ausgedrückt: Je stärker das neuronale Netzwerk des Computers wächst und je mehr Daten ihm zugeführt werden, desto leistungsfähiger wird es. Im Unterschied zu früheren Techniken nutzt Deep Learning bei seinem Lernprozess eine höhere Anzahl hierarchisch aufgebauter Schichten (Layer). Anhand von vorgegebenen Trainingsdaten bestimmt das Modell über alle Ebenen selbst, welche Information und Schlussfolgerung für die jeweilige Fragestellung relevant beziehungsweise unbedeutend sind, sodass die künstlichen neuronalen Netzwerke des Deep Learnings der Funktionsweise des menschlichen Gehirns bereits sehr nahekommen.

 

Mit Text Mining lesen und bewerten Computer textuelle Informationen

Text Mining basiert in wesentlichen Aspekten auf den Möglichkeiten von Natural Language Processing und Deep Learning. Ziel dieses Analyseverfahrens ist es, Bedeutungszusammenhänge in Texten zu erkennen und automatisch zu verarbeiten.
Anders als Data Mining befasst sich Text Mining mit eher schwach strukturierten Textdaten. Das Verfahren ermöglicht es, Inhalte und Themenfelder verschiedenartiger Dokumente oder Webpages für eine Analyse zu extrahieren, zusammenzufassen und zu ordnen. So können Unternehmen diese künstliche Intelligenz für eine Vielzahl sehr unterschiedlicher Aufgaben nutzen. Zu den möglichen Anwendungsfeldern gehören beispielsweise das Erfassen und Bewerten von Stammdaten, das Herausfiltern spezifischer Vertragsbedingungen, das Gruppieren von Dokumenten in unterschiedliche Kategorien, das Generieren von Buchungssätzen auf Basis eingelesener Belege, die Prüfung aktueller Newsfeeds sowie viele weitere Geschäftsanwendungen.

Unternehmen profitieren dabei insbesondere durch:

  • Effizienzsteigerung, zum Beispiel durch schnellere Resultate, Textverarbeitung in mehreren Sprachen, einer 24/7-Auslastung – sowie dadurch, innerhalb großer Mengen an Informationen sprichwörtlich die Nadel im Heuhaufen zu finden
  • Qualitätssteigerung durch signifikante Verringerung der Fehlerquote
  • Entlastung der Mitarbeiter von repetitiven und zeitintensiven Arbeiten
  • Motivationssteigerung der Mitarbeiter durch die Möglichkeit, freiwerdende Kapazitäten in produktivere Aufgabenbereiche zu verlagern

 

So setzen Unternehmen Text Mining ein

Prinzipiell folgt die Umsetzung eines Text-Analyse-Modells in Unternehmen einem standardisierten Vorgehen. Der Prozess lässt sich in sechs Einzelschritte unterteilen:

1. Business Understanding: Entwickeln eines klaren Verständnisses der vorrangigen Unternehmensfragen. Schon bei der Aufnahme der Anforderungen sollte thematisiert werden, welcher Output bei der Textanalyse das Business unterstützen soll.

2. Data Understanding: Verstehen der Struktur der vorliegenden Textdaten beziehungsweise Konkretisierung der benötigten Datenquellen. Für ein erfolgreiches Text-Analytics-Modell ist es entscheidend, die passgenauen Informationen für den Anwendungsfall zu identifizieren.

3. Data Preparation: Um die Textdaten für die Modellierung vorzubereiten, werden die ausgewählten Daten in einem Textkorpus zusammengefasst. Reicht die Datenbasis nicht aus oder sind notwendige Korpora nicht verfügbar, müssen entsprechende Daten hinzugefügt werden, zum Beispiel durch das Crawlen geeigneter, öffentlich zugänglicher Nachrichtenquellen oder Social-Media-Posts. Fehlt auf unterschiedlichen Ebenen die notwendige Kategorisierung oder Strukturierung, nehmen Experten des jeweiligen Fachgebietes die erforderliche Zuordnung in einem Labelling-Prozess vor.

4. Modelling: Nachdem die Texte als Input für die Text-Mining-Algorithmen vorbereitet wurden, wird auf Basis der vorhandenen Expertise ein geeignetes Modell ausgewählt. In dieser Phase erfolgt auch die Festlegung aller erforderlichen Parameter für das Text Mining.

5. Evaluation: Modell und Verfahren werden anhand der Management-Vorgaben zur Performance-Evaluierung sowie anhand statistischer Methoden bewertet und gegebenenfalls angepasst.

6. Prototyping & Deployment: Die Entwicklung eines Prototyps erlaubt die Potenzialeinschätzung eines Text-Mining-Use-Cases. Er dient außerdem dazu, die Ergebnisse anschließend zu erweitern und die Text-Mining-Anwendung live zu nehmen (Deployment).

 

Die größten Herausforderungen beim Text Mining

Bei der Entwicklung eines Text-Analysis-Modells ergeben sich eine Reihe von Problemstellungen, deren Handhabung für die spätere Nutzung von zentraler Bedeutung sind. So kommt es entscheidend auf die Qualität der zur Verfügung gestellten Daten an. Für die Datenaufbereitung sind im besten Fall maschinenlesbare Dokumente verfügbar. Alternativ lassen sich jedoch mit heutigen Verfahren auch Scans (Bilder) verarbeiten. Auch Sprachaufnahmen können dem Text Mining mittels Spracherkennung oder manueller Transkription zugänglich gemacht werden.
Sollen Quellen in verschiedenen Sprachen untersucht werden, muss die künstliche Intelligenz für jede einzelne Sprache neu antrainiert werden.

Für den eigentlichen Deep-Learning-Prozess sollten im Preprocessing Maßnahmen getroffen werden, die zur Eindeutigkeit beitragen und damit die Verarbeitungsgeschwindigkeit der Algorithmen erhöhen sowie zur Trennschärfe der verwendeten Formulierungen beitragen. Hierfür werden schon vor Beginn des eigentlichen Text Minings beispielsweise irrelevante „Stoppwörter“ entfernt und Wörter zur besseren Verständlichkeit auf ihren Wortstamm reduziert. Auch doppelte Wortbedeutungen müssen eliminiert werden, indem jedem Begriff nur eine einzige Bedeutung zugewiesen wird.

Da künstliche Intelligenz nur so gut ist, wie sie trainiert wird, kommt dem oben genannten Labelling eine besondere Bedeutung zu. Hierbei handelt es sich um den aufwändigsten Prozess beim Text Mining: Mit ihrem Fachwissen machen Data Analytics Experten des jeweiligen Fachgebiets der künstlichen Intelligenz Informationen unstrukturierter Daten zugänglich, indem sie den für den Anwendungsfall relevanten Teil des Textkorpus kennzeichnen. Erst diese Kennzeichnung der Daten ermöglicht es dem Algorithmus, Inhalte zu erkennen und in einen Kontext einzuordnen, auf dessen Basis er anschließend seine eigenen Entscheidungen treffen kann.

 

Diese Faktoren beeinflussen die Qualität der Performance

Für eine überzeugende Performance von Text-Mining-Modellen kommt es aber nicht nur auf die Qualität der Daten an. Der Umfang der zur Verfügung stehenden Datenmenge ist ebenso wichtig. Je komplexer und variantenreicher die Formulierungen, desto mehr Input wird benötigt, um das KI-System effektiv trainieren zu können.

Da die Performance künstlicher Intelligenz mit zunehmender Datenmenge prinzipiell steigt, kann es sich für Unternehmen lohnen, mit anderen Unternehmen zu kooperieren und ihre Daten für das Antrainieren der KI zu poolen. Die für Analysezwecke optimierten zentralen Datenpools führen anonymisierte Daten aus mehreren, meist heterogenen Quellen zusammen und erhöhen die Datenbasis damit signifikant. Dies bietet Unternehmen die Möglichkeit, der KI Daten für alle erforderliche Zusammenhänge zur Verfügung zu stellen und so die Qualität des Text Minings zu optimieren.

Von größter Bedeutung für die Performance von Text-Mining-Modellen ist ferner die fachliche Expertise bei der Anpassung an den Anwendungsfall. Nur wenn die Vermittlung des erforderlichen Wissens an die künstliche Intelligenz mit größter Präzision und Sachkenntnis erfolgt, kann die KI tatsächlich zielführende Ergebnisse erreichen.

Da das Antrainieren der künstlichen Intelligenz sehr viel Rechenkapazität beansprucht, spielt die Auswahl der Server ebenfalls eine wichtige Rolle. Wer ein KI-Modell mit 75 Trainings-Epochen à 30 Minuten trainiert, benötigt dafür auf einem normalen Rechner circa 38 Stunden. Um das optimale Modellsetting zu finden, müssten 200 Parameterkombinationen à 38 Stunden durchgerechnet werden – das dauert 313 Tage! Lagert ein Unternehmen diesen Vorgang dagegen an Rechenpower in der Cloud aus, reduziert sich die Rechenzeit auf weniger als 3 Tage. Hierbei greift Deloitte sowohl auf eigene Cloud-Computing und Managed Services Plattformen zu als auch auf Partnerschaften mit bekannten Cloudcomputing-Anbietern.

Da Unternehmen bei der Auslagerung ihrer Daten höchste Anforderungen an den Datenschutz stellen, treffen die Text-Mining-Experten von Deloitte bei diesem Vorgehen zahlreiche Sicherheitsmaßnahmen: Vertrauliche Informationen behalten sie immer verschlüsselt auf den Deloitte-Rechnern, nur rechenintensive Prozesse lagern sie auf die performanten Server von Cloud-Computing-Plattformen aus. Zusätzlich werden die Textdokumente auf den Deloitte-Rechnern in nicht-invertierbare numerische Daten übersetzt. Rückschlüsse auf den Inhalt sind mit den Inputdaten für die auf der Cloud ausgeführten Prozesse dadurch ausgeschlossen.

 

Macht Text Mining die menschlichen Mitarbeiter überflüssig?

Keine Frage, in einigen Unternehmensbereichen ist Text Mining den menschlichen Fähigkeiten überlegen. Richtig antrainiert, kann die künstliche Intelligenz insbesondere große Datenmengen schneller, mit gleichbleibender Aufmerksamkeit und damit auch häufig zuverlässiger analysieren als jeder Mensch. Überflüssig wird der Mensch dadurch nicht. Denn wie gesehen, ist schon beim Antrainieren der KI menschliches Know-how zwingend erforderlich. Ohne das betriebliche Fachwissen und das Verständnis der Zusammenhänge des jeweiligen Anwendungsfalls wären die Algorithmen hilflos. Dadurch, dass sich ein großer Teil repetitiver Arbeit vermeiden lässt, kann sich der Einsatz von Text Mining für Mitarbeiter sogar als willkommen erweisen. Freiwerdende Kapazitäten ermöglichen es ihnen, in produktivere Firmenbereiche mit abwechslungsreicheren oder anspruchsvolleren Tätigkeiten zu wechseln.

 

Text Minig Use Case: Nebenabreden in Darlehensverträgen eines Finanzdienstleisters

Einen exemplarischen Anwendungsfall für Text Mining realisierte Deloitte in Zusammenarbeit mit einer großen deutschen Bank. Hier gab es einen umfassenden Bedarf zur Nacherfassung von Nebenabreden aus nicht-standardisierten Darlehensverträgen. Eine manuelle Aufbereitung der Informationen aus mehreren Tausend Kreditverträgen war operativ nicht umsetzbar. Da auch eine rein regelbasierte Ableitung von Nebenabreden für nicht-standardisierte Darlehensverträge kaum möglich erschien, wurde die automatisierte Analyse von Verträgen sowie die Extraktion der relevanten Daten als Lösungsweg erprobt.

Im Rahmen eines Pilotprojekts entwickelte Deloitte dafür einen Prototyp, mit dessen Hilfe sich die gesuchten Nebenabreden in den Verträgen verlässlich identifizieren und auswerten ließen. Im Ergebnis entwickelte das Deloitte-Team einen TextMiner, der vollständig an die Bedürfnisse des Kunden angepasst ist. Mit ihm können nicht standardisierte Darlehensverträge insbesondere in Hinblick auf die Bewertung von Vorauszahlungsrechten schnell und effizient analysiert werden. Der Projektumfang umfasste die Validierung der Modellauswahl sowie die Implementierung und das Testen der Kernalgorithmen. Ein KI- und regelbasierter Ansatz ermöglichte die gewünschte Identifizierung der relevanten Textpassagen und die maschinelle Extraktion der erforderlichen Information. Die für das Antrainieren des KI-Algorithmus erforderliche Wissensbasis wurde aus den umfassenden Erfahrungen der Deloitte-Fachexperten abgeleitet.

 

Unser Service

Die Identifizierung und Verarbeitung von Vertragsbestandsteilen ist nur ein Beispiel für die Möglichkeiten, die sich für Unternehmen durch Text Mining ergeben. Da das Deloitte-Netzwerk über breite Branchenkenntnisse und große praktische Erfahrung mit künstlicher Intelligenz verfügt, ist es uns möglich, Unternehmen für alle Text-Mining-Projekte einen End-to-End-Service zu bieten. Beim Deloitte TextMiner handelt es sich um ein bereits fertig vortrainiertes KI-Modell, das nur noch an die besonderen Bedingungen des Unternehmens angepasst werden muss.

Der Full-Service von Deloitte wird in Zusammenarbeit mit dem Deloitte Analytics Institute erbracht und umfasst im Einzelnen:

Die Entwicklung einer individuell auf das Unternehmen zugeschnittenen Text-Mining-Lösung. Diese beinhaltet im Rahmen der Vorstudie auch einen Machbarkeitsnachweis. Wir realisieren Teillösungen ebenso wie mehrstufige Projekte.

Die Einbindung unseres eigenen Data-Science-Teams. Unsere Data Scientists und Prozessexperten realisieren auch quantitativ hochgradig anspruchsvolle Projekte. Sie greifen dabei auf langjährige Erfahrungen in der Entwicklung von Algorithmen mithilfe von künstlicher Intelligenz und Cloud-Computing zurück. Zum Service gehört zusätzlich die Anpassung an die Schnittstellen im System der Kunden.

Das Know-how des gesamten Deloitte-Netzwerkes. Die Kompetenz unserer Fachexperten für Bereiche wie Audit, Legal oder Tax ermöglicht die hocheffiziente Zuspitzung des KI-Einsatzes auf die spezifischen Management-Anforderungen.

End-to-End-Service. Deloitte übernimmt den gesamten Prozess des Text Minings. Der Service beginnt bei der gemeinsamen Zielbild-Entwicklung und umfasst unter anderem Datenaufbereitung, Umgebungsentwicklung, Implementierung der künstlichen Intelligenz, Visualisierung im Design der GUI des Kunden und anschließende Wartung. Dabei sorgt die bereits fertig vortrainierte KI des Deloitte TextMiners für schnelle und präzise Ergebnisse. Im Verlauf jedes Text-Mining-Projekts kann das Management flexibel entscheiden, ob die Text-Mining-Anwendung lokal implementiert oder in der Cloud bereitgestellt werden soll. Eine cloudbasierte Anwendung bedeutet häufig geringere IT-Anpassungen und entsprechend geringere Kosten, dafür bietet eine lokale Umsetzung die Möglichkeit, die Anwendungen später selbstständig zu erweitern oder Teile der Anwendung für andere Use-Cases wiederzuverwenden.