Themen-Blog Data Analytics
Fachthemen der HUK-COBURG im Kontext Data Science & Machine Learning
Themen-Blog Data Analytics
Fachthemen der HUK-COBURG im Kontext Data Science & Machine Learning
Natural Language Processing (NLP)
Automatisierte Extraktion von neuen Wohnadressen aus Eingangspost
Zur Entlastung unser Fachkräfte möchten wir Machine-Learning-Modelle zur Verfügung stellen, die in der Lage sind, wesentliche Informationen aus dem Schriftverkehr zu extrahieren. Damit können anschließende Prozesse automatisiert oder unterstützt und damit beschleunigt werden.
Ein typischer Anwendungsfall ist die Adressänderung einer Person, z.B. aufgrund eines Umzugs. Oftmals wird hierfür ein Brief, eine E-Mail oder ein Fax geschickt. Mit modernen NLP-Methoden können wir die neue Adresse basierend auf dem geschriebenen Text erkennen und extrahieren.
Lösungsskizze:
Wenn uns jemand mitteilt, dass er umgezogen ist, müssen wir die entsprechende neue Adresse bei uns im System korrekt hinterlegen. Dafür brauchen wir zwei Information:
- Eine Kundenidentifikation, am besten über die Versicherungsscheinnummer (VNR)
- Die neue Adresse
Ein erster Schritt bei der Verarbeitung ist, aus dem Brief, der nach dem Scan als Bild verfügbar ist, die Text-Information zu extrahieren. Hierfür wird eine OCR (Optical Character Recognition) verwendet, die den Text sowie die zugehörige Position auf dem Brief extrahiert. Die VNR lässt sich aufgrund ihres festen Schemas sehr gut mit regulären Ausdrücken (regEx) identifizieren. Hierfür ist kein Machine Learning notwendig. Die Erkennung der neuen Adresse ist durch klassische Regelwerke jedoch nicht sehr genau, weshalb wir das Problem mit Machine Learning angehen.
Unsere Lösung kombiniert das Ergebnis der OCR mit Methoden aus dem Unsupervised Learning, dem Supervised Learning und einem klassischen Regelwerk. Durch ein Clustering werden zusammengehörige Textregionen identifiziert, die dann durch ein Machine-Learning-Modell in Kategorien einsortiert werden. Anschließend werden durch ein Named-Entity-Recognition-Modell (NER) alle Adressen (dazu gehören: Name, Straße, Postleitzahl) im Text erkannt und anschließend durch ein Regelwerk die neue Adresse identifiziert.
Wir stützen uns dabei zum einen auf Open-Source Komponenten, das Deployment in einer Microservice-Architektur mit REST-APIs und natürlich unsere Fachkräfte aus den verschiedenen Abteilungen, die dankenswerterweise Ground-Truth Daten und Fachwissen bereitstellen.
Habt ihr ähnliche/verwandte Anwendungsfälle? Habt ihr Ideen, wie man das Vorgehen verbessern könnte? Schreibt und diskutiert gerne in den Kommentaren oder kommt direkt auf uns zu.
Autor: Christian Haas