Lösungen, die die Erkennung von Dokumenten durch künstliche Intelligenz (KI) ermöglichen, werden immer beliebter, da sie eine erhebliche Zeitersparnis mit sich bringen. Eine der beliebtesten Optionen für Unternehmer ist ABBYY FlexiCapture. Ich habe es mit anderen Mitgliedern von The Story getestet. Wie gut ist die beliebte OCR (Optical Character Recognition), die zur Verbesserung von Buchhaltungssystemen entwickelt wurde?
Eine wichtige Information vorweg: Das System funktioniert nicht "out of the box". Sie erfordert die Konfiguration und Schaffung einer geeigneten Dateninfrastruktur.
Die Systemkonfiguration ist kompliziert. Dies liegt an der enormen Anzahl der verfügbaren Parameter und der Anpassungsfähigkeit sowie an der Notwendigkeit, zusätzliche Umgebungen wie Eingabedatenbanken zu konfigurieren, damit das OCR-System ordnungsgemäß funktioniert.
Das System muss Zugriff auf die bestehende Datenbank mit zugelassenen Auftragnehmern, Bestellungen, Einkaufsposten usw. haben. Alles, was nötig ist, um das korrekte Funktionieren der Lesealgorithmen zu gewährleisten und einen noch besseren Einblick in die Einkäufe des Unternehmens zu erhalten.
Die Hauptannahme des OCR-Systems ist, dass die beauftragte Person am gesamten Arbeitsablauf teilnehmen sollte. Ihre Aufgabe ist es, die Ergebnisse des Systems zu überprüfen und die Prozesse des maschinellen Lernens kontinuierlich zu verbessern.
OCR für Rechnungen — Verarbeitung. Proof of Concept für die ABBYY-Lösung
Für den OCR-Test der Rechnung haben wir zwei Arbeitstage angesetzt. Der Test wurde mit einer Sammlung von 15 gescannten und 20 traditionell erstellten polnischen Rechnungen durchgeführt.
Wir können das maschinelle Lernsystem mit einem umfangreicheren Datensatz testen, d. h. mit etwa fünftausend Rechnungen und einer Person, die dem Algorithmus mit beträchtlichem Aufwand ein spezielles Tool beibringt, das maschinelles Lernen unterstützt.
In diesem OCR-Test haben wir die ABBYY FlexiCapture-Lösung verwendet.
FlexiCapture ist in einer Serverversion verfügbar, kann aber auch in der AB-Cloud gehostet werden. Durch das Hosting in der Cloud entfallen Wartungskosten und die Notwendigkeit, die Software zu aktualisieren.
Methode der Analyse
Aufgrund der Komplexität der Anwendung und des großen Arbeitsaufwands, der für die Konfiguration der Testumgebung erforderlich ist, habe ich mich für explorative Tests als wichtigste Analysemethode entschieden.
Gegenstand der Analyse
Bei der Analyse wird die Cloud-Version der FlexiCapture-Software auf einer R2-Engine verwendet — eine Unternehmenssoftware für OCR, die halb strukturierte Dokumente enthält und durch die Erkennung von Rechnungen aus Europa erleichtert wird.
Testplan
Die geplanten OCR-Tests wurden in die folgenden Gruppen unterteilt:
- Konfiguration der Umgebung
- Mechanismen des maschinellen Lernens
- Erkennung von Rechnungen
- Anerkennung von anderen Dokumenten
- Exportieren von Daten (z. B. personenbezogene Daten auf der Rechnung)
- API-Kommunikation
Alle OCR-Tests wurden in den folgenden Umgebungen durchgeführt:
- Windows 10 Home (Version 1903)
- 16 GB RAM
- Intel Core i7 2.80 GHz
Die Aufgaben wurden mit der folgenden Software durchgeführt:
- FC in der Cloud-Version
- FC Administrator Station
Datenbank:
- Microsoft SQL Server Express 2017
OCR für Rechnungen: Mechanismen des maschinellen Lernens
ABBYY FlexiCapture nutzt Mechanismen des maschinellen Lernens, um Daten aus Bildern zu extrahieren.
Wie jede KI dieser Art muss auch FlexiCapture durch eine Datenbank und mithilfe eines Bedieners trainiert werden, der der künstlichen Intelligenz angibt, wo sich bestimmte Daten im Bild befinden. Diese Art des Unterrichts erfolgt immer in zwei Phasen.
Zunächst "werfen" wir die Rechnung zu OCR, prüfen und korrigieren sie und leiten sie schließlich an KI weiter. Zweitens muss der Systembetreiber die Daten koppeln oder die Erkennung des Dokuments in einem speziellen Lernwerkzeug verbessern.
Das Werkzeug ist einfach und effektiv - die Daten können sowohl auf der Bildebene als auch auf der Ebene der gelesenen Daten ausgewählt werden. So können Sie Fehler schnell finden und korrigieren.
In der letzten Phase kann der Betreiber auswählen, welche der korrigierten Rechnungen für das KI-Training übertragen werden sollen.
Meiner Meinung nach ist es sinnvoll, die Entscheidung dem Betreiber zu überlassen: Nicht jede Korrektur resultiert aus dem Fehlen eines KI-Musters. Viele Faktoren, wie z. B. die Bildqualität und das Umgebungslicht beim Scannen, können Lesefehler verursachen.
Nicht zu vergessen: FlexiCapture zeichnet sich auch durch eine umfangreiche Logik aus, die darauf ausgelegt ist, für Rechnungen typische Muster zu erkennen, wie zum Beispiel die Umsatzsteuer-ID.
Dokument: Online-Erkennung
Das Team verwendete die folgenden Dokumentensätze für die Tests zur Rechnungserkennung:
- 15 polnische Rechnungen traditionell gescannt
- 20 polnische Rechnungen, die traditionell erstellt werden
Die Erkennung wurde im Hinblick auf die Erkennung der folgenden Elemente des Dokuments getestet:
- Angaben zum Käufer und Verkäufer auf den Rechnungen, einschließlich der Steueridentifikationsnummer.
- Datum des Dokuments.
- Dokument Nummer.
- Gesamtkaufbetrag.
- Einkaufen Artikel auf dem Dokument.
- Mehrwertsteuersätze.
- Nummer des Bankkontos.
Anerkennung der Online-Daten von Auftragnehmern durch OCR
Die personenbezogenen Daten von Auftragnehmern wurden ohne größere Probleme gefunden (100 % Wirksamkeit), solange sie in der Datenbank enthalten waren. FlexiCapture sucht auf dem Rechnungsbild nach den Daten des Auftragnehmers in der Datenbank des Unternehmens und gibt die Daten nach der Erkennung aus der Datenbank zurück.
Wie das OCR-System das Ausstellungsdatum der Rechnung erkennt
Das Ausstellungsdatum auf den Dokumenten wurde in 90 % der Fälle richtig gelesen. Besondere Probleme bereiteten Daten, die den Namen des Monats enthielten, z. B. der 5. Mai 2019, bei dem der Bereich mit dem Datum manuell angegeben werden musste.
Nachdem der Bediener den Bereich angegeben hat, werden die Daten jedes Mal korrekt gelesen.
Scannen von Rechnungen: Rechnungsnummern, d.h. Integration mit OCR
ABBYY FlexiCapture hat Rechnungsnummern nicht immer beim ersten Mal erkannt. Nachdem ich jedoch angegeben hatte, wo sich die Rechnungsnummer auf dem Dokument befand, konnte FlexiCapture ohne Probleme eingesetzt werden. Bei 35 Dokumenten erreichte das Programm im zweiten Anlauf eine Punktzahl von 90 %.
Nur in 10 % der Fälle konnte die KI nicht richtig trainiert werden. Dies hängt wahrscheinlich damit zusammen, dass wir nur eine kleine Menge an Trainingsdaten zur Verfügung haben, mit denen wir arbeiten können.
OCR für Rechnungen: Artikel einkaufen
Die Elemente auf dem Dokument wurden mit ausreichender Genauigkeit erkannt. In 80 % der Testfälle wurden die einzelnen Elemente nahezu perfekt gelesen.
Allerdings war das System nicht immer in der Lage, die Daten korrekt in Spalten einzuteilen, und es gab auch Tippfehler, die auf die Bildqualität oder das Schriftbild zurückzuführen waren. Die Ergebnisse wurden jedoch mithilfe von KI-Trainingstools verbessert.
Die Testumgebung war nicht mit dem Bestellsystem und der Einkaufsdatenbank integriert, weshalb das System vollständig auf die Daten aus der OCR angewiesen war. Ich glaube, dass sich die Ergebnisse deutlich verbessern würden, wenn die Basen miteinander verbunden wären.
Erkennung der Mehrwertsteuersätze im OCR-System
90 % der Mehrwertsteuersätze wurden vom System korrekt erkannt. Wie auch bei anderen Elementen konnte das maschinelle Lernen die Ergebnisse bei den nachfolgenden Dokumenten der Auftragnehmer erheblich verbessern — selbst bei einer so kleinen Menge von Dokumenten.
Verbesserung der Buchhaltungssysteme: Bankkontonummer
Die Erkennung von Bankkontonummern durch das FlexiCapture-Programm war in 70 % der Fälle korrekt, ohne dass zusätzliches Lernen erforderlich war.
Scannen und Verarbeiten. Wie ABBYY OCR Informationen auf Rechnungen erkennt
Ich möchte nur kurz daran erinnern, dass ich zusammen mit dem Team die Tests mit einer Sammlung von 15 gescannten und 20 traditionell erstellten polnischen Rechnungen durchgeführt habe.
Die Ergebnisse dieses Schnelltests zeigen, dass ABBYY OCR die Informationen auf Rechnungen wie folgt erkennt:
- Angaben zu Käufer und Verkäufer auf den Rechnungen: 90 %
- Belegdatum: 90 % (nach Einschaltung des Betreibers: 100 %)
- Dokumentnummer: 90 %
- Gesamter Kaufbetrag: 90 %
- Einkaufspositionen auf dem Dokument: 80 %
- Mehrwertsteuersätze: 90 %
- Bankkontonummer: 70 %
In einigen wenigen Fällen wären die Ergebnisse jedoch besser ausgefallen, wenn das System mehr Trainingsdaten erhalten hätte und der Test länger gedauert hätte. Die Bewertung würde sich auch verbessern, wenn die KI Zugang zu mehr Daten über das Unternehmen hätte.
Ich möchte noch hinzufügen, dass die Funktionen des FlexiCapture-Programms nicht auf das Lesen von Rechnungen beschränkt sind. Außerdem verfügt es über leistungsstarke Mechanismen zur Datenvalidierung und -konfiguration. Es kann zum Lesen beliebiger Dokumente, wie Formulare, Umfragen, Stimmzettel usw. verwendet werden. FlexiCapture kann alles verarbeiten, was eine bestimmte Struktur hat.
Darüber hinaus ermöglicht ABBYY die Integration mit jeder IT-Lösung über die REST API.
Hero shot: PxHere.com