Mehr und mehr Informationen liegen bereits in elektronischer Form vor. Rechnungen werden elektronisch versendet, Kundenanfragen oder -benachrichtigungen werden komplett mit dem E-Mail-System abgewickelt und Papierdokumente werden am Posteingang gescannt. Die Vermeidung von Papier in der Sachbearbeitung ist hierbei ein wichtiger Motivator, um Prozesse zu beschleunigen und die Auskunftsfähigkeit in einem Unternehmen zu erhöhen. Die reine Volltextindizierung einer elektronischen Ablage von Dokumenten reicht oft nicht aus. E-Mail-Archive, in denen tausende E-Mails nur über die Kopfdaten einer E-Mail (Von, An, Betreff, Datum) und dem Volltext gefunden werden können, erhöhen nicht die Transparenz der Ablage, sondern führen zu einem Datengrab.
Für die zielführende Suche wird der sachliche Zusammenhang der Dokumente benötigt, also die Zuordnung zum Kunden, zum Projekt, zum Schadensfall oder zur Bestellung – was auch immer den fachlichen Kontext beschreibt. Um diese Zuordnungen nicht immer manuell durch die Sachbearbeiter durchführen zu müssen, gibt es Technologien, die Dokumente automatisch klassifizieren und für die Folgebearbeitung erschließbar machen. Die Herausforderung besteht in einer intelligenten Analyse von Text, Layout und Struktur eines Dokumentes, um die Inhalte zu ermitteln, die für die weitere Verarbeitung in Geschäftsprozessen oder die Ablage in einem DMS erforderlich sind.
Triebfedern
Die Motivation für die automatische Dokumentverarbeitung ist klar: Kosten sparen. Dies betrifft typischerweise Tätigkeiten, wie Sortierung, Klassifizierung oder Datenerfassung. Weitere Nutzen entstehen aus der Beschleunigung von Transport- und Verteilprozessen mit dem angenehmen Nebeneffekt der Zentralisierung von Verarbeitungs- und Korrekturregeln. Wer kennt nicht die Eingangsrechnung, die bereits Wochen durch das Haus gewandert ist, bis sie beim richtigen Ansprechpartner eintrifft?
Im Idealfall ist eine sogenannte Dunkelverarbeitung ohne manuellen Eingriff möglich. Paradebeispiel ist auch hier wieder die Eingangsrechnung: Wenn hierzu eine passende Bestellung und ein passender Wareneingang im ERP-System existiert, kann auf manuelle Prüfungen weitgehend verzichtet werden und eine automatisierte Buchung erfolgen. Weitere typische Anwendungsfälle sind einfache Bestellvorgänge, Stammdaten- oder Adressänderungen, aber auch die Indizierung von Altakten.
Unterschiedliche Aufgabenstellungen
Die Aufgabenstellung für eine OCR-Verarbeitung kann unterschiedlich sein. Benötigt der Anwender nur eine Möglichkeit zur Suche über Dokumentinhalte, hilft bei Papierdokumenten bereits eine reine Volltext-Erkennung, die möglichst viele Formate, bspw. auch in PDF eingebettete Grafiken verarbeiten kann. Die Erkennungsrate steht dabei nicht Vordergrund, mögliche Erkennungsfehler werden nicht korrigiert. Zielformat ist typischerweise wieder PDF, da hier der erkannte Text als Layer hinter die Grafiken gelegt und in die Volltext-Datenbank übernommen werden kann. Dieser Lösungsansatz macht aber nicht bei allen Dokumentarten Sinn. Insbesondere Dokumente im kaufmännischen Umfeld werden typischerweise über strukturierte Daten wie Rechnungsnr. Bestellnr. abgelegt und recherchiert.
Gerade bei einer elektronischen Sachbearbeitung (mit elektronischem Postkorb) müssen oftmals komplexe Informationen wie z.B. Bestellnummern, Adressdaten, Rechnungspositionen etc. aus den gescannten Dokumenten in eine DMS- oder Fachanwendung manuell erfasst werden. Einfach zu nutzende, Client-basierte OCR-Lösungen sollen „Tipparbeit“sparen – vor allem bei komplexen Zeichenketten. Der Benutzer markiert einen auszulesenden Bereich auf dem Dokument und übernimmt im Copy&Paste-Verfahren die Inhalte in eine beliebige Anwendungsoberfläche.
Anspruchsvoller wird es, wenn aus Dokumenten automatisiert Daten ausgelesen werden sollen. Sind diese stark strukturiert und standardisiert, wie bspw. bei Meldezetteln oder Bestellformularen, besteht die Möglichkeit, exakt zu definieren, an welcher Stelle eines Formulars sich ein Wert befindet. Darüber hinaus können individuelle feldbezogene Regeln wie Prüfung von gelesenen Daten gegen Hintergrundsysteme definiert werden.
Viele Dokumentarten besitzen aber keine feste Struktur, so dass eine formularbasierte Definition von Leseregeln nicht möglich ist. Die relevanten Informationen in einer Rechnung sind zwar definiert, befinden sich aber je nach Lieferant immer an unterschiedlichen Positionen. Hier eine formularbasierte Software einzusetzen ist unsinnig, da eine Vielzahl von Formulardefinitionen erstellt werden müssten – schlimmstenfalls für jeden Kreditor und jede Rechnungsvariante. Ändert sich das Rechnungslayout, muss auch noch die Erkennung nachadministriert werden.
Gefordert sind an dieser Stelle Produkte, die in der Lage sind, den mittels OCR erkannten Text nach definierten Vorgaben zu analysieren. Diese sogenannte Freiformerkennung benötigt nicht unbedingt eine feste Struktur eines Dokumentes, sondern arbeitet auf Basis von Regelwerken wie:
- Eine Rechnungsnummer befindet sich hinter oder unter Texten, wie „Rech-Nr.:“, „Rechnungsnummer“ oder „Unser Zeichen“
- Bei einem numerischen Wert mit dem Aufbau „xx-xxxx-xx“ und der Länge 8 handelt es sich um eine Schadennummer
- Bei der Kontonummer „130328“ handelt es sich um den Kreditor „Abrechnungsstelle XY AG“ (solche Regeln hinterlegen Anwender zum Beispiel dann, wenn von diesem Kreditor ein besonders hoher Anteil von Rechnungen zu erwarten ist)
Die unterschiedlichen Einsatzfelder von Erkennungslösungen sind in der folgenden Tabelle noch einmal zusammengefasst:
Erst Klassifizieren, dann Auslesen
Viele Anwender stellen sich eine vollautomatisierte Verarbeitung der gesamten Eingangspost vor. Typischerweise handelt es sich um heterogenes Beleggut bei Form und Inhalt. Je nach Dokumentart sind unterschiedliche Inhalte für eine Sachbearbeitung von Interesse. Für einen Eingangsbrief ist ggf. nur der interne Ansprechsprechpartner für die Weiterleitung relevant, für Eingangsrechnungen sind aber die Mindestangaben einer Rechnung ein K.-o.-Kriterium. Vor dem Auslesen von relevanten Feldern ist analog zur manuellen Sortierung von Eingangspost in zusammengehörige Stapel eine elektronische Klassifizierung in unterschiedliche Dokumentarten erforderlich.
Bei der automatischen Klassifizierung von E-Mails ist folgende paradoxe Situation zu beobachten: Einerseits sollten diese Dokumente einfacher klassifizierbar sein, da alle enthaltenen Texte bereits in maschinell auswertbarer Form vorliegen und vor der Klassifizierung keine (fehlerbehaftete) OCR-Wandlung vonnöten ist.
Die Stolpersteine liegen in der Praxis aber in den fehlenden Vorgaben für die Strukturierung von Inhalten in einer Mail. Nur wenige Mail-Anwender vergeben eine aussagekräftige Betreff-Information, was bei einer papierbasierten Korrespondenz eigentlich selbstverständlich erscheint. Insbesondere hin- und hergeschickte E-Mails enthalten häufig Inhalte, die sich auf mehrere Sachverhalte beziehen. Für eine Klassifizierung bzw. Zuordnung dringend benötigte Informationen wie Kundennummer, Auftragsnummer, Adressangaben etc. sind oftmals gar nicht erst in der E-Mail enthalten.
Die Klassifikation in Dokumentarten oder Vorgangstypen ist aber auch für Papierdokumente nicht trivial. Nicht immer sind alle Entscheidungskriterien eindeutig definierbar und von der Erkennung eindeutig interpretierbar. Dokumente mit der Phrase „hiermit kündige ich“, sind nicht in jedem Fall Kündigungen, wie folgendes Beispiel zeigt: „hiermit kündige ich an, dass ich den Vertrag verlängern werde“. Das Wort „Kündigung“ ist überdies häufig in Verträgen mit vereinbarten Laufzeiten zwecks Vereinbarung von Kündigungsfristen anzutreffen.
Übersicht über den Gesamtprozess
Eine automatisierte Erfassung von Papierdokumenten erfordert i.d.R. eine Zentralsierung des Posteingangs, um Skaleneffekte bzgl. Belegvolumen, gleichartiger Dokumenttypen und damit verbundener Dokumentvorbereitung etc. auszunutzen. Zentral aufgestellte Erfassungsteams können besser Know-how über das zu verarbeitende Beleggut konzentriert aufbauen und evtl. auftretende Lastspitzen, Urlaubsvertretung oder Krankheitssituationen abfangen. Bei bisher dezentral aufgestellten Unternehmen bedeutet dies oftmals organisatorische Veränderungen, die von allen Beteiligten auch mitgetragen werden müssen.
Die typischen Prozessschritte und damit verbundene Funktionalitäten einer Erfassungsstrecke sind in der folgenden Darstellung noch einmal zusammengefasst:
Einflussfaktoren auf Erkennungsergebnisse
Eine automatisierte Erkennung wird an der Qualität der bereitgestellten Daten und einer Minimierung von manuellen Nachbearbeitungsaufwänden gemessen. Eine quasi Muss-Maßnahme zur Sicherung der Erkennungsqualität ist die Validierung gelesener Informationen in führenden Fachanwendungen: Existiert die gelesene Bestellnummer im ERP-System? Ist die im Antrag erkannte Kundennummer bereits in der Partnerdatenbank vorhanden? Haben wir eine solche Schadennummer im System?
Oft können auch Syntax-Definitionen, Summenprüfungen oder einfache Berechnungen zur Validierung und Verbesserung der Ergebnisse führen. In kritischen Anwendungsszenarien (Komplexität Belegut, Schriftarten, etc.) kann der Einsatz von Voting-Verfahren Sinn machen, bei denen mehrere OCR-Engines parallel Ergebnisse erarbeiten und diese Ergebnisse dann gewichtet und verglichen zur Verfügung stellen.
Optimierungen benötigen auch die Unterstützung durch die Anwender
Über manuelle Korrekturen bspw. der Klassifikation oder der erkannten Werte, sollte die Anwendung für die zukünftige Verarbeitung trainiert werden. Wichtiges Kriterium bei Auswahl einer solchen Lösung sind entsprechende Werkzeuge mit einer möglichst einfach zu bedienenden Oberfläche. Beispiele hierfür sind formularspezifische Regeldefinitionen: „Bei der Müller AG steht die Rechnungsnummer unter dem Text „SAP-Nr.““ oder allgemeine Erweiterung der Regelbasis: „Bei Dokumenten mit dem Begriff „kündige“ ist ein manueller Eingriff vor der Klassifikation erforderlich“.
Natürlich hilft es auch immer, einen Blick auf das Beleggut selbst zu werfen. Bei Dokumenten von Dritten, wie Lieferanten oder Kunden sind die Möglichkeiten der Optimierung oftmals beschränkt. Anders verhält es sich jedoch bei Rückläufern, d.h. selbsterstellten Dokumenten, die wieder in das Unternehmen zurückkommen. Hier kann oftmals durch einfache Maßnahmen wie bspw. ein Barcodeaufdruck mit darin verschlüsselten Daten leicht eine Erhöhung der Erkennungs-Qualität erreicht werden.
Möglichkeiten zur Erhöhung der Lesequalität:
Stolpersteine in der Praxis
Trotz aller Technologie gibt es einige Probleme in der Praxis, die auch dann auftreten, wenn eine OCR zu 100% arbeitet. Dies fängt bereits bei der Trennung der einzelnen Dokumente im Scan-Stapel an. Gerade gemischtes Beleggut verlangt oftmals eine manuelle Zusortierung von Trennblättern, da die Software-Regeln für die Erkennung von Dokumentgrenzen nicht richtig greifen. Schwierig wird es auch bei der Mehrfachklassifikation von Dokumenten, also der Identifikation mehrerer Geschäftsvorfälle in einem Dokument („anbei finden Sie die Abrechnung und ich bitte um die Zusendung von Informationen zum Produkt …“). Hier lassen sich Dokumentenklassen nicht immer ausreichend genau unterscheiden. Wichtig sind dann aussagefähige Statistik-Funktionen, um schnell einen Überblick über typische Problemfälle zu bekommen.
Apropos Erkennungsraten: Oft hört man die Aussagen: „Unsere Erkennnungsrate liegt bei 99%“. Bei genauerer Betrachtung stellt man leicht fest, dass bei dieser Aussage immer die Bezugsgröße wichtig ist: Geht es um Dokumente, Seiten, Felder oder Zeichen?
Eine Modellrechnung mit 500 Belegen à 2 Seiten (insg. 1.000 Seiten) mit jeweils 3 Feldern pro Seite und insg. 24 Zeichen pro Seite zeigt, dass hierbei ein deutlicher Unterschied für den Aufwand zur Nachbearbeitung entstehen kann:
Im schlimmsten Fall sind fast die Hälfte der Belege zu korrigieren, was so in der Praxis zwar nicht vorkommt, doch zeigt, dass man bei solchen Aussagen immer in die Details gehen muss. Das trifft übrigens für das gesamte Thema Produktbewertung zu: Allgemeine Produkt-Demos oder lange Feature-Listen helfen bei der Auswahl entsprechender Software nicht weiter.
Produktauswahl
Wichtig ist vor allem die Prüfung der Verarbeitung mit eigenen, repräsentativen Dokumenten und Dokument-Stapeln – möglichst mit den eigenen Scannern digitalisiert. Der Anbieter sollte auch das Regelwerk für die Erkennung und Prüfung kennen und repräsentative Datensätze zur Verfügung gestellt bekommen, um sein System vortrainieren zu können. Die nachfolgende Liste zeigt einige Anbieter, erhebt aber nicht den Anspruch auf Vollständigkeit.
Für eine Produkt-Demonstration empfiehlt sich die Übergabe eines weiteren Dokumentstapels als Testbasis. Nach der Verarbeitung muss nun im Detail verglichen, geprüft und gezählt werden. Interessant ist natürlich das Systemverhalten beim zweiten übergebenen Dokumentenstapel, da hier die Optimierungen, die für den ersten Stapel bereits durch den Anbieter erfolgt sind, nun gemeinsam erfolgen.
Neben der Erkennungs-Qualität sollte auch die Einfachheit von Korrekturoberflächen und die Endbenutzer-Tauglichkeit der Administrationswerkzeuge als ausschlaggebendes Bewertungskriterium geprüft werden.
Übersicht wesentliche Bewertungskriterien
Fazit
Einen Bedarf an Technologien zur automatischen Dokumentenerkennung gibt es in vielen Anwendungsbereichen wie bspw. beim zentralen Posteingang, bei der Rechnungsverarbeitung, bei Bestellungen und Anträgen, Auswertung von Fragebögen/Umfragen oder Meldezettel (Strom, Wasser, Gas). Gute Lösungen können hier Sortier- und Erfassungsaufwände deutlich reduzieren.
Ein pauschal bestes System gibt es nicht. Dies wird schon durch die unterschiedlichen Technologieansätze deutlich, mit denen die Produkte arbeiten. Es gibt formularbasierte Lösung, Freiform-Verarbeitung mit Regelwerken oder auf Basis von neuronalen Netzen sowie Mischformen. Daher ist der Test unter eigenen Rahmenbedingungen und mit dem eigenen Beleggut Pflicht.
Abschließend muss noch der Hinweis erlaubt sein, dass diese gesamte Technologie zwar bei der Kostenreduzierung der Dokumentverarbeitung hilft, aber nicht den Königsweg darstellt. Erster Schritt sollte immer die Vermeidung des Medienbruchs von Papier zu elektronischen Informationen sein. Die direkte elektronische Verarbeitung bspw. über elektronische Formulare, über EDI oder FTP, ist immer effizienter als der Einsatz von OCR-Technik. Allerdings wurde das papierlose Büro bereits vor vielen Jahren propagiert, ist aber noch lange nicht Realität…