Robuste Zeichenerkennung mit Deep Learning
26.06.2025 - OCR-Anwendungen in industriellen Inspektionsprozessen
Häufig sind die auf den Produkten aufgedruckten Zeichen undeutlich und lassen sich nur schwer per konventioneller OCR-Software entziffern. Auch die Lage des zu erkennenden Texts im Bild ist oft nicht genau bekannt. Deep-Learning-Netze schaffen hier Abhilfe: Sie sorgen für eine präzise Positionsbestimmung und damit für bessere Leseraten der Zeichen, was die Identifikation der Objekte erleichtert.
Mittels optischer Zeichenerkennung (Optical Character Recognition/OCR) lassen sich Buchstaben und Ziffern automatisiert identifizieren und in maschinenlesbaren Text umwandeln. Häufig wird die Technologie in digitalisierten Büroumgebungen eingesetzt, um schriftliche Informationen aus gescannten Dokumenten oder Bildern zu extrahieren und zu lesen. Aber auch im industriellen Umfeld sind OCR-Verfahren immer häufiger zu finden: So wird die Technologie verwendet, um Barcodes, Seriennummern und andere Kennzeichnungen zu lesen und damit entsprechende Produkte zu identifizieren und zu inspizieren. Dies senkt die Fehlerwahrscheinlichkeit und ermöglicht eine lückenlose Rückverfolgbarkeit.
Doch gerade in rauen Industrieumgebungen sind aufgedruckte oder eingestanzte Zahlen-Buchstaben-Kombinationen oft schwer zu lesen. Dadurch können OCR-Systeme den Text nicht zweifelsfrei erkennen, sodass eine eindeutige Klassifizierung entsprechender Objekte kaum möglich ist. Bei der Lösung dieser Problemstellung hilft künstliche Intelligenz (KI) – genauer gesagt: Deep Learning. Die Technologie kann die automatisierte Zeichenerkennung per OCR – eingebettet in Machine-Vision-Software – stark verbessern. Deutlich wird dies an dem Feature „Deep OCR“ von MVTec: Dieses kann mit Deep-Learning-Algorithmen Schriftzeichen wie Zahlen und Buchstaben deutlich robuster lokalisieren, unabhängig von deren Ausrichtung, Schriftart und Polarität. Durch die automatische Gruppierung von Zeichen lassen sich außerdem komplette Wörter identifizieren.
Robuste Erkennungsraten auch unter anspruchsvollen Bedingungen
Auf diese Weise lassen sich sehr robuste Erkennungsergebnisse erzielen und falsche Interpretationen von Zeichen mit ähnlichem Aussehen vermeiden. Dies funktioniert auch unter anspruchsvollen, industriellen Bedingungen – beispielsweise bei der Identifizierung von schräg gestelltem Text, verzerrten Buchstaben oder Zeichen, die auf reflektierenden Oberflächen oder stark strukturierten Farbhintergründen gedruckt, gestanzt oder geätzt wurden. So ebnet die Funktion den Weg, um OCR-Anwendungen dem menschlichen Lesen einen Schritt näherzubringen. Deep OCR ist ein Werkzeug aus der Halcon-Software-Bibliothek und lässt sich mit anderen, auch Regel-basierten Machine-Vision-Verfahren, kombinieren. Dies schafft Synergien, mit denen sich die Qualität und Nutzerfreundlichkeit der Applikationen optimieren lassen.
Bislang wurden für die OCR-Prozesse zwei Deep-Learning-Netze genutzt – das Recognition-Netz sowie das Detection-Netz. Letzteres lokalisiert den Text im Bild präzise und kann eine beliebige Anzahl von Wörtern oder Buchstaben finden. Das Recognition-Netz dient dazu, die Zeichen im identifizierten Bereich (Region of Interest / ROI) zu lesen.
Kurze Taktzeiten erfordern schnelle OCR-Workflows
Wenn der Anwender aber bereits grob weiß, wo sich der Text im Bild befindet, kann er die Ausführung weiter beschleunigen: Die Neuheit enthält ein zusätzliches Alignment-Modell, welches einem Recognition-Netz vorgeschaltet wird. Die genaue Position des Textes, beispielsweise ein einzelne Zeile Text, wird durch das Alignment-Modul erkannt. Da dieses genauso wie das Recognition-Modul Teil des gleichen Deep-Learning-Netzwerks sind, ist die Ausführung um ein Vielfaches schneller als mit dem bislang noch nötigen Detection-Netz. Für die Deep-OCR-Anwendung bedarf es also nur noch eines einzigen Netzes, was entscheidende Vorteile mit sich bringt: So lassen sich die Erkennungsprozesse deutlich beschleunigen und die Hardware-Anforderungen in Bezug auf Rechenleistung und Arbeitsspeicher reduzieren. Anwender in der industriellen Inspektion können dadurch Zeit einsparen und kürzere Taktzeiten einhalten, während sich gleichzeitig die Kosten für die Dimensionierung der Hardware senken lassen.
Konsolidiertes Deep-Learning-Netz optimiert Embedded-Vision-Anwendungen
Ein weiterer Zeitvorteil resultiert aus dem vermehrten Einsatz von KI-Beschleunigern: Diese unterstützen meist nur ein Netz, sodass sie sich in der Kombination von Recognition- und Alignment-Modell optimal nutzen lassen. Ähnliches gilt für Embedded-Vision-Anwendungen: Da Embedded-Geräte nur über begrenzte Hardware-Ressourcen verfügen, ist ein einziges Deep-Learning-Netz für den Betrieb von OCR-Applikationen besser geeignet als zwei getrennte Netze für Detection und Recognition. Und nicht zuletzt sorgen die Verbesserungen des Features Deep OCR für ein Plus an Positionssicherheit: In vielen industriellen OCR-Anwendungsfällen ist nur annäherungsweise bekannt, wo sich der zu lesende Text im Bild genau befindet. Mit den Verbesserungen wird die Erkennung auch bei ungenau bestimmter Position möglich, was zu deutlich robusteren Erkennungsraten führt.
Deep OCR mit seinen zahlreichen Optimierungen ist für vielfältige Anwendungsfelder in verschiedensten Branchen geeignet: So lässt sich beispielsweise im Rahmen der Elektronikfertigung überprüfen, ob die richtigen Komponenten auf einer Leiterplatte in korrekter Anzahl verbaut wurden. In der Pharmaindustrie können Seriennummern auf Ampullen, Vials oder Blistern kontrolliert werden, um sie im Produktionsdurchlauf lückenlos nachzuverfolgen. Im Lebensmittelsektor lässt sich das Mindesthaltbarkeitsdatum von Produkten automatisiert lesen, was die Prozesse rund um die Ein- und Auslagerung entlang der Logistikkette optimiert. Und auch in der Automobilproduktion kann Deep OCR genutzt werden, um etwa Seriennummern auf Karosseriebauteilen zu identifizieren.
Fazit
OCR-Technologien sind für die industrielle Qualitätssicherung mittlerweile unverzichtbar. Deep-Learning-Algorithmen sorgen dabei für robuste Erkennungsraten – auch bei verzerrten, schräg gestellten oder aus sonstigen Gründen schwer leserlichen Zeichen. Zudem lassen sich durch die geschickte Ausgestaltung von Deep-Learning-Netzen die Prüfprozesse beschleunigen und Hardware-Anforderungen reduzieren. Unternehmen profitieren somit von kürzeren Taktzeiten und Kosteneinsparungen.
Autor
Jan Gärtner, Product Manager Halcon bei MVTec