Dr. Moritz Meinecke
- 23. März 2023
- 5 Min. Lesezeit

Reifendatenerkennung mittels KI - Teil 1

Aktualisiert: 3. Apr.

Die Erkennung von Reifendaten wie

Marke und Profil

Reifendimension

Last- und Geschwindigkeitsindex

DOT

aus einfachen Fotos gilt als eines der herausfordernsten Anwendungsfelder moderner Texterkennung. Grund hierfür sind der geringe Kontrast von Schrift zu Hintergrund, Verschmutzung oder Verschleiß der Schriftzüge, starke Variabilität in Schriftlayout und Größe sowie der Schriftorientierung innerhalb eines Reifenbildes. Zusätzlich können externe Faktoren wie Bildunschärfen sowie verschiedene Blickwinkel und Beleuchtungen die Texterkennung erschweren.

Dennoch gilt die automatisierte Reifendatenerkennung in vielen Branchen, in denen diese Daten aktuell unter hohem Aufwand händisch bzw. halbautomatisch in die IT übertragen werden, als spannendes Feld mit hohem Optimierungspotential. Beispiele hierfür sind die Datenübernahme während der Reifeneinlagerung, die Reifenkontrolle im Warenausgang von Reifengroßhändlern sowie die Reifendatenübernahme auf Kundenseite im Reifen-Onlinehandel. Aber auch im Rahmen von Werkstattbesuchen oder automatisierten Kontrollen der Reifensaisonalität an bspw. Autobahnauffahrten kann die automatisierte Reifenerkennung komplett neue Anwendungen ermöglichen.

Status-Quo

Bestehende Softwaresysteme setzen zumeist auf halbautomatische Lösungen bestehend aus einem Mix aus herkömmlicher OCR (Optical Character Recognition), historischen Daten sowie einer Ergänzung der Daten durch den Menschen bzw. händischer Vorauswahl eines Reifenbereichs mit der gesuchten Information auf dem Reifen. Oftmals wird auch ein sehr hoch aufgelöstes Bild - erstellt bspw. per Laserabtastung des Reifens - vorausgesetzt, um die notwendige Zuverlässigkeit zu erreichen. Dies ist sowohl kosten- als auch zeitintensiv, da die Technik teuer ist und die Abtastung per Laser meist mehrere Sekunden benötig.

Moderne Deep Learning Ansätze aus der aktuellen Forschung bieten hier jedoch gänzlich neue Möglichkeiten. Basierend auf unseren Deep Learning Architekturen zur Fahrzeugschein- und Arztrezepterkennung entwickelten wir KTR - Kaitos Tire Recognition, eine neue Deep-Learning Architektur, die basierend auf Handyfotos der kompletten Reifenflanke Reifendaten mit hoher Genauigkeit und Geschwindigkeit auslesen und so als Baustein für eine vollständige Automatisierung der Reifendatenerkennung genutzt werden kann.

KTR

In einem Vorverarbeitungsschritt wird der Reifen über ein U-Net auf dem Bild lokalisiert und über eine Transformation des Bildausschnitts von kartesischen in zylindrische Koordinaten mit hoher Stabilität und Performanz glatt gerechnet.

Das glatt gerechnete Bild des Reifens wird dann an unsere OCR Architektur übergeben.

Diese besteht im Kern aus einem von uns stark modifizierten CRNN plus vortrainiertem Feature Extractor auf Basis von EfficientNetv2. Dies erlaubt alle Datentypen innerhalb eines Model Pass vollständig auszulesen. Das Ergebnis des Model Pass wird anschließend mittels eines selbst entwickelten Beam-Search-Decoders ausgewertet, so dass die einzelnen Datentypen durch die KTR-Architektur strukturiert zur Verfügung gestellt werden können.

Bild-Quelle: CRNN Research Paper

Als Loss verwenden wir focal-CTC-loss mit Entropy Regularization. Um die benötigte Datenmenge zu verringern und die Auslesequalität zu erhöhen wurde die KTR-Architektur zusätzlich um einen intern entwickelten Attention-Mechanismus pro Datentyp ergänzt.

Wie oben beschrieben gibt KTR die Reifendaten strukturiert für jeden Datentyp aus - bspw. für die DOT - inkl. der Top-Five Bewertungen. Hierfür ergänzt KTR die Daten um eine Abschätzung der Wahrscheinlichkeit der Richtigkeit der jeweiligen Ausgabe. Für das Training haben wir Nvidia GeForce RTX 3090 GPUs verwendet. Die Trainingsmenge umfasst 10000 Reifenbilder. KTR ist als RESTful Service via Docker-Container deploybar und läuft auf einer handelsüblichen CPU in unter 2 Sekunde pro Inferenz, ist also optimal für die produktive Nutzung im Industrieumfeld geeignet.

Startpunkt - Die DOT

Die DOT enthält u.a. Informationen zum Hersteller, Produktionsort, Reifendimension und auch zum Herstellungsdatum chiffriert in einer Folge von 8 bis 13 Buchstaben und Zahlen. Gerade die Herstellungswoche - dargestellt durch die letzten vier Zahlen der DOT - ist im Rahmen der Reifenkontrolle von hoher Relevanz. Da die DOT zumeist nur sehr klein bei geringem Kontrast auf dem Reifen abgebildet und zusätzlich oftmals verschlissen bzw. leicht verschmutzt ist, stellt diese einen hervorragenden Startpunkt für die Entwicklung und Überprüfung der Leistungsfähigkeit der KTR-Architektur dar.

Google vs Amazon vs Microsoft und Kaitos

Um die Schwierigkeit der Reifendatenauslesung zu verdeutlichen, haben wir zuerst die KI-basierten OCRs von Google - Google Cloud Vision, Amazon - AWS Rekognition und Microsoft - Azure Machine Vision - die zu den leistungsstärksten General Purpose OCRs auf dem Markt zählen - auf einem Validationset bestehend aus 100 Reifen-Bildern wie unten abgebildet, getestet.

Hierzu haben wir den kompletten ausgelesenen Text, den die jeweilige API zurückgibt, nach der korrekten DOT durchsucht. D.h. wir haben zu Gunsten der General Purpose OCRs auf regex-Fits verzichtet - d.h. auf die gezielte Suchen der DOT entlang spezifischer Textlayouts - was aufgrund der vielen unterschiedlichen Darstellungen der DOT bzgl. der Anzahl an Zeichen als Kombination aus Buchstaben und Zahlen, Leerzeichen sowie der uneinheitlichen Schreibweise mit und ohne vorausgehendes "DOT", schwer umzusetzen ist und die Anzahl richtiger Ergebnisse auf Seiten der Cloudanbieter weiter reduziert hätte.

Folgende Ergebnisse lieferten die OCRs auf dem Datenset:

OCR
Korrekt	7%	16%	17%	83%
Fast korrekt	9%	3%	7%	10%
Falsch	84%	81%	76%	7%

*Logo-Source: Google, amazon for amazon Rekognition, Microsoft for Azure Machine Learning

Auf Seiten von Google - deren OCR unter den großen Cloudanbieter am besten abgeschnitten hat - konnte die DOT in 17% der Fälle korrekt ausgelesen werden. In weiteren 7% der Fälle konnte die DOT zwar ausgelesen werden, jedoch war die Segmentierung - d.h. die Erkennung der verschiedenen DOT-Elemente als zusammengehörig - falsch. In 76% der Fälle konnte die DOT als Schriftzug entweder gar nicht erkannt oder aber nur teilweise richtig ausgelesen. Dies stellt einen sehr deutlichen Beleg für die Schwierigkeit dieses Anwendungsfalls der Reifendatenerkennung dar.

Auf dem gleichen Datenset haben wir nun die Performance unserer KTR-Architektur getestet. Dazu haben wir die Bilder direkt an die KTR-Architektur übergeben und die zurückgegebene komplette DOT mit der Ground Truth des Bildes verglichen. KTR war in sehr überzeugenden 83% der Fälle in der Lage die DOT vollständig korrekt vom Reifen abzulesen. In 93% der Fälle war die korrekt Vorhersage unter den Top 5 Ergebnissen.

Fazit

Die Reifendatenerkennung ist aufgrund unterschiedlicher Faktoren wie bspw. geringem Kontrast von Schrift zu Hintergrund oder verschmutzten und verkratzten Schriftzügen ein sehr anspruchsvolles Gebiet. Dies belegen die Ergebnisse führender OCR Anbieter wie Google, Amazon und Microsoft, die auf dem hier verwendeten Datenset eine Erkennungsrate der kompletten DOT von maximal 17% erreichen konnten. Die von speziell für die Reifendatenerkennung entwickelte Deep Learning Anwendung KTR ist jedoch in der Lage, diese Probleme besser zu meistern. So liefert KTR mit einer Erkennungsrate von über 83% äußerst überzeugende Ergebnisse und zeigt als Spezialanwendung für die Reifendatenerkennung eine um fast 5 mal bessere Performance als die General Purpose OCRs. Zusätzlich ist die KTR-Architektur sehr leichtgewichtig, d.h. sie läuft auf einer handelsüblichen CPU in unter 2 Sekunde pro Inferenz und ist damit optimal für die produktive Nutzung im Industrieumfeld geeignet.

Dies ist aber natürlich noch nicht das Ende unserer Entwicklung von KTR. Aktuell trainieren wir unsere Architektur für einen produktiven Einsatz und zielen auf Erkennungsraten jenseits der 98% ab. Wenn Sie über die weitere Entwicklung von KTR auf dem Laufenden gehalten werden möchten oder Interesse an weiteren Infos oder aber allgemein Interesse an Beratungs- oder Entwicklungsleistungen rund um das Thema KI besteht, melden Sie sich gerne bei uns - Kontakt.

Referenzen/ Leseempfehlungen zum Thema:

CRNN: https://arxiv.org/abs/1507.05717
CTC Entropy Regularization: https://proceedings.neurips.cc/paper/2018/file/e44fea3bec53bcea3b7513ccef5857ac-Paper.pdf
Wildcard CTC: https://openreview.net/pdf?id=0RqDp8FCW5Z
Transformer Based OCR: https://arxiv.org/abs/1910.04396

Reifendatenerkennung mittels KI - Teil 1

Status-Quo

KTR

Startpunkt - Die DOT

Google vs Amazon vs Microsoft und Kaitos

Fazit

Aktuelle Beiträge