Dr. Moritz Meinecke
- 23. März 2023
- 3 Min. Lesezeit

Reifendatenerkennung mittels KI - Teil 2

Aktualisiert: 3. Apr.

Basierend auf aktuellen Deep Learning Ansätzen aus dem Bereich der Computer Vision ist es uns gelungen, eine robuste und zuverlässige fotobasierte Reifenerkennungstechnologie zu entwickeln mit dem Potential, in breiten Bereichen des Online-Reifenhandel, dem Flottenmanagements, der Reifenlagerung und auch in Werkstätten Abläufe rund um den PKW-Reifen einfacher, sicherer und kostengünstiger zu gestalten.

Ein kurzer Rückblick: Die Aufgabe besteht darin, zuverlässig und schnell Datentypen wie bspw.

Marke und Profil

Der Markenname sowie der "Name" des Reifenmodells

Reifendimension

Last- und Geschwindigkeitsindex

DOT

auf der Grundlage eines Fotos der Reifenflanke via Smartphones oder aus einer Industrieanlage zu erkennen. Die Herausforderung besteht hierbei darin, auch bei schlechter Bildqualität, geringem Kontrast zwischen Text und Hintergrund, großen Unterschieden in Textgröße und Schriftart, Kratzern und Schmutz auf dem Reifen u.v.m die Schrift auf dem Reifen dennoch zuverlässig zu erkennen - Punkte, die diese Aufgabe zu einer echten Herausforderung im Bereich der Computer Vision macht. Dank moderner KI-Techniken ist diese Aufgabe nun jedoch in den Bereich des Machbaren gerückt.

Die KI-Architektur hinter KTR

Die Kaitos Tire Recognition (KTR) ist ein spannender Erfolg auf dem Gebiet des Deep Learning und der Computer Vision. Die KTR zugrundeliegende Architektur ist ein von uns stark modifiziertes CRNN, das in unserem Fall aus etwa 10 Millionen Parametern besteht. CRNNs sind durchgängig trainierbar, extrem robust und in der Lage, sequenzielle Daten sehr gut zu verarbeiten, wodurch sie sich perfekt für diese Aufgabe eignen. Ausführlichere Informationen über die spezifische Architektur und das Modelldesign von KTR finden Sie im ersten Teil unserer Blogserie.

Das Datenset

Um unser Modell zu trainieren, benötigten wir einen großen Datensatz von Reifenbildern, der eine breite Palette verschiedener Reifen abdeckt. Zu diesem Zweck sammelten wir mit Hilfe von Partnerunternehmen mehr als 300.000 Reifenbilder von kompletten und partiellen Seitenwänden, die insgesamt 3,3 TB an Bilddaten umfassten. Sobald wir unseren Datensatz hatten, bestand die nächste Herausforderung in der Annotation der Daten. Dazu entwickelten wir ein Labeltool, das auf unseren hausintern entwickelten Labelpipelines aufsetzte und Folgendes umfasst:

automatisierte Bildklassifizierung - d.h. ist ein Teil eines Reifens, ein ganzer Reifen, mehrere Reifen oder gar kein Reifen auf dem Bild
automatisierte Maskenvorhersage - d. h. wo auf dem Bild befindet sich der Reifen
automatisiertes und hochperformantes "Glattrechnen" des Reifens
automatisierte Vorhersage des jeweils aktuellsten KTR-Modells, die automatisch in der Benutzeroberfläche angezeigt wird
und schließlich eine Benutzeroberfläche, die es ermöglicht, Bilder effizient zu labeln, um unsere verschiedenen KI-Architekturen der Schritte 1, 2 und insbesondere 5 kontinuierlich zu verbessern

Image of the label tool for labeling tire data

Image of the label tool we developed to provide the required data

Auf diese Weise konnten wir die für die Beschriftung von Reifenbildern benötigte Zeit um mehr als einen Faktor 8 reduzieren - d.h. ausgehend von 4 Minuten pro Reifen benötigen wir aktuell nur noch etwa 30 Sekunden, um dieselbe Aufgabe auf genauere Weise zu erledigen. Darüber hinaus konnte wir durch unseren Active Learning Ansatz die für eine hohe Genauigkeit erforderliche Datenmenge zusätzlich um etwa den Faktor 10 reduzieren. Dies waren Schlüsselfaktoren, die es uns ermöglichten, dieses große Projekt mit begrenzten Ressourcen überhaupt durchzuführen.

Training

Wir haben das gesamte Training auf unserem eigenen GPU-Cluster durchgeführt. Unser Training von KTR von Grund auf bis zur aktuellen Leistung umfasste 100.000 Bilder bzw. Bildausschnitte mit einer Trainingszeit, die dem Zeitäquivalent von einem Monat durchgängigem Training auf einer GeForce RTX 3090 entspricht.

Aktuelle Ergebnisse

KTR ist ein großer Fortschritt in Bezug auf die Erkennungsgenauigkeit im Vergleich zu unserem vorherigen Blog-Post. Auf einer Testmenge von 500 Bildern mit einer Bildqualität, die mit der oben genannten vergleichbar ist, erreichte unser Modell eine Erkennungsgenauigkeit von durchschnittlich mehr als 95 % in 1.5 Sekunden auf einer NVIDIA T4 oder einem vergleichbaren CPU basierten Setup:

Datentyp	Präzision
Marke	97.7%
Profil (Hauptname)	94.0%
Breite	98.5%
Verhältnis Höhe zu Breite	98.5%
Felgendurchmesser	98.5%
Lastindex	96.9%
Geschwindigkeitsindex	98.5%
DOT Datum	93.7%

Darüber hinaus kann unser KI-Modell als Nebenprodukt unseres Trainingssets auch auf einen kleinen Ausschnitt der Reifenseitenwand angewendet werden - d.h. nur auf die DOT oder die Dimension des Reifens - und wird somit auch ein äußerst zuverlässiger und performanter Dimensions- oder DOT-Scanner sein. Schließlich werden wir auf der Grundlage dieser sehr großen Datenmenge, die wir nun verfügbar haben, als Nebenprodukt eine große und aktuelle DOT-Datenbank aufbauen, die sowohl die DOT als auch die Informationen über Reifenprofil, Marke usw. enthält und somit beide Informationen miteinander verknüpfen kann.

Ausblick

Wir trainieren unser KI-Modell ständig mit neuen Bildern weiter, was zu einer stetigen Verbesserung der oben genannten Erkennungsperformance führen wird. Diese Genauigkeit sowie Geschwindigkeit machen diese Reifenerkennung zu einem spannenden Werkzeug für den Online-Reifenverkauf, das Flottenmanagement, die Reifenlagerung, Werkstätten und viele andere Unternehmen.

Unsere Software wird in Kürze als API verfügbar sein und lässt sich so leicht in bestehende Anwendungen integrieren. Wir sind überzeugt, dass diese KI-Technologie Unternehmen in der Reifenbranche helfen wird Zeit und Geld zu sparen bzw. die Kundenerfahrung in Ihren digitalen Angeboten zu verbessern.

Wenn Sie über die weitere Entwicklung von KTR auf dem Laufenden gehalten werden möchten, Interesse an weiteren Informationen haben oder generell an Beratungs- oder Entwicklungsleistungen im Bereich Computer Vision bzw. der künstlichen Intelligenz interessiert sind, kontaktieren Sie uns gerne - Kontakt.

Referenzen bzw. Leseempfehlungen:

CRNN: https://arxiv.org/abs/1507.05717
CTC Entropy Regularization: https://proceedings.neurips.cc/paper/2018/file/e44fea3bec53bcea3b7513ccef5857ac-Paper.pdf
Wildcard CTC: https://openreview.net/pdf?id=0RqDp8FCW5Z
Transformer Based OCR: https://arxiv.org/abs/1910.04396