Deep Learning Metadata Fusion for Traffic Light to Lane Assignment

Langenberg, Tristan Matthias

by Tristan Matthias Langenberg

Doctoral thesis

Date of Examination:2019-07-26

Date of issue:2019-08-01

Advisor:Prof. Dr. Florentin Wörgötter

Referee:Prof. Dr. Florentin Wörgötter

Referee:Prof. Dr. Carsten Damm

Referee:Prof. Dr. Wolfgang May

Referee:Prof. Dr. Jens Grabowski

Referee:Prof. Dr. Stephan Waack

Referee:Dr. Minija Tamosiunaite

Persistent Address: http://dx.doi.org/10.53846/goediss-7588

Files in this item

Name:Dissertation_TristanLangenberg.pdf

Size:12.7Mb

Format:PDF

Description:Dissertation

ViewOpen

The following license files are associated with this item:

Abstract

English

This dissertation focuses on a novel deep fusion method with heterogeneous metadata and image data to resolve the one-to-many traffic light to lane assignment problem. The traffic light to lane assignment belongs to the research field of autonomous robotics or driving and is handled using artificial intelligence. The work uses a dataset with over 45 thousand frames from 848 complex intersection scenarios in Germany. Each intersection scenario has as a ground truth, the traffic light to lane connections and is annotated with the following metadata: traffic lights, lane line markings, lane arrow markings, and lane signs. An optimised inverse perspective mapping method is introduced which is independent from extrinsic camera parameters and creates a stitched inverse perspective mapping full panorama image. This method is employed for image data preparation and enables an efficient annotation of inverse perspective mapping lane line markings. At first, it is shown that a convolutional neuronal network can transfer an assignment problem in a regression problem to assign all relevant traffic lights to their associated lanes. Here, an indication vector defines the output of the network. The vector encodes all relevant traffic light column positions as binary information. This introduced strategy resolves the traffic light to lane assignment problem by vision, exclusively. Furthermore, the vision solution is enhanced by a deep metadata fusion approach. This approach is able to fuse heterogeneous metadata into a convolutional neural network. It transforms the metadata into several metadata feature maps. These metadata feature maps are fused into the convolutional neural network by means of an element-wise multiplication and an adaptive weighting technique with the global average of the selected fusion layer. The approach is examined for all working steps, compared against rule-based, only-metadata, and only-vision approaches and extended by a sequence approach. To appraise the deep metadata fusion approach in an expert manner, a subjective test is conducted that measures the real human performance for the traffic light to lane assignment and defines an independent baseline. As result, the deep metadata fusion approach reaches a mean accuracy of 93.7 % and outperforms rule-based, only-metadata, and only-vision approaches significantly. It also outperforms the human performance in the accuracy (+2.7 %) and F1score (+4.1 %) metric for the full dataset. However, the human performance and deep metadata fusion approach achieve an almost identical mean precision result with 92.9 ±1.3 %. Additionally, it results that an early fusion is most effective and all fused metadata feature maps have a positive effect on the results. The ideal fusion operator is the element-wise multiplication and the results increase the closer the vehicle approaches the stop line similar to humans perception.

Keywords: Convolutional Neural Networks; Deep Fusion; Intelligent Transportation Systems; Robotics and Automation; Traffic Light Assistance

German

Der Schwerpunkt dieser Dissertation ist eine neuartige tiefgreifende Fusionsmethode zwischen heterogenen Metadaten und Bilddaten zur Lösung des Zuordnungsproblems von Ampeln zu Fahrspuren. Die Ampel zu Fahrspurzuordnung gehört dem Forschungsbereich der autonomen Robotik bzw. des autonomen Fahrens an und wird unter Verwendung von Methoden der künstlichen Intelligenz bearbeitet. Die Arbeit verwendet einen Datensatz mit über 45.000 Einzelbildern aus 848 komplexen Straßenkreuzungsszenarien in Deutschland. Als Basis besitzt jedes Kreuzungsszenario die Verbindung zwischen Ampeln und Fahrspuren als Referenzinformation und ist mit den folgenden Metadaten annotiert: Ampeln, Fahrspurmarkierungen, Fahrspurrichtungspfeilen und Fahrspurschildern. Es wird eine optimierte Vogelperspektiventransformationsmethode vorgestellt, die unabhängig von extrinsischen Kameraparametern ist und ein vollständiges Vogelperspektivenpanorama aus zusammengesetzten Einzelbildern erzeugt. Diese Methode wird für die Bildvorverarbeitung eingesetzt und ermöglicht eine effiziente Annotation von Fahrspurmarkierungen in der Vogelperspektive. Zuerst wird gezeigt, dass ein neuronales Faltungsnetz ein Zuordnungsproblem in ein Regressionsproblem transferieren kann, um alle relevanten Ampeln ihren zugehörigen Fahrspuren zuzuweisen. Es wird ein Positionsvektor als Faltungsnetzausgabe definiert. Dieser kodiert alle relevanten Ampelpositionen als binäre Information. Dadurch wird die Ampel zu Fahrspurzuordnung ausschließlich visuell gelöst. Des Weiteren wird der visuelle Ansatz um einen tiefgreifenden Metadatenfusionsansatz erweitert. Dieser Fusionsansatz ermöglicht heterogene Metadaten in ein neuronales Faltungsnetz zu fusionieren. Dabei werden die Metadaten in verschiedene Metadatenmerkmalkarten transformiert. Diese Metadatenmerkmalkarten werden mittels einer elementweisen Multiplikation und einer adaptiven Gewichtungstechnik mit dem globalen Mittelwert der ausgewählten Fusionsebene im neuronalen Faltungsnetze fusioniert. Der tiefgreifende Metadatenfusionsansatz wird auf alle Arbeitsschritte geprüft, gegen regelbasierte, Metadaten getriebene und visuelle Ansätze verglichen und um ein Sequenzmodel erweitert. Weiterhin wird ein professioneller Probandentest durchgeführt, um die menschliche Leistung für dieses Zuordnungsproblem zu messen und als Maßstab zu definieren. Im Ergebnis erreicht der tiefgreifende Metadatenfusionsansatz eine mittlere Genauigkeit von 93,7 % und übertrifft signifikant regelbasierte, metadatenbasierte und bildbasierte Ansätze. Er übertrifft auch die gemessene menschliche Leistung für den vollständigen Datensatz in der Genauigkeitsmetrik (+2,7 %) und dem F1wert (+4,1 %). Jedoch erzielen die gemessene menschliche Leistung und der tiefe Metadatenfusionsansatz eine nahezu identische Richtig-Positive Rate von 92,9 ±1,3 %. Außerdem wird festgestellt, dass eine frühe Fusion der Metadaten am effektivsten ist und alle fusionierten Metadatenmerkmalkarten sich positiv auf die Ergebnisse auswirken. Ferner hat sich gezeigt, dass der beste Fusionsoperator die elementweise Multiplikation ist. In Anlehnung an die menschliche Wahrnehmung ist festzustellen, dass sich die Ergebnisse mit sinkendem Abstand zur Haltelinie steigern.

Statistik