Multi-modal Statistics of Local Image Structures and its Applications for Depth Prediction
Multi-modale Statistik lokaler Bildstrukturen und ihre Anwendung fuer die Bestimmung der Tiefenkomponente in 3D
von Sinan Kalkan
Datum der mündl. Prüfung:2008-01-15
Erschienen:2008-02-12
Betreuer:Prof. Dr. Florentin Wörgötter
Gutachter:Prof. Norbert Krueger
Dateien
Name:kalkan.pdf
Size:17.2Mb
Format:PDF
Description:Dissertation
Zusammenfassung
Englisch
Processing in most artificial vision systems and in the human vision system starts with early vision which involves the extraction of local visual modalities (like optical flow, disparity and contrast transition etc.) and local image structures (edge-like, junction-like and texture-like structures). Since information in early vision is processed only locally, it is inherently ambiguous. For example, estimation of optical flow faces the aperture problem, and thus, only the flow along the intensity gradient is computable for edge-like structures. Moreover, the extracted flow information at weakly-textured image areas are unreliable. Analogously, stereopsis needs to deal with the correspondence problem: as correspondences at weakly textured image areas cannot be found, the disparity information at such places is not accurate. One way to deal with the missing and ambiguous information is to make use of the redundancy of visual information by exploiting the statistical regularities of natural scenes. Such regularities are carried in the visual system using feedback mechanisms between different layers, or by lateral connections within a layer. This thesis is interested in the ambiguities and the biased and missing information in the processing of optic flow, stereo and junctions using statistical means. It uses statistical properties of images to analyze the extent of the ambiguous processing in optical flow estimation and whether the missing information in stereo can be recovered using interpolation of depth information at edge-like structures. Moreover, it proposes a feedback mechanism for dealing with the bias in junction detection, and another model for recovering the missing depth information in stereo computation using only the depth information at the edges.
Keywords: Computer Vision; Image Understanding; Statistics of Images
Weitere Sprachen
Die Wahrnehmung in den meisten künstlichen
und menschlichen visuellen Systemen beginnt mit der Extraktion von
lokalen visuellen Modalitäten (wie z .B. optischer Fluss,
Disparität oder Kontrastübergänge) und lokalen Bildstrukturen
(kantenähnlichen, eckähnlichen und texturähnlichen). Da in diesen
frühen visuellen Prozessen Information nur lokal verarbeitet wird,
ist das Ergebnis nicht eindeutig. Bei der Berechnung des optischen
Flusses tritt zum Beispeil das Aperturproblem auf, welches besagt,
dass der Fluss nur entlang des Intensitätsgradienten an
kantenähnlichen Strukturen bestimmt werden kann. Flussinformation
in schwach texturierten Bildbereichen ist deshalb
unzuverlässig.
Analog dazu tritt beim Stereosehen das Korrespondenzproblem auf: Da
zwischen Stereobildern in schwach texturierten Bildbereichen nicht
genügend Bildübereinstimmungen gefunden werden können, ist die
berechnete Disparität in diesen Bereichen nicht akkurat genug.
Mittels Benutzung redundanter visueller Information und Auswertung
von statistischen Regelmässigkeiten besteht jedoch die Möglichkeit
diese Lücke zu füllen. Im visuellen System werden solche
Regelmässigkeiten durch Rückkopplungsmechanismen zwischen
verschiedenen Verarbeitungsschichten und durch laterale Verbindungn
innerhalb einer Schicht vermittelt. Diese Dissertation behandelt
die Mehrdeutigkeiten, die bei der Berechnung des optischen Flusses,
dem Stereosehen und dem Erkennen von Kanten auftreten, mit Hilfe
statistischer Methoden. Statistische Eigenschaften werden benutzt,
um die Mehrdeutigkeit visueller Information zu analysieren und um
zu bestimmen, ob die fehlenden Tiefeninformationen an
kantenähnlichen Strukturen durch Interpolation wiederhergestellt
werden können. Zusätzlich wird ein Rückkopplungsmechanismus
vorgeschlagen, der den systematischen Fehler behandelt . Darüber
hinaus wird ein Modell entwickelt, durch das fehlende
Tiefeninformation im Stereosehen unter Benutzung von
Tiefeninformation an Kanten wiederhergestellt werden kann.
Schlagwörter: Computersehen; Bildverstehen; statistische Methoden der Bildverarbeitung