Numerische Methoden zur Analyse hochdimensionaler Daten
Numerical Methods for Analyzing High-Dimensional Data
by Dennis Heinen
Date of Examination:2014-07-01
Date of issue:2014-09-10
Advisor:Prof. Dr. Gerlind Plonka-Hoch
Referee:Prof. Dr. Gerlind Plonka-Hoch
Referee:Prof. Dr. Armin Iske
Files in this item
Name:dissertation_heinen.pdf
Size:7.63Mb
Format:PDF
Description:Dissertation
Abstract
English
This thesis is concerned with two of the major tasks in processing huge data sets, dimensionality reduction and data denoising. The first part of the thesis yields a summary on dimensionality reduction. Dimensionality reduction aims for a meaningful low-dimensional representation of a given high-dimensional data set. Particularly, we discuss and compare several established methods in manifold learning. The underlying assumption of manifold learning is that the high-dimensional data set lies (approximately) on a low-dimensional manifold. All of the dimensionality reduction methods are impaired by the presence of noise in the data set. The second part of this thesis presents a new denosing method for high-dimensional data, a wavelet shrinkage method for smoothing of noisy sample values of an underlying multivariate piecewise continuous function, where the sample points may be scattered. The method is a generalization and advancement of the "Easy Path Wavelet Transform" (EPWT) introduced for image compression. It relies on a one-dimensional wavelet transform along (adaptively) constructed paths through the sample points. Suitable adaptive path constructions are crucial for the success of the method. Furthermore, this thesis features a short discussion of the theoretical properties of wavelets along paths as well as numerical results and concludes with possible modifications of the denoising method.
Keywords: high-dimensional data; dimensionality reduction; manifold learning; denoising; scattered data; wavelets along pathways; EPWT; Easy Path Wavelet Transform
Other Languages
Diese Dissertation beschäftigt sich mit zwei der wesentlichen Herausforderungen, welche bei der Bearbeitung großer Datensätze auftreten, der Dimensionsreduktion und der Datenentstörung. Der erste Teil dieser Dissertation liefert eine Zusammenfassung über Dimensionsreduktion. Ziel der Dimensionsreduktion ist eine sinnvolle niedrigdimensionale Darstellung eines vorliegenden hochdimensionalen Datensatzes. Insbesondere diskutieren und vergleichen wir bewährte Methoden des Manifold-Learning. Die zentrale Annahme des Manifold-Learning ist, dass der hochdimensionale Datensatz (approximativ) auf einer niedrigdimensionalen Mannigfaltigkeit liegt. Störungen im Datensatz sind bei allen Dimensionsreduktionsmethoden hinderlich.
Der zweite Teil dieser Dissertation stellt eine neue Entstörungsmethode für hochdimensionale Daten vor, eine Wavelet-Shrinkage-Methode für die Glättung verrauschter Abtastwerte einer zugrundeliegenden multivariaten stückweise stetigen Funktion, wobei die Abtastpunkte gestreut sein können. Die Methode stellt eine Verallgemeinerung und Weiterentwicklung der für die Bildkompression eingeführten "Easy Path Wavelet Transform" (EPWT) dar. Grundlage ist eine eindimensionale Wavelet-Transformation entlang (adaptiv) zu konstruierender Pfade durch die Abtastpunkte. Wesentlich für den Erfolg der Methode sind passende adaptive Pfadkonstruktionen. Diese Dissertation beinhaltet weiterhin eine kurze Diskussion der theoretischen Eigenschaften von Wavelets entlang von Pfaden sowie numerische Resultate und schließt mit möglichen Modifikationen der Entstörungsmethode.
Schlagwörter: hochdimensionale Daten; Dimensionsreduktion; Manifold-Learning, Entstörung; gestreute Daten; Wavelets entlang von Pfaden; EPWT; Easy Path Wavelet Transform