Numerische Methoden zur Analyse hochdimensionaler Daten

Heinen, Dennis

Numerical Methods for Analyzing High-Dimensional Data

by Dennis Heinen

Doctoral thesis

Date of Examination:2014-07-01

Date of issue:2014-09-10

Advisor:Prof. Dr. Gerlind Plonka-Hoch

Referee:Prof. Dr. Gerlind Plonka-Hoch

Referee:Prof. Dr. Armin Iske

Persistent Address: http://dx.doi.org/10.53846/goediss-4680

Files in this item

Name:dissertation_heinen.pdf

Size:7.63Mb

Format:PDF

Description:Dissertation

ViewOpen

The following license files are associated with this item:

Abstract

English

This thesis is concerned with two of the major tasks in processing huge data sets, dimensionality reduction and data denoising. The first part of the thesis yields a summary on dimensionality reduction. Dimensionality reduction aims for a meaningful low-dimensional representation of a given high-dimensional data set. Particularly, we discuss and compare several established methods in manifold learning. The underlying assumption of manifold learning is that the high-dimensional data set lies (approximately) on a low-dimensional manifold. All of the dimensionality reduction methods are impaired by the presence of noise in the data set. The second part of this thesis presents a new denosing method for high-dimensional data, a wavelet shrinkage method for smoothing of noisy sample values of an underlying multivariate piecewise continuous function, where the sample points may be scattered. The method is a generalization and advancement of the "Easy Path Wavelet Transform" (EPWT) introduced for image compression. It relies on a one-dimensional wavelet transform along (adaptively) constructed paths through the sample points. Suitable adaptive path constructions are crucial for the success of the method. Furthermore, this thesis features a short discussion of the theoretical properties of wavelets along paths as well as numerical results and concludes with possible modifications of the denoising method.

Keywords: high-dimensional data; dimensionality reduction; manifold learning; denoising; scattered data; wavelets along pathways; EPWT; Easy Path Wavelet Transform

Other Languages

Diese Dissertation beschäftigt sich mit zwei der wesentlichen Herausforderungen, welche bei der Bearbeitung großer Datensätze auftreten, der Dimensionsreduktion und der Datenentstörung. Der erste Teil dieser Dissertation liefert eine Zusammenfassung über Dimensionsreduktion. Ziel der Dimensionsreduktion ist eine sinnvolle niedrigdimensionale Darstellung eines vorliegenden hochdimensionalen Datensatzes. Insbesondere diskutieren und vergleichen wir bewährte Methoden des Manifold-Learning. Die zentrale Annahme des Manifold-Learning ist, dass der hochdimensionale Datensatz (approximativ) auf einer niedrigdimensionalen Mannigfaltigkeit liegt. Störungen im Datensatz sind bei allen Dimensionsreduktionsmethoden hinderlich. Der zweite Teil dieser Dissertation stellt eine neue Entstörungsmethode für hochdimensionale Daten vor, eine Wavelet-Shrinkage-Methode für die Glättung verrauschter Abtastwerte einer zugrundeliegenden multivariaten stückweise stetigen Funktion, wobei die Abtastpunkte gestreut sein können. Die Methode stellt eine Verallgemeinerung und Weiterentwicklung der für die Bildkompression eingeführten "Easy Path Wavelet Transform" (EPWT) dar. Grundlage ist eine eindimensionale Wavelet-Transformation entlang (adaptiv) zu konstruierender Pfade durch die Abtastpunkte. Wesentlich für den Erfolg der Methode sind passende adaptive Pfadkonstruktionen. Diese Dissertation beinhaltet weiterhin eine kurze Diskussion der theoretischen Eigenschaften von Wavelets entlang von Pfaden sowie numerische Resultate und schließt mit möglichen Modifikationen der Entstörungsmethode.

Schlagwörter: hochdimensionale Daten; Dimensionsreduktion; Manifold-Learning, Entstörung; gestreute Daten; Wavelets entlang von Pfaden; EPWT; Easy Path Wavelet Transform

Statistik