Analysis of high dimensional repeated measures designs: The one- and two-sample test statistics
Entwicklung von Verfahren zur Analyse von hochdimensionalen Daten mit Messwiederholungen
von Muhammad Rauf Ahmad
Datum der mündl. Prüfung:2008-07-07
Erschienen:2008-08-27
Betreuer:Prof. Dr. Edgar Brunner
Gutachter:Prof. Dr. Manfred Denker
Dateien
Name:ahmad.pdf
Size:783.Kb
Format:PDF
Description:Dissertation
Zusammenfassung
Englisch
All models are wrong; only some are useful. (G. E. P. Box) In this project, we have analyzed some useful models, based on an approximation introduced by G. E. P. Box; hence, the next few chapters map an odyssey wherein Box and his adage go hand in hand. In a nutshell, one- and two-sample test statistics are developed for the analysis of repeated measures designs when the dimension, d, can be large compared to the sample size, n (d > n).The statistics do not depend on any specific structure of the covariance matrix and can be used in a variety of situations: they are valid for testing any general linear hypothesis, are equally applicable to the design set up of profile analysis and to the usual multivariate structure, are invariant to an orthogonal linear transformation, and are also valid when the data are not high dimensional.The test statistics, a modification of the ANOVA-type statistic (Brunner, 2001), are based on Box s approximation (Box, 1954a), and follow a Â2 f -distribution. The estimators, the building blocks of the test statistics, are composed of quadratic and symmetric bilinear forms, and are proved to be unbiased, L2-consistent and uniformly bounded in dimension, d. This last property of estimators helps us in the asymptotic derivations in that we need not let both n and d approach infinity. We let n 1, while keep d fixed, such that the approximation of the distribution of the test statistic to the Â2 distribution remains accurate when d > n, or even d >> n.The performance of the statistics is evaluated through simulations and it is shown that, for n as small as 10 or 20, the approximation is quite accurate, whatever be d. The statistic is also applied to a number of real data sets for numerical illustrations.
Keywords: high dimensional data; bilinear forms; Box approximation
Weitere Sprachen
All models are wrong; only some are useful. (G. E.
P. Box) In dieser Arbeit haben wir Modelle analysiert,
die auf der Approximation von Box basieren. Die
nachfolgenden Kapitel zeichnen eine Reise auf, in der
Box und sein obiger Ausspruch Hand in Hand gehen. Kurz
gesagt, werden in dieser Arbeit Ein- und
Zweistichproben Teststatistiken entwickelt für die
Analyse von Designs mit Messwiederholungen fr den Fall,
dass die Dimension d gross ist im Vergleich zur
Stichprobengrösse n (d > n).Die Statistiken benötigen keine spezielle Struktur
der Kovarianzmatrix und können in einer Vielzahl von
Situationen eingesetzt werden: Sie können benutzt
werden, um eine beliebige lineare Hypothese zu testen.
Sie sind ebenso anwendbar, um Profilanalysen
durchzufhren und anwendbar für multivariate Designs.
Sie sind invariant unter orthogonalen linearen
Transformationen und behalten ihre Gültigkeit, wenn die
Daten nicht hochdimensional sind.Die Teststatistiken stellen eine Modifikation der
ANOVA-artigen Statistik dar (Brunner, 2001), basieren
auf der Box Approximation (Box, 1954a) und folgen einer
2f-Verteilung. Die Schätzer, auf denn die
Teststatistiken basieren, bestehen aus quadratischen,
symmetrischen Bilinearformen, und wir beweisen, dass
sie unverzerrt, L2-konsistent und gleichmäßig
beschränkt in der Dimension d sind. Diese letzte
Eigenschaft der Schätzer hilft bei den asymptotischen
Herleitungen, da n und d nicht beide gegen unendlich
tendieren mssen. Wir lassen n 1 bei beliebigem, festem
d und zeigen, dass die Näherung der Verteilung der
Teststatistik durch eine 2-Verteilung ihre Gültigkeit
behält, wenn d > n, oder sogar d >> n ist.Die Leistungsfähigkeit der Statistiken wird durch
Simulationen untersucht und wir zeigen dass, selbst
wenn n nur 10 oder 20 ist, die Näherung sehr genau ist,
unabhängig von dem Wert von d. Die Statistik wird auch
auf eine Reihe von realen Datensätzen angewandt.
Schlagwörter: hochdimensionale daten; bilinearformen; Box approximation