dc.contributor.advisor | Zucchini, Walter Prof. Dr. | de |
dc.contributor.author | Nguefack Tsague, Georges Lucioni Edison | de |
dc.date.accessioned | 2013-01-31T08:20:46Z | de |
dc.date.available | 2013-01-31T08:20:46Z | de |
dc.date.issued | 2006-04-07 | de |
dc.identifier.uri | http://hdl.handle.net/11858/00-1735-0000-000D-F274-8 | de |
dc.identifier.uri | http://dx.doi.org/10.53846/goediss-3679 | |
dc.description.abstract | Die meisten statistischen Analysen werden
in Unkenntnis des wahren Modells durchgeführt, d.h. dass das
Modell, das die Daten erzeugte, unbekannt ist und die Daten
zunächst dafür verwendet werden, mit Hilfe eines
Modellauswahlkriteriums ein Modell aus einer Menge plausibler
Modelle auszuwählen. Gewöhnlich werden die Daten dann verwendet, um
Schlüsse über einige Variablen zu ziehen. Dabei wird die
Modellunsicherheit, also die Tatsache, dass der
Modellauswahlschritt mit den gleichen Daten durchgeführt wurde,
ignoriert, obwohl man weiß, dass dies zu ungültigen
Schlussfolgerungen führt. Die vorliegende Arbeit untersucht einige
Aspekte des Problems sowohl aus bayesianischer als auch aus
frequentistischer Sicht und macht neue Vorschläge, wie mit dem
Problem umgegangen werden kann. Wir untersuchen bayesianische
Modellmittelung (Bayesian model averaging =BMA) und zeigen, dass
dessen frequentistisches Abschneiden nicht immer wohldefiniert ist,
denn in einigen Fällen ist es unklar, ob BMA wirklich bayesianisch
ist. Wir illustrieren diesen Punkt mit einer „vollständigen
bayesianische Modellmittelung“, die anwendbar ist, wenn die
interessierende Größe parametrisch ist. Wir stellen ein System vor,
das die Komplexität von Schätzern nach der Modellauswahl aufdeckt
(„post-model-selection Schätzer“) und untersuchen ihre
Eigenschaften im Kontext der linearen Regression für eine Vielzahl
an Modellauswahlprozeduren. Wir zeigen, dass kein
Modellauswahlkriterium gleichmäßig besser ist als alle anderen, im
Sinne der Risikofunktion. Schlüsselzutaten des Problems werden
identifiziert und verwendet, um zu zeigen, dass selbst konsistente
Modellauswahlkriterien das Problem der Modellauswahlunsicherheit
nicht lösen. Wir argumentieren außerdem, dass das Bedingen der
Analyse auf die Teilmenge des Stichprobenraumes, die zu einem
bestimmten Modell führte, unvollständig ist. Wir betrachten das
Problem aus frequentistischer Sicht. Obwohl Modellmittelung und
Modellauswahl normalerweise als zwei getrennte Herangehensweisen
betrachtet werden, schlagen wir vor, das zweite als Spezialfall der
Modellmittelung zu betrachten, in welcher die (zufälligen) Gewichte
den Wert 1 für das ausgewählte Modell annehmen und 0 für alle
anderen. Aus dieser Perspektive, und da die optimalen Gewichte in
der Praxis nicht bestimmt werden können, kann nicht erwartet
werden, dass eine der zwei Methoden die andere konsistent
übertrifft. Es führt uns dazu, alternative Gewichte für die
Mittelung vorzuschlagen, die dazu gedacht sind, die
post-model-selection Schätzung zu verbessern. Die Innovation
besteht darin, die Modellauswahlprozedur bei der Bestimmung der
Gewichte zu berücksichtigen. Wir vergleichen die verschiedenen
Methoden für einige einfache Fälle (lineare Regression und
Häufigkeitsschätzung). Wir zeigen, dass Bootstrapverfahren keine
guten Schätzer für die Eigenschaften der post-model-selection
Schätzer liefern. Zurückkehrend zur bayesianischen Sicht zeigen wir
auf, dass, solange die Analyse bedingt auf die Daten stattfindet,
Modellauswahlunsicherheit kein Problem ist, nur die Unsicherheit
des Modells an sich. Wenn jemand allerdings an den
frequentistischen Eigenschaften der bayesianischen
post-model-selection Schätzern interessiert ist, ist die Situation
analog zu der in der frequentistischen Analyse. Hier schlagen wir
wieder eine Alternative zur gewöhnlichen BMA vor, in der die
Gewichte von den Auswahlkriterien des Modells abhängen und somit
die Auswahlprozedur berücksichtigen. Wir zeigen außerdem, dass die
Eigenschaften von Modellmittelung und post-model-selection
Schätzern nur unter einem angenommenen wahren Modell hergeleitet
werden können. Unter einer solchen Annahme würde man allerdings
einfach das wahre Modell nehmen, ohne Modellwahl oder
Modellmittelung anzuwenden. Dieser Zirkelschluss macht es so
schwierig, mit dem Problem umzugehen. Traditionelle explorative
frequentistische Datenanalyse und Aufstellung eines Modells kann
als eine informelle Modellwahl betrachtet werden, in welcher die
genaue Modellauswahlprozedur schwierig zu rekonstruieren ist, was
es besonders schwierig macht, gültige Schlussfolgerungen zu ziehen.
Ohne die Debatte über Vor- und Nachteile der bayesianischen und
frequentistischen Methoden zu führen, möchten wir betonen, dass
bayesianische Methoden vorzuziehen sind, um
Modellauswahlunsicherheit zu vermeiden, solange die
frequentistischen Eigenschaften des resultierenden Schätzers nicht
von Interesse sind. | de |
dc.format.mimetype | application/pdf | de |
dc.language.iso | eng | de |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/ | de |
dc.title | Estimating and Correcting the Effects of Model Selection Uncertainty | de |
dc.type | doctoralThesis | de |
dc.title.translated | Estimating and Correcting the Effects of Model Selection Uncertainty | de |
dc.contributor.referee | Zucchini, Walter Prof. Dr. | de |
dc.date.examination | 2006-02-03 | de |
dc.subject.dnb | 310 Statistik | de |
dc.subject.gok | LCB 020 | de |
dc.description.abstracteng | Most applied statistical analyses are
carried out under model uncertainty, meaning that the model which
generated the observations is unknown, and so the data are first
used to select one of a set of plausible models by means of some
selection criterion. Generally the data are then used to make
inferences about some quantity of interest, ignoring model
selection uncertainty, i.e. the fact that the selection step was
carried out using the same data, and despite the known fact that
this leads to invalid inferences. This thesis investigates several
issues relating to this problem from both the Bayesian and the
frequentist points of view, and offers new suggestions for dealing
with it. We examine Bayesian model averaging (BMA) and point out
that its frequentist performance is not always well-defined
because, in some cases, it is unclear whether BMA methodology is
truly Bayesian. We illustrate the point with a "fully Bayesian
model averaging" that is applicable when the quantity of interest
is parametric. We give a framework that reveals the complexity of
estimators constructed after model selection (post-model-selection
estimators) and study their properties in the context of linear
regression for a variety of selection procedures. We show that no
single model selection criterion dominates all the others in terms
of the risk function. Key ingredients of the problem are identified
and used to show that even consistent selection criteria do not
solve the model selection uncertainty problem. We also argue that
conditioning the analysis on the subset of the sample space that
led to a particular model being selected is incomplete. We consider
the problem in the frequentist framework. Although model averaging
and model selection are usually regarded as two quite distinct
approaches, we propose viewing the latter as a special case of
model averaging, in which the (random) weights take on the value 1
for the selected model, and 0 to all the others. From this point of
view, and since optimal weights cannot be determined in practice,
neither of the above approaches can be expected to consistently
outperform the other. It also leads us to propose alternative
weights for the averaging that are designed to improve on
post-model-selection estimation. The key point is to take account
of the selection procedure in determining the weights. We compare
the different methods for some simple cases (linear regression and
estimation of proportions). We illustrate that bootstrap does not
provide good estimators of the properties of post-model-selection
estimators. Returning to the Bayesian approach we point out that,
as long as the analysis is conditional on data, model selection
uncertainty is not an issue, only model uncertainty matters.
However, if one is interested in assessing the frequentist
properties of Bayesian post-model-selection estimators, the
situation is analogous to that encountered in the frequentist
analysis. Here too we propose an alternative to standard BMA,
namely one in which the weights depend on the models selection
probabilities, thereby taking account of the selection procedure.
We also point out that the properties of model averaging or
post-model-selection estimators can only be derived under an
assumed true model. However, under such an assumption, one would
simply use that model without applying model selection or model
averaging. It is this circularity that makes the problem so
difficult to deal with. Traditional exploratory frequentist data
analysis and model building can be viewed as informal model
selection in which the precise selection procedure is difficult to
reconstruct, which makes it especially difficult to perform valid
inference. Therefore, almost any (frequentist) data analysis is
subject to model selection uncertainty. Without entering the debate
on the relative merits of frequentist and Bayesian methods, we
point out that, to avoid model selection uncertainty, Bayesian
methods are preferable as long as the frequentist properties of the
resulting estimator are not of interest. | de |
dc.contributor.coReferee | Böker, Fred Prof. Dr. | de |
dc.contributor.thirdReferee | Klasen, Stephan Prof. Dr. | de |
dc.subject.topic | Economics and Management Science | de |
dc.subject.ger | Modellauswahl | de |
dc.subject.ger | Modellunsicherheit | de |
dc.subject.ger | Modellauswahlwahrscheinlichkeit | de |
dc.subject.ger | Post-model-selection Schätzung | de |
dc.subject.ger | Schlussfolgerung | de |
dc.subject.ger | Bayesianische Modellmittelung (BMA) | de |
dc.subject.ger | frequentistische Modellmittelung | de |
dc.subject.ger | Akaike-Gewichte | de |
dc.subject.ger | Bootstrap. | de |
dc.subject.eng | Model selection | de |
dc.subject.eng | Model uncertainty | de |
dc.subject.eng | Model selection probability | de |
dc.subject.eng | Post-model-selection estimation | de |
dc.subject.eng | Inference | de |
dc.subject.eng | Bayesian model averaging | de |
dc.subject.eng | Frequentist model averaging | de |
dc.subject.eng | Akaike weights | de |
dc.subject.eng | Bootstrap. | de |
dc.subject.bk | 83.03 | de |
dc.identifier.urn | urn:nbn:de:gbv:7-webdoc-699-5 | de |
dc.identifier.purl | webdoc-699 | de |
dc.identifier.ppn | 565552759 | de |