• Deutsch
    • English
  • English 
    • Deutsch
    • English
  • Login
Item View 
  •   Home
  • Rechts-, Wirtschafts- und Sozialwissenschaften
  • Wirtschaftswissenschaftliche Fakultät
  • Item View
  •   Home
  • Rechts-, Wirtschafts- und Sozialwissenschaften
  • Wirtschaftswissenschaftliche Fakultät
  • Item View
JavaScript is disabled for your browser. Some features of this site may not work without it.

Estimating and Correcting the Effects of Model Selection Uncertainty

Estimating and Correcting the Effects of Model Selection Uncertainty

by Georges Lucioni Edison Nguefack Tsague
Doctoral thesis
Date of Examination:2006-02-03
Date of issue:2006-04-07
Advisor:Prof. Dr. Walter Zucchini
Referee:Prof. Dr. Walter Zucchini
Referee:Prof. Dr. Fred Böker
Referee:Prof. Dr. Stephan Klasen
crossref-logoPersistent Address: http://dx.doi.org/10.53846/goediss-3679

 

 

Files in this item

Name:nguefack_tsague.pdf
Size:1.78Mb
Format:PDF
Description:Dissertation
ViewOpen

The following license files are associated with this item:


Abstract

English

Most applied statistical analyses are carried out under model uncertainty, meaning that the model which generated the observations is unknown, and so the data are first used to select one of a set of plausible models by means of some selection criterion. Generally the data are then used to make inferences about some quantity of interest, ignoring model selection uncertainty, i.e. the fact that the selection step was carried out using the same data, and despite the known fact that this leads to invalid inferences. This thesis investigates several issues relating to this problem from both the Bayesian and the frequentist points of view, and offers new suggestions for dealing with it. We examine Bayesian model averaging (BMA) and point out that its frequentist performance is not always well-defined because, in some cases, it is unclear whether BMA methodology is truly Bayesian. We illustrate the point with a "fully Bayesian model averaging" that is applicable when the quantity of interest is parametric. We give a framework that reveals the complexity of estimators constructed after model selection (post-model-selection estimators) and study their properties in the context of linear regression for a variety of selection procedures. We show that no single model selection criterion dominates all the others in terms of the risk function. Key ingredients of the problem are identified and used to show that even consistent selection criteria do not solve the model selection uncertainty problem. We also argue that conditioning the analysis on the subset of the sample space that led to a particular model being selected is incomplete. We consider the problem in the frequentist framework. Although model averaging and model selection are usually regarded as two quite distinct approaches, we propose viewing the latter as a special case of model averaging, in which the (random) weights take on the value 1 for the selected model, and 0 to all the others. From this point of view, and since optimal weights cannot be determined in practice, neither of the above approaches can be expected to consistently outperform the other. It also leads us to propose alternative weights for the averaging that are designed to improve on post-model-selection estimation. The key point is to take account of the selection procedure in determining the weights. We compare the different methods for some simple cases (linear regression and estimation of proportions). We illustrate that bootstrap does not provide good estimators of the properties of post-model-selection estimators. Returning to the Bayesian approach we point out that, as long as the analysis is conditional on data, model selection uncertainty is not an issue, only model uncertainty matters. However, if one is interested in assessing the frequentist properties of Bayesian post-model-selection estimators, the situation is analogous to that encountered in the frequentist analysis. Here too we propose an alternative to standard BMA, namely one in which the weights depend on the models selection probabilities, thereby taking account of the selection procedure. We also point out that the properties of model averaging or post-model-selection estimators can only be derived under an assumed true model. However, under such an assumption, one would simply use that model without applying model selection or model averaging. It is this circularity that makes the problem so difficult to deal with. Traditional exploratory frequentist data analysis and model building can be viewed as informal model selection in which the precise selection procedure is difficult to reconstruct, which makes it especially difficult to perform valid inference. Therefore, almost any (frequentist) data analysis is subject to model selection uncertainty. Without entering the debate on the relative merits of frequentist and Bayesian methods, we point out that, to avoid model selection uncertainty, Bayesian methods are preferable as long as the frequentist properties of the resulting estimator are not of interest.
Keywords: Model selection; Model uncertainty; Model selection probability; Post-model-selection estimation; Inference; Bayesian model averaging; Frequentist model averaging; Akaike weights; Bootstrap.

Other Languages

Die meisten statistischen Analysen werden in Unkenntnis des wahren Modells durchgeführt, d.h. dass das Modell, das die Daten erzeugte, unbekannt ist und die Daten zunächst dafür verwendet werden, mit Hilfe eines Modellauswahlkriteriums ein Modell aus einer Menge plausibler Modelle auszuwählen. Gewöhnlich werden die Daten dann verwendet, um Schlüsse über einige Variablen zu ziehen. Dabei wird die Modellunsicherheit, also die Tatsache, dass der Modellauswahlschritt mit den gleichen Daten durchgeführt wurde, ignoriert, obwohl man weiß, dass dies zu ungültigen Schlussfolgerungen führt. Die vorliegende Arbeit untersucht einige Aspekte des Problems sowohl aus bayesianischer als auch aus frequentistischer Sicht und macht neue Vorschläge, wie mit dem Problem umgegangen werden kann. Wir untersuchen bayesianische Modellmittelung (Bayesian model averaging =BMA) und zeigen, dass dessen frequentistisches Abschneiden nicht immer wohldefiniert ist, denn in einigen Fällen ist es unklar, ob BMA wirklich bayesianisch ist. Wir illustrieren diesen Punkt mit einer „vollständigen bayesianische Modellmittelung“, die anwendbar ist, wenn die interessierende Größe parametrisch ist. Wir stellen ein System vor, das die Komplexität von Schätzern nach der Modellauswahl aufdeckt („post-model-selection Schätzer“) und untersuchen ihre Eigenschaften im Kontext der linearen Regression für eine Vielzahl an Modellauswahlprozeduren. Wir zeigen, dass kein Modellauswahlkriterium gleichmäßig besser ist als alle anderen, im Sinne der Risikofunktion. Schlüsselzutaten des Problems werden identifiziert und verwendet, um zu zeigen, dass selbst konsistente Modellauswahlkriterien das Problem der Modellauswahlunsicherheit nicht lösen. Wir argumentieren außerdem, dass das Bedingen der Analyse auf die Teilmenge des Stichprobenraumes, die zu einem bestimmten Modell führte, unvollständig ist. Wir betrachten das Problem aus frequentistischer Sicht. Obwohl Modellmittelung und Modellauswahl normalerweise als zwei getrennte Herangehensweisen betrachtet werden, schlagen wir vor, das zweite als Spezialfall der Modellmittelung zu betrachten, in welcher die (zufälligen) Gewichte den Wert 1 für das ausgewählte Modell annehmen und 0 für alle anderen. Aus dieser Perspektive, und da die optimalen Gewichte in der Praxis nicht bestimmt werden können, kann nicht erwartet werden, dass eine der zwei Methoden die andere konsistent übertrifft. Es führt uns dazu, alternative Gewichte für die Mittelung vorzuschlagen, die dazu gedacht sind, die post-model-selection Schätzung zu verbessern. Die Innovation besteht darin, die Modellauswahlprozedur bei der Bestimmung der Gewichte zu berücksichtigen. Wir vergleichen die verschiedenen Methoden für einige einfache Fälle (lineare Regression und Häufigkeitsschätzung). Wir zeigen, dass Bootstrapverfahren keine guten Schätzer für die Eigenschaften der post-model-selection Schätzer liefern. Zurückkehrend zur bayesianischen Sicht zeigen wir auf, dass, solange die Analyse bedingt auf die Daten stattfindet, Modellauswahlunsicherheit kein Problem ist, nur die Unsicherheit des Modells an sich. Wenn jemand allerdings an den frequentistischen Eigenschaften der bayesianischen post-model-selection Schätzern interessiert ist, ist die Situation analog zu der in der frequentistischen Analyse. Hier schlagen wir wieder eine Alternative zur gewöhnlichen BMA vor, in der die Gewichte von den Auswahlkriterien des Modells abhängen und somit die Auswahlprozedur berücksichtigen. Wir zeigen außerdem, dass die Eigenschaften von Modellmittelung und post-model-selection Schätzern nur unter einem angenommenen wahren Modell hergeleitet werden können. Unter einer solchen Annahme würde man allerdings einfach das wahre Modell nehmen, ohne Modellwahl oder Modellmittelung anzuwenden. Dieser Zirkelschluss macht es so schwierig, mit dem Problem umzugehen. Traditionelle explorative frequentistische Datenanalyse und Aufstellung eines Modells kann als eine informelle Modellwahl betrachtet werden, in welcher die genaue Modellauswahlprozedur schwierig zu rekonstruieren ist, was es besonders schwierig macht, gültige Schlussfolgerungen zu ziehen. Ohne die Debatte über Vor- und Nachteile der bayesianischen und frequentistischen Methoden zu führen, möchten wir betonen, dass bayesianische Methoden vorzuziehen sind, um Modellauswahlunsicherheit zu vermeiden, solange die frequentistischen Eigenschaften des resultierenden Schätzers nicht von Interesse sind.
Schlagwörter: Modellauswahl; Modellunsicherheit; Modellauswahlwahrscheinlichkeit; Post-model-selection Schätzung; Schlussfolgerung; Bayesianische Modellmittelung (BMA); frequentistische Modellmittelung; Akaike-Gewichte; Bootstrap.
 

Statistik

Publish here

Browse

All of eDissFaculties & ProgramsIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesTypeThis FacultyIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesType

Help & Info

Publishing on eDissPDF GuideTerms of ContractFAQ

Contact Us | Impressum | Cookie Consents | Data Protection Information
eDiss Office - SUB Göttingen (Central Library)
Platz der Göttinger Sieben 1
Mo - Fr 10:00 – 12:00 h


Tel.: +49 (0)551 39-27809 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
ediss_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]
Göttingen State and University Library | Göttingen University
Medicine Library (Doctoral candidates of medicine only)
Robert-Koch-Str. 40
Mon – Fri 8:00 – 24:00 h
Sat - Sun 8:00 – 22:00 h
Holidays 10:00 – 20:00 h
Tel.: +49 551 39-8395 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
bbmed_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]