Zur Kurzanzeige

Integrating remotely sensed data into forest resource inventories

The impact of model and variable selection on estimates of precision

dc.contributor.advisorKleinn, Christoph Prof. Dr.
dc.contributor.authorMundhenk, Philip Henrich
dc.date.accessioned2015-05-18T09:59:19Z
dc.date.available2015-05-18T09:59:19Z
dc.date.issued2015-05-18
dc.identifier.urihttp://hdl.handle.net/11858/00-1735-0000-0022-5FE6-3
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-4847
dc.identifier.urihttp://dx.doi.org/10.53846/goediss-4847
dc.description.abstractDie letzten zwanzig Jahre haben gezeigt, dass die Integration luftgestützter Lasertechnologien (Light Detection and Ranging; LiDAR) in die Erfassung von Waldressourcen dazu beitragen kann, die Genauigkeit von Schätzungen zu erhöhen. Um diese zu ermöglichen, müssen Feldaten mit LiDAR-Daten kombiniert werden. Diverse Techniken der Modellierung bieten die Möglichkeit, diese Verbindung statistisch zu beschreiben. Während die Wahl der Methode in der Regel nur geringen Einfluss auf Punktschätzer hat, liefert sie unterschiedliche Schätzungen der Genauigkeit. In der vorliegenden Studie wurde der Einfluss verschiedener Modellierungstechniken und Variablenauswahl auf die Genauigkeit von Schätzungen untersucht. Der Schwerpunkt der Arbeit liegt hierbei auf LiDAR Anwendungen im Rahmen von Waldinventuren. Die Methoden der Variablenauswahl, welche in dieser Studie berücksichtigt wurden, waren das Akaike Informationskriterium (AIC), das korrigierte Akaike Informationskriterium (AICc), und das bayesianische (oder Schwarz) Informationskriterium. Zudem wurden Variablen anhand der Konditionsnummer und des Varianzinflationsfaktors ausgewählt. Weitere Methoden, die in dieser Studie Berücksichtigung fanden, umfassen Ridge Regression, der least absolute shrinkage and selection operator (Lasso), und der Random Forest Algorithmus. Die Methoden der schrittweisen Variablenauswahl wurden sowohl im Rahmen der Modell-assistierten als auch der Modell-basierten Inferenz untersucht. Die übrigen Methoden wurden nur im Rahmen der Modell-assistierten Inferenz untersucht. In einer umfangreichen Simulationsstudie wurden die Einflüsse der Art der Modellierungsmethode und Art der Variablenauswahl auf die Genauigkeit der Schätzung von Populationsparametern (oberirdische Biomasse in Megagramm pro Hektar) ermittelt. Hierzu wurden fünf unterschiedliche Populationen genutzt. Drei künstliche Populationen wurden simuliert, zwei weitere basierten auf in Kanada und Norwegen erhobenen Waldinveturdaten. Canonical vine copulas wurden genutzt um synthetische Populationen aus diesen Waldinventurdaten zu generieren. Aus den Populationen wurden wiederholt einfache Zufallsstichproben gezogen und für jede Stichprobe wurden der Mittelwert und die Genauigkeit der Mittelwertschätzung geschäzt. Während für das Modell-basierte Verfahren nur ein Varianzschätzer untersucht wurde, wurden für den Modell-assistierten Ansatz drei unterschiedliche Schätzer untersucht. Die Ergebnisse der Simulationsstudie zeigten, dass das einfache Anwenden von schrittweisen Methoden zur Variablenauswahl generell zur Überschätzung der Genauigkeiten in LiDAR unterstützten Waldinventuren führt. Die verzerrte Schätzung der Genauigkeiten war vor allem für kleine Stichproben (n = 40 und n = 50) von Bedeutung. Für Stichproben von größerem Umfang (n = 400), war die Überschätzung der Genauigkeit vernachlässigbar. Gute Ergebnisse, im Hinblick auf Deckungsraten und empirischem Standardfehler, zeigten Ridge Regression, Lasso und der Random Forest Algorithmus. Aus den Ergebnissen dieser Studie kann abgeleitet werden, dass die zuletzt genannten Methoden in zukünftige LiDAR unterstützten Waldinventuren Berücksichtigung finden sollten.de
dc.language.isoengde
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/
dc.subject.ddc634de
dc.titleIntegrating remotely sensed data into forest resource inventoriesde
dc.title.alternativeThe impact of model and variable selection on estimates of precisionde
dc.typedoctoralThesisde
dc.contributor.refereeKleinn, Christoph Prof. Dr.
dc.date.examination2014-05-26
dc.description.abstractengThe past two decades have demonstrated a great potential for airborne Light Detection and Ranging (LiDAR) data to improve the efficiency of forest resource inventories (FRIs). In order to make efficient use of LiDAR data in FRIs, the data need to be related to observations taken in the field. Various modeling techniques are available that enable a data analyst to establish a link between the two data sources. While the choice for a modeling technique may have negligible effects on point estimates, different model techniques may deliver different estimates of precision. This study investigated the impact of various model and variable selection procedures on estimates of precision. The focus was on LiDAR applications in FRIs. The procedures considered included stepwise variable selection procedures such as the Akaike Information Criterion (AIC), the corrected Akaike Information Criterion (AICc), and the Bayesian (or Schwarz) Information Criterion. Variables have also been selected based on the condition number of the matrix of covariates (i.e., LiDAR metrics) and the variance inflation factor. Other modeling techniques considered in this study were ridge regression, the least absolute shrinkage and selection operator (Lasso), partial least squares regression, and the random forest algorithm. Stepwise variable selection procedures have been considered in both, the (design-based) model-assisted, as well as in the model-based (or model-dependent) inference framework. All other techniques were investigated only for the model-assisted approach. In a comprehensive simulation study, the effects of the different modeling techniques on the precision of population parameter estimates (mean aboveground biomass per hectare) were investigated. Five different datasets were used. Three artificial datasets were simulated; two further datasets were based on FRI data from Canada and Norway. Canonical vine copulas were employed to create synthetic populations from the FRI data. From all populations simple random samples of different size were repeatedly drawn and the mean and variance of the mean were estimated for each sample. While for the model-based approach only a single variance estimator was investigated, for the model-assisted approach three alternative estimators were examined. The results of the simulation studies suggest that blind application of stepwise variable selection procedures lead to overly optimistic estimates of precision in LiDAR-assisted FRIs. The effects were severe for small sample sizes (n = 40 and n = 50). For large samples (n = 400) overestimation of precision was negligible. Good performance in terms of empirical standard errors and coverage rates were obtained for ridge regression, Lasso, and the random forest algorithm. This study concludes that the use of the latter three modeling techniques may prove useful in future LiDAR-assisted FRIs.de
dc.contributor.coRefereeKneib, Thomas Prof. Dr.
dc.contributor.thirdRefereeMagnussen, Steen Dr.
dc.subject.engLight detection and ranging (LiDAR)de
dc.subject.engGeneralized regression estimatorde
dc.subject.engModel uncertaintyde
dc.subject.engDesign-based inferencede
dc.subject.engModel-based inferencede
dc.identifier.urnurn:nbn:de:gbv:7-11858/00-1735-0000-0022-5FE6-3-6
dc.affiliation.instituteFakultät für Forstwissenschaften und Waldökologiede
dc.subject.gokfullForstwirtschaft (PPN621305413)de
dc.identifier.ppn825578442


Dateien

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige