• Deutsch
    • English
  • English 
    • Deutsch
    • English
  • Login
Item View 
  •   Home
  • Rechts-, Wirtschafts- und Sozialwissenschaften
  • Wirtschaftswissenschaftliche Fakultät
  • Item View
  •   Home
  • Rechts-, Wirtschafts- und Sozialwissenschaften
  • Wirtschaftswissenschaftliche Fakultät
  • Item View
JavaScript is disabled for your browser. Some features of this site may not work without it.

Semi-Parametric Distributional Regression in Forestry and Ecology

Software, Models and Applications

by Hannes Riebl
Doctoral thesis
Date of Examination:2023-06-13
Date of issue:2023-08-10
Advisor:Prof. Dr. Thomas Kneib
Referee:Prof. Dr. Elisabeth Bergherr
Referee:Prof. Dr. Niko Balkenhol
Sponsor:Deutsche Forschungsgemeinschaft (DFG)
crossref-logoPersistent Address: http://dx.doi.org/10.53846/goediss-10051

 

 

Files in this item

Name:riebl-regression-2023.pdf
Size:12.7Mb
Format:PDF
Description:Dissertation
ViewOpen

The following license files are associated with this item:


Abstract

English

Recent advances in machine learning software, such as automatic differentiation and just-in-time (JIT) compilation, have significantly changed machine learning research. They have accelerated model development and contributed to the emergence of AI tools such as the chatbot ChatGPT and the image generator DALL-E. In the context of probabilistic programming, similar methods are used to implement efficient gradient-based inference algorithms applicable to a broad range of Bayesian models, e.g. Hamiltonian Monte Carlo (HMC) and the No-U-Turn Sampler (NUTS). This cumulative dissertation includes three research papers that combine methods from machine learning and probabilistic programming with semi-parametric regression models from applied statistics. This combination enables the development of novel models with semi-parametric regression predictors and the corresponding inference algorithms. Moreover, various applications in forestry and ecology are presented. In the first paper, we present the probabilistic programming framework Liesel, which aims to provide a software basis for efficient and reliable research in applied statistics, suitable for the implementation of complex models and inference algorithms. The software focuses on semi-parametric regression predictors with linear, non-linear, random and spatial covariate effects. A typical workflow with Liesel would be: (1) configuration of a model graph as a baseline, e.g. using Liesel's R interface, (2) adaptation of the model graph to implement new research ideas, and (3) fully Bayesian inference using the included Markov chain Monte Carlo (MCMC) library, either with a standard algorithm or a user-defined variant. Samplers such as HMC and NUTS are supported and can be combined with conventional methods, e.g. iterative weighted least squares (IWLS) proposals and Gibbs updates. Liesel is written in Python and uses the machine learning library JAX as a backend. The second and third paper discuss extensions and applications of semi-parametric distributional regression in forestry and ecology. The new models arise from the introduction of certain response structures into a regression context, e.g. in the form of Gaussian processes (GPs) with parametric mean and covariance functions. We apply the GP model to measurements from high-resolution circumference dendrometers. These instruments record both the irreversible growth of tree stems as well as the reversible shrinking and swelling due to the water content. With our model, the data can be decomposed into a permanent and a temporary component, and differences between trees and years can be explained by covariates. In the last paper, we propose the multi-species count model (MSCM) to estimate relationships between environmental conditions and different indices of species diversity. We use the model with semi-parametric regression predictors to assess the effects of European beech, Norway spruce and Douglas fir on the species diversity of various taxa, based on data collected in the Research Training Group (RTG) 2300 and taking into account spatial correlation.
Keywords: statistical modeling; regression analysis; semi-parametric statistics; generalized additive model for location, scale and shape; Bayesian statistics; statistical software

German

Die neueren Entwicklungen im Bereich der Machine-Learning-Software, etwa das automatische Differenzieren und die JIT-Kompilierung (JIT = Just in Time), haben die Forschung im maschinellen Lernen erheblich verändert. Sie haben die Modellentwicklung beschleunigt und zum Entstehen von KI-Werkzeugen wie dem Chatbot ChatGPT und dem Bildgenerator DALL-E beigetragen. Im Kontext der probabilistischen Programmierung werden ähnliche Methoden eingesetzt, um effiziente gradienten-basierte Inferenzalgorithmen zu implementieren, die auf eine Vielzahl von Bayesianischen Modellen anwendbar sind, z. B. Hamiltonian Monte Carlo (HMC) und der No-U-Turn Sampler (NUTS). Diese kumulative Dissertation umfasst drei Forschungsartikel, die Methoden des maschinellen Lernens und der probabilistischen Programmierung mit semi-parametrischen Regressionsmodellen aus der angewandten Statistik kombinieren. So wird die Entwicklung neuer Modelle mit semi-parametrischen Prädiktoren und den entsprechenden Inferenzalgorithmen möglich. Außerdem werden verschiedene Anwendungen in der Forstwissenschaft und der Ökologie vorgestellt. Im ersten Artikel präsentieren wir das probabilistische Programmier-Framework Liesel, mit dem wir eine Software-Basis für effiziente und zuverlässige Forschung in der angewandten Statistik schaffen wollen, die geeignet ist für die Implementierung komplexer Modelle und Inferenzalgorithmen. Der Schwerpunkt der Software liegt auf semi-parametrischen Prädiktoren mit linearen, nicht-linearen, zufälligen und räumlichen Effekten von Kovariablen. Ein typischer Workflow mit Liesel wäre: (1) Konfiguration eines Modellgraphen, z. B. mithilfe des R-Interface von Liesel, (2) Anpassung des Modellgraphen zur Umsetzung neuer Forschungsideen, und (3) vollständige Bayes-Inferenz mit der mitgelieferten MCMC-Bibliothek (MCMC = Markov Chain Monte Carlo), entweder mit einem Standardalgorithmus oder einer benutzerdefinierten Variante. Sampler wie HMC und NUTS werden unterstützt und können mit herkömmlichen Methoden kombiniert werden, z. B. mit IWLS-Proposals (IWLS = Iterative Weighted Least Squares) und Gibbs-Updates. Liesel ist in Python geschrieben und nutzt die Machine-Learning-Bibliothek JAX als Backend. Im zweiten und dritten Artikel werden Erweiterungen und Anwendungen der semi-parametrischen Verteilungsregression in der Forstwissenschaft und der Ökologie diskutiert. Die neuen Modelle ergeben sich aus der Einführung bestimmter Response-Strukturen in einen Regressionskontext, z. B. in Form von Gauß-Prozessen (GPs) mit parametrischen Mittelwert- und Kovarianzfunktionen. Das GP-Modell wenden wir auf Messungen von hochauflösenden Dendrometern an. Diese Geräte erfassen neben dem irreversiblen Wachstum von Baumstämmen auch die reversiblen Schwankungen aufgrund des Wassergehalts. Mit unserem Modell können die Daten in eine permanente und eine temporäre Komponente zerlegt werden, wobei sich Unterschiede zwischen Bäumen und Jahren durch Kovariablen erklären lassen. Im letzten Artikel schlagen wir das Multi-Species-Count-Modell (MSCM) vor, mit dem Zusammenhänge zwischen Umweltbedingungen und verschiedenen Indizes für Artenvielfalt geschätzt werden können. Wir nutzen das Modell mit semi-parametrischen Prädiktoren, um die Effekte von Rotbuche, Fichte und Douglasie auf die Artenvielfalt verschiedener Taxa zu bestimmen, basierend auf Daten, die im Graduiertenkolleg (GRK) 2300 erhoben wurden, und unter Berücksichtigung der räumlichen Korrelation.
 

Statistik

Publish here

Browse

All of eDissFaculties & ProgramsIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesTypeThis FacultyIssue DateAuthorAdvisor & RefereeAdvisorRefereeTitlesType

Help & Info

Publishing on eDissPDF GuideTerms of ContractFAQ

Contact Us | Impressum | Cookie Consents | Data Protection Information
eDiss Office - SUB Göttingen (Central Library)
Platz der Göttinger Sieben 1
Mo - Fr 10:00 – 12:00 h


Tel.: +49 (0)551 39-27809 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
ediss_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]
Göttingen State and University Library | Göttingen University
Medicine Library (Doctoral candidates of medicine only)
Robert-Koch-Str. 40
Mon – Fri 8:00 – 24:00 h
Sat - Sun 8:00 – 22:00 h
Holidays 10:00 – 20:00 h
Tel.: +49 551 39-8395 (general inquiries)
Tel.: +49 (0)551 39-28655 (open access/parallel publications)
bbmed_AT_sub.uni-goettingen.de
[Please replace "_AT_" with the "@" sign when using our email adresses.]