Essays in quantitative economics: Improvements in measurements and macroeconomic analysis

Haarburger, Richard

von Richard Haarburger

Dissertation

Datum der mündl. Prüfung:2023-12-07

Erschienen:2023-12-22

Betreuer:Prof. Dr. Tatyana Krivobokova

Gutachter:Prof. Dr. Holger Strulik

Gutachter:Prof. Dr. Sebastian Vollmer

Zum Verlinken/Zitieren: http://dx.doi.org/10.53846/goediss-10261

Dateien

Name:Thesis_print_version_wo_abstract.pdf

Size:3.69Mb

Format:PDF

ViewOpen

Lizenzbestimmungen:

Zusammenfassung

Englisch

This thesis highlights opportunities and challenges related to the use of data in empirical economics. The interpretation of data is the primary tool we as economists have at our disposal to calibrate our models and test the hypotheses we derive from them. In academic research, data serves as an intermediary between theory and reality, and thus the growing availability of data offers an abundance of opportunities to answer more and more research questions with more and more precision. However, the increasing availability and complexity of data also entails challenges quantitative economists regularly encounter. Each chapter of this thesis features a different aspect of empirical work in economic research, that can be linked to a specific challenge. Chapter one provides a general introduction to the challenges in modern quantitative economics. Chapter two deals with the curse of dimensionality in the context of economic forecasting and demonstrates how the downsides of more complex data can outweigh the upsides, when using conventional methods not designed to cope with such highly complex data structures. More specifically, factor-based forecasting models, effective in capturing macroeconomic uncertainty have been shown to produce diminished accuracy with increasing input data complexity, i.e. with many additional variables being added. To address this, we propose "blockPCA," an algorithm that identifies variable groups in highly complex data, extracts factors separately from each group, and significantly enhances nowcasting results under high complexity compared to conventional methods. Chapter three discusses challenges related to endogeneity and contributes to the literature on the linkage of increasing automation and increasing market concentration. In this context, we develop a theoretical model in which firms’ markups are endogenous to factor input choices based on technology levels, but are also affected by technology adoption of other domestic and foreign firms. In the empirical analysis, we find that market power, measured as the markup of price over marginal cost, declines on average with higher levels of automation. However, there is substantial heterogeneity, with firms in the highest revenue and markup quintile gaining market power. Moreover, we find that exposure to foreign automation increases competition in the local market. Chapter four addresses challenges related to incomplete data. Many missing entries often make data inapplicable to conventional econometric models. We demonstrate how these missing values can be imputed combining a variety of related data sources, while providing information on the uncertainty of these imputations. From the imputed data we derive time series and panel data on prices and production quantities of industrial robots over time and across countries. The novel price data fills an important gap in the available data landscape on industrial automation and enables directly linking the cost of automation frequently featured in economic models to empirical work. The fifth chapter addresses data biased caused by measurement error in health survey data. Specifically, we investigate the impact of interviewer effects on survey-based physical measures, focusing on blood pressure as a case study. Analyzing three large nationally-representative health surveys in the Global South, the research employs a linear mixed model to quantify the contribution of interviewer effects to the variance of blood pressure measurements. While the overall influence of interviewers on hypertension prevalence at the national level is statistically significant but small, individual extreme interviewers could lead to measurement divergences as high as 12%, particularly affecting estimates at the sub-district level.

Keywords: Data; Complexity; Forecasting; Measurement error; Imputation; Endogeneity; Automation; Market Concentration; Markup; Blood pressure; Hypertension; PCA; Principal Component Analysis; Factor-based model; Nowcasting

Deutsch

In dieser Doktorarbeit werden Möglichkeiten und Herausforderungen im Zusammenhang mit der Verwendung von Daten in der empirischen Volkswirtschaftslehre aufgezeigt. Die Interpretation von Daten ist das wichtigste Instrument, das uns als Volkswirten zur Verfügung steht, um unsere Modelle zu kalibrieren und die daraus abgeleiteten Hypothesen zu testen. In der akademischen Forschung dienen Daten als Vermittler zwischen Theorie und Realität, und so bietet die zunehmende Verfügbarkeit von Daten eine Fülle von Möglichkeiten, immer mehr Forschungsfragen mit immer größerer Präzision zu beantworten. Die zunehmende Verfügbarkeit und Komplexität von Daten bringen jedoch auch Herausforderungen mit sich, denen sich quantitativ arbeitende Ökonomen regelmäßig stellen müssen. Jedes Kapitel dieser Arbeit befasst sich mit einem Aspekt der empirischen Arbeit in der Wirtschaftsforschung, der mit einer bestimmten Herausforderung in Verbindung gebracht werden kann. Kapitel eins gibt eine allgemeine Einführung in die Herausforderungen der modernen quantitativen Ökonomie. Kapitel zwei befasst sich mit dem Fluch der Dimensionalität im Zusammenhang mit Wirtschaftsprognosen und zeigt, wie die Nachteile komplexerer Daten die Vorteile überwiegen können, wenn herkömmliche Methoden verwendet werden, die nicht für die Bewältigung solch hochkomplexer Datenstrukturen ausgelegt sind. Konkret hat sich gezeigt, dass faktorbasierte Prognosemodelle, die makroökonomische Unsicherheit wirksam erfassen, mit zunehmender Komplexität der Eingabedaten, d. h. mit der Hinzufügung vieler zusätzlicher Variablen, an Genauigkeit verlieren. Um dieses Problem anzugehen, schlagen wir "blockPCA" vor, einen Algorithmus, der Variablengruppen in hochkomplexen Daten identifiziert, Faktoren separat aus jeder Gruppe extrahiert und die Nowcasting-Ergebnisse bei hoher Komplexität im Vergleich zu herkömmlichen Methoden erheblich verbessert. Kapitel drei erörtert Herausforderungen im Zusammenhang mit Endogenität und leistet einen Beitrag zur Literatur über den Zusammenhang zwischen zunehmender Automatisierung und zunehmender Marktkonzentration. In diesem Zusammenhang entwickeln wir ein theoretisches Modell, in dem die Margen der Unternehmen endogen von der Wahl des durch Technologielevel determinierten Faktoreinsatzes abhängen, aber auch von der Technologieadaption anderer in- und ausländischer Unternehmen beeinflusst werden. In der empirischen Analyse stellen wir fest, dass die Marktmacht, gemessen als Marge, die sich aus Preisen und Grenzkosten ergibt, mit einem höheren Automatisierungsgrad im Durchschnitt abnimmt. Es besteht jedoch eine erhebliche Heterogenität, wobei die Unternehmen im Quintil mit den höchsten Einnahmen und Gewinnspannen an Marktmacht gewinnen. Darüber hinaus stellen wir fest, dass die Exposition gegenüber ausländischer Automatisierung den Wettbewerb auf dem lokalen Markt erhöht. Kapitel vier befasst sich mit Herausforderungen im Zusammenhang mit unvollständigen Daten. Viele fehlende Einträge machen die Daten für konventionelle, ökonometrische Modelle oft unbrauchbar. Wir zeigen, wie diese fehlenden Werte durch die Kombination einer Vielzahl verwandter Datenquellen ersetzt werden können, und geben gleichzeitig Auskunft über die Unsicherheit dieser Imputationen. Aus den imputierten Daten leiten wir Zeitreihen und Paneldaten zu Preisen und Produktionsmengen von Industrierobotern im Zeitverlauf und über Länder hinweg ab. Die neuartigen Preisdaten schließen eine wichtige Lücke in der verfügbaren Datenlandschaft zur industriellen Automatisierung und ermöglichen es, die Kosten der Automatisierung, die häufig in Modellen berücksichtigt werden, direkt mit der empirischen Analyse zu verknüpfen. Das fünfte Kapitel befasst sich mit Datenverzerrungen aufgrund von Messfehlern in Gesundheitserhebungsdaten. Konkret untersuchen wir die Auswirkungen von Interviewereffekten auf umfragebasierte körperliche Messungen, wobei wir uns auf den Blutdruck als Fallstudie konzentrieren. Bei der Analyse von drei großen, landesweit repräsentativen Gesundheitserhebungen im globalen Süden wird ein lineares gemischtes Modell verwendet, um den Beitrag von Interviewereffekten zur Varianz der Blutdruckmessungen zu quantifizieren. Während der Gesamteinfluss der Interviewer auf die Bluthochdruckprävalenz auf nationaler Ebene statistisch signifikant, aber gering ist, könnten einzelne extreme Interviewer zu Messabweichungen von bis zu 12 % führen, die insbesondere die Schätzungen auf der Ebene der Unterbezirke beeinflussen.

Statistik