Stratifizierung des Re-Identifikationsrisikos medizinischer Daten
Stratification of the re-identification risk of medical data
by Sebastian Behre
Date of Examination:2025-03-05
Date of issue:2025-02-17
Advisor:Prof. Dr. med. Tibor Kesztyüs
Referee:Prof. Dr. rer. medic. Tim Mathes
Referee:Prof. Dr. Margarete Schön
Files in this item
Name:Dissertation_Behre.pdf
Size:1.42Mb
Format:PDF
This file will be freely accessible after 2025-04-02.
Abstract
English
As a result of advancing digitalization and technical development, an ever-increasing amount of medical data is being generated in everyday clinical practice and in the healthcare sector in general (Rüping et al. 2019). A wide range of potential is seen in these data sets and the possibility of generating knowledge gains for further research and care through systematic analysis and processing raises great expectations (Summa et al. 2020). However, despite all the euphoria and enthusiasm about the potential benefits that could be generated from medical data, the data protection risks associated with the orchestrated processing and provision of data must not be ignored. In particular, the evaluation of the re-identification risk, i.e. the possibility of reconstructing a personal reference to an anonymized data set, must be regarded as critical. There is currently no known standardized method for comprehensively quantifying this risk for medical data. The aim of this work is to develop a heuristic approach to stratify the re-identification risk of medical datasets. For this purpose, an integrative approach is pursued that does not consider the risk of re-identification exclusively monocausally, but models it as a complex system of different components. First, a systematic literature analysis is used to identify and describe factors that play a key role in the context of re-identification attacks and corresponding risk assessments. This is followed by a multi-step modelling process; the factors identified are first abstracted and combined into generalized factor groups, which are subsequently referred to as perspectives. In this context, criteria are presented for each factor that enable the characteristics of the respective component to be classified. Entity-relationship models are then used to illustrate the interactions that exist between the individual factors. In the final step, the interactions identified are used to construct a so-called influence matrix, which allows a quantitative description of the direction and characteristics of the relationships existing between the individual factors. Based on this matrix, various indices are presented that can be used to classify and stratify the re-identification risk of a data collection to be assessed and as a basis for targeted security measures. Finally, two thought experiments are described, the aim of which is to assess the quality of the heuristics. Using published, verified re-identification attacks, the plausibility and selectivity of the risk stratification is confirmed; however, in this context, a somewhat lower assessment of the risk is shown than it probably actually was. Further research efforts are therefore necessary.
Keywords: Re-Identification; Medical data; Risk assessment
German
Bedingt durch die fortschreitende Digitalisierung und technische Weiterentwicklung fallen im Rahmen des klinischen Alltags bzw. im Gesundheitswesen allgemein medizinische Daten in immer größerem Umfang an (Rüping et al. 2019). In diesen Datenbeständen werden mannigfaltige Potenziale gesehen und die Möglichkeit, mittels einer systematischen Analyse und Aufbereitung Erkenntnisgewinne für die weitere Forschung und Versorgung generieren zu können, erweckt große Erwartungen (Summa et al. 2020). Bei aller Euphorie und Begeisterung über den möglichen Nutzen, der aus medizinischen Daten generiert werden könnte, darf jedoch keinesfalls unbeachtet bleiben, dass mit der orchestrierten Verarbeitung und Bereitstellung von Daten Datenschutzrisiken verbunden sind. Insbesondere die Evaluation des Re-Identifikationsrisikos, also der Möglichkeit der Rekonstruktion eines Personenbezugs eines anonymisierten Datensatzes, ist als kritisch anzusehen. Derzeit ist keine standardisierte Methode zur umfassenden Quantifizierung dieses Risikos für medizinische Daten bekannt. Ziel dieser Arbeit ist die Entwicklung eines heuristischen Ansatzes zur Stratifizierung des Re-Identifikationsrisikos medizinischer Datensätze. Dazu wird ein integrativer Ansatz verfolgt, der das Risiko der Re-Identifikation nicht ausschließlich monokausal betrachtet, sondern als komplexes System unterschiedlicher Komponenten modelliert. Eingangs werden dazu mit Hilfe einer systematischen Literaturanalyse Faktoren ermittelt und beschrieben, die im Kontext von Re-Identifikationsangriffen und entsprechenden Risikoabschätzungen eine tragende Rolle spielen. Im Anschluss erfolgt eine mehrschrittige Modellbildung; die festgestellten Faktoren werden dabei zunächst abstrahiert und zu generalisierten Faktorengruppen zusammengefasst, die im weiteren Verlauf als Perspektiven bezeichnet werden. Für jeden Faktor werden in diesem Zusammenhang Kriterien vorgestellt, welche eine Einordnung der Ausprägung der jeweiligen Komponente ermöglichen. Anhand von Entity-Relationship-Modellen werden dann die Wechselwirkungen veranschaulicht, welche zwischen den einzelnen Faktoren existieren. Im letzten Schritt werden die ermittelten Wechselwirkungen zur Konstruktion einer sog. Einflussmatrix genutzt, die eine quantitative Beschreibung der Richtung und Ausprägung der zwischen den einzelnen Faktoren bestehenden Beziehungen erlaubt. Basierend auf dieser Matrix werden verschiedene Indizes vorgestellt, die zur Einordnung und Stratifizierung des Re-Identifikationsrisikos einer zu begutachtenden Datensammlung und als Grundlage für zielgerichtete Sicherheits-maßnahmen genutzt werden können. Zum Abschluss werden zwei Gedankenexperimente beschrieben, deren Ziel in der Beurteilung der Güte der Heuristik besteht. Anhand publizierter, verifizierter Re-Identifikationsangriffe wird dabei die Plausibilität und Trennschärfe der Risiko-stratifizierung bestätigt; es zeigt sich in diesem Zusammenhang allerdings eine eher etwas geringere Einschätzung des Risikos, als es vermutlich tatsächlich war. Weitere Forschungsanstrengungen sind daher notwendig.
Schlagwörter: Re-Identifikation; Medizinische Daten; Risikoabschätzung