„Alle, die mit medizinischen Daten umgehen, müssen sich des Reidentifikationspotenzials bewusst sein.“
Prof. Dr. Klaus Pommerening und Dr. Fabian Prasser im Interview zur Anonymisierung in der medizinischen Forschung und zum TMF-Workshop „ANONTrain“
07.07.2016. In der medizinischen Forschung werden
unterschiedliche Maßnahmen ergriffen, um Patienten- oder Probandendaten vor
Missbrauch zu schützen. Eine dieser Maßnahmen ist die Anonymisierung, bei der
Datensätze von personenbezogenen Angaben bereinigt werden. Dabei besteht eine
wesentliche Herausforderung darin, eine möglichst hohe Brauchbarkeit der Daten bei
möglichst geringem Reidentifikationsrisiko zu erhalten. Der TMF-Workshop
„ANONTrain“ will die Kompetenz von Forschern auf dem Gebiet der Anonymisierung
stärken. Prof. Dr. Klaus Pommerening (Universitätsmedizin Mainz) und Dr. Fabian
Prasser (Klinikum rechts der Isar der TU München) erläutern im Interview,
welche Herausforderungen die Anonymisierung von medizinischen Daten heute mit
sich bringt und wie der Workshop für eine angemessene Anonymisierung
sensibilisieren will.
Herr Pommerening, in welchen Anwendungsfällen ist eine Anonymisierung von
medizinischen Forschungsdaten relevant? Wann ist eine Anonymisierung einer
Pseudonymisierung vorzuziehen?
Pommerening:
Zunächst sollte man grundsätzlich zwischen Datenspeicherung und Auswertung
unterscheiden. Ein Pseudonym erlaubt es, Daten nachzuerheben, Daten aus
verschiedenen Quellen zusammenzuführen und auch den Kontakt zum Betroffenen bei
Bedarf wieder herzustellen. Alles dies würde verhindert, wenn die Datensätze
anonymisiert sind. Daher sollten Daten, die für medizinische Forschungszwecke
gespeichert werden, durch Pseudonyme geschützt, aber nicht anonymisiert werden.
Werden die Daten dann Dritten zur Verfügung gestellt, also
beispielsweise für eine Auswertung herausgegeben, sollte Anonymität so gut wie
möglich sichergestellt werden. Dabei ist eine perfekte Anonymisierung oft mit
dem Auswertungszweck nicht vereinbar; daher sind Werkzeuge nötig, die es
erlauben, den Grad und die Art der Anonymisierung zu steuern. Zur Publikation
vorgesehene Auswertungsergebnisse müssen natürlich absolut anonym sein.
Was sind die Herausforderungen einer Anonymisierung von medizinischen Daten
heute? Was benötigt man dazu?
Pommerening: Das
Hauptproblem ist zum einen der große Umfang heutiger Forschungsdatensätze. Um
medizinische Daten sinnvoll auswerten zu können, braucht man in der Regel viele
Detailangaben. Zum anderen gibt es immer mehr potenziell überlappende Daten aus
anderen Quellen. Hat ein Patient z. B. drei aufeinander folgende
Blutdruckwerte mit Datum ins Internet gestellt, könnten diese ihn schon
eindeutig charakterisieren −
wie ein Fingerabdruck.
Auch wenn genomische Daten für eine individuelle Therapie
verwendet werden – wie es heute unter dem Stichwort „personalisierte Medizin“
zunehmend geschieht – ist eine Eindeutigkeit schnell erreicht. Man braucht also
erstens Werkzeuge, also Software, die es ermöglichen, einen Datensatz so gut
wie möglich von potenziell identifizierenden Merkmalen zu bereinigen.
Allerdings bleibt in den meistens Fällen ein Rest- Identifikationsrisiko, wenn
die Daten noch für eine Auswertung brauchbar sein sollen. Daher müssen zweitens
trotz einer möglichst guten Anonymisierung für die Daten Zugriffs- und
Nutzungsbeschränkungen vorgesehen werden, um Restrisiken auszuschließen.
Sogenannte Public-Use-Dateien mit medizinischen Daten verbieten sich in der
Regel von selbst.
Herr Prasser, Sie haben das Anonymisierungstool „ARX“ entwickelt, dessen
Handhabung im TMF-Trainingsworkshop geschult wird. Welche Funktionen und
Vorteile bietet es?
Prasser: Daten
werden typischerweise durch Veränderung von Merkmalsausprägungen anonymisiert.
Die wesentliche Herausforderung besteht dabei darin, eine möglichst hohe
Datenqualität (beispielsweise bezogen auf eine geplante Auswertung) bei
gleichzeitig möglichst geringem Reidentifikationsrisiko zu erreichen. Beide
Ziele stehen leider in einem inhärenten Widerspruch zueinander. Das
Anonymisierungstool ARX zeichnet sich insbesondere dadurch aus, dass es eine
Vielzahl von Modellen und Methoden für die wesentlichen Aspekte des
Anonymisierungsprozesses unterstützt: für die Veränderung von Daten, für die
Analyse der Datenqualität sowie für die Bestimmung von Risiken und
Schutzniveaus. Diese breite Methodenunterstützung ist zwingend notwendig, um
eine optimale Abwägung zu ermöglichen.
Darüber hinaus ist ARX in der Lage, sehr große Datenmengen
effizient zu verarbeiten, und es bietet neben einer Softwarebibliothek eine
umfangreiche graphische Benutzeroberfläche, die die bereitgestellten Methoden
für Endanwender, beispielsweise Forscher, verhältnismäßig leicht zugänglich
macht. Insbesondere die letztgenannte Eigenschaft macht die Software für einen
praktischen Einsatz zu Schulungszwecken interessant.
Funktioniert die Anonymisierung dadurch „auf Knopfdruck“? Welche Aspekte
muss man dabei bedenken?
Prasser: Da
Datenqualität und Reidentifikationsrisiken meist kontextspezifisch abgewogen
werden müssen, kann eine Anonymisierung in der Regel nicht auf Knopfdruck
erfolgen. Vielmehr ist es notwendig, den gesamten Prozess an einen vorliegenden
Anwendungsfall anzupassen, d. h. an den zu anonymisierenden Datensatz und
den Datenempfänger. Das schließt, wie bereits erwähnt, neben dem Verändern von
Daten ein breites Spektrum weiterer Maßnahmen mit ein. So kann beispielsweise
die Menge möglicher Angriffe kontrolliert werden, indem eine Analyse von
anonymisierten Daten nur innerhalb der geschützten Räume des
Datenverantwortlichen erlaubt wird. Hier ist eine wechselseitige Abstimmung
zwischen solchen Sekundärmaßnahmen und der eigentlichen Datenbereinigung
notwendig.
Idealerweise wird die Expertise in all diesen Bereichen an
einer entsprechenden Stelle gebündelt, beispielsweise den Datenintegrationszentren,
die im Rahmen des BMBF-Förderkonzeptes Medizininformatik aufgebaut werden
sollen. Grundsätzlich werden sich starke Anonymisierungsverfahren
voraussichtlich eher im Bereich „Big Data“ durchsetzen, wo es darum geht,
Muster aus großen Datenmengen zu extrahieren und neue Hypothesen zu generieren.
In Bereichen, wo feingranulare Datensätze mit strengen Anforderungen an die
statistische Validität benötigt werden, spielen Sekundärmaßnahmen eine größere
Rolle.
Die Resonanz auf den ANONTrain-Workshop ist sehr groß. Wie läuft er ab? Was
lernen die Teilnehmer?
Prasser: Neben
einer Einführung in das Thema und seine rechtlichen Rahmenbedingungen lernen
die Teilnehmer natürlich den Umgang mit der Anonymisierungssoftware ARX. Das
ist aber mehr ein Mittel zum Zweck. Der wesentliche Lerninhalt besteht darin,
dass die Teilnehmer einen gründlichen Einblick in die Vielzahl verfügbarer
Methoden erhalten und ihre Vor- und Nachteile selbst herausarbeiten. Dies
umfasst beispielsweise verschiedene Möglichkeiten, mit denen das
Hintergrundwissen eines Angreifers bei der Bestimmung und Reduktion von Risiken
berücksichtigt werden kann, und welche Restrisiken dabei verbleiben.
Darüber hinaus werden in den praktischen Übungen wesentliche
Kompromisse vermittelt, die bei der Datenanonymisierung eingegangen werden
müssen. Zum Beispiel arbeiten die Teilnehmer heraus, wie sich die
Dimensionalität und das Volumen eines Datensatzes auf die Qualität der
Ausgabedaten auswirken. Diese Inhalte stellen einen Einstieg in die Problematik
dar.
Was erhoffen Sie sich von einer so intensiven Beschäftigung mit dem Thema
Anonymisierung für die Community?
Pommerening:
Zunächst ist wichtig, dass alle, die mit medizinischen Daten umgehen, sich
deren Reidentifikationsspotenzial bewusst sind. Hier ist schon der testweise
Einsatz eines Anonymisierungswerkzeugs ein Augenöffner – man sieht den Konflikt
zwischen Anonymität und Brauchbarkeit der Daten sehr deutlich und lernt die
Möglichkeiten sowie die Grenzen entsprechender Verfahren kennen. Dann ist es
natürlich wichtig, im konkreten Fall das Werkzeug sachgemäß anzuwenden. Die
Komplexität des Problems bringt es mit sich, dass das keine triviale
Anforderung ist, sondern einiges an Know-how erfordert. Dieses kann nur durch
gründliche Schulung erworben werden.
Es wäre sehr verdienstvoll, wenn die TMF hierzu regelmäßige
Kurse anbieten oder vermitteln könnte. Darüber hinaus wäre die Erarbeitung
eines Standardvorgehens zur Anonymisierung − im Sinne eines Best-Practice-Leitfadens − für Anwender überaus hilfreich.
Das Interview führte Inger Neick.
Prof. Dr. Klaus Pommerening
ist habilitierter Mathematiker und Professor im Ruhestand. Er leitete die
Abteilung Medizinische Informatik an der Universitätsmedizin Mainz. Einer
seiner Schwerpunkte ist Datenschutz und Datensicherheit. Er ist langjähriger
Sprecher der TMF-Arbeitsgruppe Datenschutz und Koautor des TMF-Leitfadens zum
Datenschutz in medizinischen Forschungsprojekten.
[Bild: prasser.jpg]
Dr. Fabian Prasser ist
promovierter Diplom-Informatiker. Seine Forschungsarbeit am Institut für
Medizinische Statistik und Epidemiologie des Klinikums rechts der Isar der TU
München konzentriert sich auf Methoden zum Schutz medizinischer Daten. Er ist
einer der Hauptentwickler des Anonymisierungswerkzeugs ARX.
Weiterführende Informationen
- Programmflyer zum Workshop „ANONTrain: Praktische Anwendung von Anonymisierungswerkzeugen“ [PDF | 135 KB]
- Projektwebsitedes ANONTrain-Schulungskonzepts