zurück zur Übersicht

Anonymisierung – Ein Seiltänzertraum

 

Nicht erst seit die Datenschutzgrundverordnung (DSGVO bzw. GDPR) am Horizont heraufdämmert, ist der Begriff „Anonymisierung“ ein Dauerbrenner.

Vermutlich hat jeder von uns eine Vorstellung von diesem Konzept, wobei diese Vorstellung nicht zwingend mit der anderer, der Gesetzeslage oder den Definitionen aus dem Datenbanken-Bereich übereinstimmt.

Schon das Bundesdatenschutzgesetz (BDSG) hat ganz eigene Definitionen. Anonymisierung zum Beispiel war juristisch betrachtet (nach dem „alten“ BDSG) folgendermaßen zu verstehen (§3 (6)):

(6) Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.

Das gilt explizit auch für die Personen, die mit diesen Daten arbeiten, also Administratoren oder Datenschutzbeauftragte. Grundsätzlich ist also klar, dass möglichst schnell möglichst alle Angaben, die eine Person eindeutig identifizierbar machen, gelöscht oder verfälscht werden müssen, um die Rechte der betroffenen Person zu wahren. Die Frage ist nur: Welche sind das (neben den offensichtlichen wie der Personalausweisnummer oder einer Kombination aus Geburtsdatum, Geschlecht und Postleitzahl)? Wie bleiben die Daten trotzdem nützlich? Und wie lässt sich der Grad der Anonymisierung messen?

Anonymisierungstricks mit Krankenhausdaten

Ein formelles Datenschutzmodell, das sich genau mit dieser Problematik der Messbarkeit beschäftigt, ist die sogenannte k-Anonymität. Das Konzept wurde im Jahr 2002 von Latanya Sweeney hauptsächlich für wissenschaftliche Veröffentlichungen und Studien ausgearbeitet. Seitdem wurde es stetig weiterentwickelt, angegriffen und wieder weiterentwickelt. Trotzdem ist es noch immer aktuell, um sich die Problematik und mögliche Lösungen ins Gedächtnis zu rufen.

k-Anonymität behandelt beispielhaft Tabellen aus Datenbanken, die personenbezogene Daten zum Inhalt haben. Meistens wird dieses Konzept anhand von anonym veröffentlichten Statistiken eines Krankenhauses über die im letzten Monat aufgetretenen Erkrankungen erklärt, wie z.B. in der folgenden Tabelle.

Geschlecht Postleitzahl Alter Krankheit
W 76130 24 Erkältung
W 76130 27 Erkältung
M 76131 27 Erkältung
M 76133 25 Erkältung
W 76133 31 Syphilis
M 76220 30 Bluthochdruck
W 76227 39 Krebs
M 76227 39 Erkältung

Auf den ersten Blick sieht mit den Daten alles in Ordnung aus. Es sind keine Namen enthalten und auch die Adressen sind soweit generalisiert, dass nur noch grob über die Postleitzahl auf den Wohnort der einzelnen Kranken geschlossen werden kann. So richtig anonym sind die Daten deshalb aber noch nicht, denn mit ein bisschen Hintergrundwissen lassen sich trotzdem noch sensible Informationen gewinnen.

Beispielsweise könnte ein Angreifer wissen, dass sein verhasster Nachbar 31 Jahre alt ist und im letzten Monat im Krankenhaus war. Er muss also in dieser Tabelle enthalten sein. Er hat dann schnell die Information gewonnen, dass sein Nachbar an Syphilis erkrankt ist, ein sensibler Fakt, den der Betroffene einem übelwollenden Menschen gegenüber vielleicht lieber für sich behalten hätte. Dasselbe gilt beispielsweise für die Postleitzahl 76220, die nur ein einziges Mal in der Tabelle vorkommt und den entsprechenden Datensatz eindeutig identifizierbar macht. Um diese Informationen aus der Tabelle zu extrahieren reicht also recht alltägliches, „ungefährliches“ Wissen aus:

  • Mein Nachbar war im Krankenhaus.
  • Mein Nachbar ist 31 Jahre alt.

Anonym ist nicht gleich anonym

Es muss also noch ein wenig mehr an diesem Datensatz getan werden, damit nicht mit verhältnismäßig wenig Aufwand viele Informationen extrahiert werden können. Es werden also weitere Felder entfernt oder verallgemeinert, wobei zu beachten ist, dass das Feld „Krankheit“ in unserem Fall wichtig für die Auswertung ist und deshalb nicht angetastet werden darf.

Geschlecht Postleitzahl Alter Krankheit
* 76* < 30 Erkältung
* 76* < 30 Erkältung
* 76* < 30 Erkältung
* 76* < 30 Erkältung
* 76* >= 30 Syphilis
* 76* >= 30 Bluthochdruck
* 76* >= 30 Krebs
* 76* >= 30 Erkältung

Der Blick auf diese Tabelle zeigt den Informationsverlust und gleichzeitig den Gewinn an Anonymität. Die Eckdaten der Personen sind in allgemein gehaltene Gruppen zusammengefasst. Die ersten vier Einträge sind nicht mehr voneinander zu unterscheiden, ebenso wie die letzten vier. Der übelwollende Nachbar kann nun nicht mehr erkennen, ob sein Nachbar Syphilis, Bluthochdruck, Krebs oder doch nur eine Erkältung hat. Er weiß nur, dass er in der Gruppe enthalten sein muss, die über 30 Jahre alt ist. Ist ihm nur die Postleitzahl bekannt, ist die Gruppe sogar noch größer. Diese Tabelle ist dem Schema der k-Anonymität folgend 4-anonym, da in der kleinsten vorhandenen Gruppe vier Datensätze enthalten sind.

k-Anonymität und ihre Schwächen

Allerdings ist auch dieses Konstrukt noch nicht perfekt. Um das zu erkennen, lohnt es sich, die erste Gruppe genauer anzusehen. Ist der Erkrankte 27 Jahre alt, könnte sich der neugierige Angreifer sicher sein, dass er an einer Erkältung erkrankt ist. Der Begriff, der auf diesen Angriff folgt, ist l-Diversität. Dabei würde das Krankenhaus sicherstellen, dass es mindestens l unterschiedliche Krankheiten innerhalb jeder Gruppe gibt.

Aber auch das reicht noch nicht. Werden die Tabellen in regelmäßigen Abständen veröffentlicht, lassen sich die Daten miteinander vergleichen und darüber Rückschlüsse auf die Personen ziehen. Das gilt insbesondere dann, wenn sich aufgrund des Datensatzes die Gruppierung verändert und andere Felder anonymisiert werden. Oder wenn neuere Datensätze einfach hinten an die Tabelle angefügt werden, ohne die Zeilen durchzumischen. Außerdem kommen Statistiken hinzu, die bestimmten Bevölkerungsgruppen eine höhere Wahrscheinlichkeit für bestimmte Krankheiten zuschreiben. (z.B. Risiko für Bluthochdruck steigt mit dem Alter).

Zwar gelten für ein Security Operations Center (SOC) oder ein SIEM andere Maßstäbe als für wissenschaftliche Veröffentlichungen und Marktstudien. Hier müssen die Daten nicht nur Statistiken füttern, sondern im Ernstfall tatsächlich Rückschlüsse auf einen Rechnernamen, eine IP oder auch einen Benutzer erlauben. Trotzdem ist es wichtig sich immer wieder ins Gedächtnis zu rufen, dass Anonymisierung nicht bedeutet, aus einem Datensatz einfach nur den Namen des Betroffenen zu löschen.

Context is King.

 


Bild: © GettyImages/PPAMPicture/182061537, © GettyImages/vernonwiley/517340991

Schreibe einen Kommentar

Wir nehmen Datenschutz ernst! Deshalb informieren wir Sie, was mit Ihren Daten geschieht:

  • Daten aus Formularen und Webseiten-Tracking können von uns zur Analyse gespeichert werden
  • Die Daten können zur Optimierung der Webseite ausgewertet werden. Das ermöglicht es uns, besser zu verstehen, wo das Interesse unserer Besucher liegt. Wir benutzen primär Hubspot für dieses Tracking (mehr dazu finden Sie in der Erklärung auf unserer Datenschutzseite, siehe unten)
  • Wir geben Ihre Daten nicht an Dritte weiter. Im Rahmen von Veranstaltungen, an denen Sie teilnehmen möchten, kann es nötig sein, dass Ihre Daten an Vertragspartner übermittelt werden.
  • Sie haben jederzeit ein Recht auf die Herausgabe, Berichtigung oder Löschung persönlicher Daten.
  • Sie können Ihre Einwilligung, mit uns in Kontakt zu treten, jederzeit mit sofortiger Wirkung widerrufen.

Weitere Details dazu, was wir mit den Daten tun und nicht tun finden Sie auf unserer Datenschutzseite, oder schreiben Sie mich bei Fragen direkt an!

Felix Möckel
Data Protection Officer