Schmidt mit Dete

De-anonymisierung eines anonymisierten Datensatzes

| 3 Kommentare

Über Fred Stutzman bin ich auf ein Beispiel aufmerksam geworden, das die Probleme der Freigabe von anonymisierten Datensätzen aus Netzwerkplattformen verdeutlicht – und damit auch Fragen um die Forschungsethik für das Social Web aufwirft1:

Vor nicht ganz einem Monat hat das Berkman Center for Internet & Society einen Datensatz freigegeben, der Informationen aus Facebook-Profilen enthält. Genauer:

The dataset comprises machine-readable files of virtually all the information posted on approximately 1,700 FB profiles by an entire cohort of students at an anonymous, northeastern American university. Profiles were sampled at one-year intervals, beginning in 2006. This first wave covers first-year profiles, and three additional waves of data will be added over time, one for each year of the cohort’s college career.

Nun ist es Michael Zimmer ohne großen Aufwand und sogar ohne Einblick in den Datensatz selbst gelungen, die „anonymous, northeastern American university“ zu identifizieren. In einem vorhergehenden Beitrag hatte er bereits geschildert, auf welche Weise man aus dem anonymisierten Datensatz (der keine direkten Hinweise auf die einzelnen Personen enthält, wie Namen, E-Mail-Adressen o.ä.) zumindest einzelne Personen identifzieren könnte, die einzigartige Merkmale aufweisen (der einzige iranische Studierende, der einzige Hauptfach-Slawist, etc.).

Ähnlich wie Michael Zimmer und Fred Stutzman sehe ich das Problem darin, dass hier Daten nicht in aggregierter Form veröffentlicht wurden (17% tun dies, 23% tun das), sondern individualisiert – ich kann aus dem Datensatz ablesen, welche Merkmale eine ganz spezifische Person hat, und wenn ich diese identifizieren kann, sind all diese Informationen nicht mehr anonym. Der Umstand, dass damit wissenschaftliche Forschung ermöglicht werden soll, ist zwar einerseits ehrenhaft, macht aber nicht ungeschehen, dass Privatsphäre-Erwartungen gebrochen wurden.

Genau um den letzten Punkt entspann sich eine Debatte in den Kommentaren, u.a. mit einem der verantwortlichen Forscher, in der das Argument vorgebracht wurde: Die Daten sind ja ohnehin öffentlich, also könnten sie auch von anderen nochmal veröffentlicht werden2. Michael Zimmer macht ganz klar, dass er dies für einen veritablen Fehlschluss hält:

All such notions are wrong: they ignore the contextual nature of privacy. Just making something known in one context – even a non-secret context – doesn’t mean “anything goes” in terms of the collection, storage, transmission, or use of that information. (…) Just because users post information on Facebook doesn’t mean they intend for it to be scraped, aggregated, coded, disected, and distributed. Creating a Facebook account and posting information on the social networking site is a decision made with the intent to engage in a social community, to connect with people, share ideas and thoughts, communicate, be human. Just because some of the profile information is publicly avaiable (either consciously by the user, or due to a failure to adjust the default privacy settings), doesn’t mean there are no expectations of privacy with the data. This is contextual integrity 101.

Ich teile diese Sicht; in meinen letzten Vorträgen habe ich immer die Metapher vom „holländischen Wohnzimmer“ (angedeutet hier) verwendet, um deutlich zu machen, dass es sich bei den persönlichen Öffentlichkeiten des Social Web (Blogs, Netzwerkplattformen, etc.) um zwar einsehbare Informationen handelt (so wie ein Wohnzimmer ohne Gardinen einsehbar ist), diese aber in der Regel nicht mit der Absicht publiziert werden, eine unbegrenzte Öffentlichkeit zu erreichen (deswegen empfangen Holländer ihre Freunde zum Bierchen ja auch nicht am Anstosskreis des vollbesetzten Fussballstadions3 ) – worunter Personalchefs, möglicherweise die Eltern und vermutlich auch akademische Sozialforscher fallen würden.

  1. Ein Komplex, den ich vor einiger Zeit schon mal aufgeworfen habe; die zugehörige Initiative stockt im Moment etwas; ich hoffe, ich kann zeitnah nochmal einen Anlauf zur Belebung der Diskussion unter socialwebethik.mixxt.de starten.
  2. Ganz ähnlich argumentierte übrigens ein anderes Mitglied der Forschergruppe, Prof. Christakis, vor einigen Monaten im Interview mit Spiegel Online.
  3. so langsam wird das Bild etwas schief.. ;-)

3 Kommentare

  1. … wie auch vorher unter uns schon angedeutet, finde ich das „holländische Wohnzimmer“ eine ausgesprochen feine Metapher um auszudrücken, dass SNS Profile, Blogs und andere Webseiten für eine Öffentlichkeit von Freunden und anderen dem Nutzer gewogenen Personenkreise bestimmt sind – das korrespondiert mit „Friends only!!“ im Netz, wie ich glaube.

  2. Sehr interessant. Ein Themenkomplex über den ich bereits länger nachdenke. Und zwar die De-Kontextualisierung von Daten durch Datenbanken. Das Ausmaß ist noch längst nicht erfasst. Man muss sich nur mal überlegen, was die relationale Datenbank für ein Paradigmenwechsel in der Ordungstechnik ist. Wo der Kontext der Speicherung vollkommen egal wird, und nur die Abfrage den Kontext herstellt. Das geht weit über wissenschaftliches Datenmaterial hinaus. Über alles, was über uns und von uns im Internet steht, haben wir längst diese Kontextkontrolle verloren.

    Das Beängstigenste dabei: Je weiter die Technik schreitet, desto mehr Kontexte werden möglich (z.B. Bildverknüpfungen durch Gesichtserkennung), an die wir heute nicht mal im Traum denken.

    Anonymisierung von Daten ist wahrscheinlich nur für einen kurzen Augenblick anhand des gerade technisch möglichen definierbar.

  3. Ein sehr spannendes Thema. Aber müssten wir nach deiner Argumentation nicht auf Suchmaschinen bzw. Crawler im weitesten Sinn verzichten?

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.