De-anonymisierung eines anonymisierten Datensatzes

On: 13. Oktober 2008

Über Fred Stutzman bin ich auf ein Beispiel aufmerksam geworden, das die Probleme der Freigabe von anonymisierten Datensätzen aus Netzwerkplattformen verdeutlicht – und damit auch Fragen um die Forschungsethik für das Social Web aufwirft ((Ein Komplex, den ich vor einiger Zeit schon mal aufgeworfen habe; die zugehörige Initiative stockt im Moment etwas; ich hoffe, ich kann zeitnah nochmal einen Anlauf zur Belebung der Diskussion unter socialwebethik.mixxt.de starten.)):

Vor nicht ganz einem Monat hat das Berkman Center for Internet & Society einen Datensatz freigegeben, der Informationen aus Facebook-Profilen enthält. Genauer:

The dataset comprises machine-readable files of virtually all the information posted on approximately 1,700 FB profiles by an entire cohort of students at an anonymous, northeastern American university. Profiles were sampled at one-year intervals, beginning in 2006. This first wave covers first-year profiles, and three additional waves of data will be added over time, one for each year of the cohort’s college career.

Nun ist es Michael Zimmer ohne großen Aufwand und sogar ohne Einblick in den Datensatz selbst gelungen, die „anonymous, northeastern American university“ zu identifizieren. In einem vorhergehenden Beitrag hatte er bereits geschildert, auf welche Weise man aus dem anonymisierten Datensatz (der keine direkten Hinweise auf die einzelnen Personen enthält, wie Namen, E-Mail-Adressen o.ä.) zumindest einzelne Personen identifzieren könnte, die einzigartige Merkmale aufweisen (der einzige iranische Studierende, der einzige Hauptfach-Slawist, etc.).

Ähnlich wie Michael Zimmer und Fred Stutzman sehe ich das Problem darin, dass hier Daten nicht in aggregierter Form veröffentlicht wurden (17% tun dies, 23% tun das), sondern individualisiert – ich kann aus dem Datensatz ablesen, welche Merkmale eine ganz spezifische Person hat, und wenn ich diese identifizieren kann, sind all diese Informationen nicht mehr anonym. Der Umstand, dass damit wissenschaftliche Forschung ermöglicht werden soll, ist zwar einerseits ehrenhaft, macht aber nicht ungeschehen, dass Privatsphäre-Erwartungen gebrochen wurden.

Genau um den letzten Punkt entspann sich eine Debatte in den Kommentaren, u.a. mit einem der verantwortlichen Forscher, in der das Argument vorgebracht wurde: Die Daten sind ja ohnehin öffentlich, also könnten sie auch von anderen nochmal veröffentlicht werden ((Ganz ähnlich argumentierte übrigens ein anderes Mitglied der Forschergruppe, Prof. Christakis, vor einigen Monaten im Interview mit Spiegel Online.)). Michael Zimmer macht ganz klar, dass er dies für einen veritablen Fehlschluss hält:

All such notions are wrong: they ignore the contextual nature of privacy. Just making something known in one context – even a non-secret context – doesn’t mean “anything goes” in terms of the collection, storage, transmission, or use of that information. (…) Just because users post information on Facebook doesn’t mean they intend for it to be scraped, aggregated, coded, disected, and distributed. Creating a Facebook account and posting information on the social networking site is a decision made with the intent to engage in a social community, to connect with people, share ideas and thoughts, communicate, be human. Just because some of the profile information is publicly avaiable (either consciously by the user, or due to a failure to adjust the default privacy settings), doesn’t mean there are no expectations of privacy with the data. This is contextual integrity 101.

Ich teile diese Sicht; in meinen letzten Vorträgen habe ich immer die Metapher vom „holländischen Wohnzimmer“ (angedeutet hier) verwendet, um deutlich zu machen, dass es sich bei den persönlichen Öffentlichkeiten des Social Web (Blogs, Netzwerkplattformen, etc.) um zwar einsehbare Informationen handelt (so wie ein Wohnzimmer ohne Gardinen einsehbar ist), diese aber in der Regel nicht mit der Absicht publiziert werden, eine unbegrenzte Öffentlichkeit zu erreichen (deswegen empfangen Holländer ihre Freunde zum Bierchen ja auch nicht am Anstosskreis des vollbesetzten Fussballstadions ((so langsam wird das Bild etwas schief.. ;-) )) ) – worunter Personalchefs, möglicherweise die Eltern und vermutlich auch akademische Sozialforscher fallen würden.

Previous Post: Aufsatz zum „Social Semantic Web“ erschienen

Next Post: Ein Jahr Schmidt mit Dete

3 Kommentare

… wie auch vorher unter uns schon angedeutet, finde ich das „holländische Wohnzimmer“ eine ausgesprochen feine Metapher um auszudrücken, dass SNS Profile, Blogs und andere Webseiten für eine Öffentlichkeit von Freunden und anderen dem Nutzer gewogenen Personenkreise bestimmt sind – das korrespondiert mit „Friends only!!“ im Netz, wie ich glaube.

Tina

13. Oktober 2008

Permalink
Sehr interessant. Ein Themenkomplex über den ich bereits länger nachdenke. Und zwar die De-Kontextualisierung von Daten durch Datenbanken. Das Ausmaß ist noch längst nicht erfasst. Man muss sich nur mal überlegen, was die relationale Datenbank für ein Paradigmenwechsel in der Ordungstechnik ist. Wo der Kontext der Speicherung vollkommen egal wird, und nur die Abfrage den Kontext herstellt. Das geht weit über wissenschaftliches Datenmaterial hinaus. Über alles, was über uns und von uns im Internet steht, haben wir längst diese Kontextkontrolle verloren.

Das Beängstigenste dabei: Je weiter die Technik schreitet, desto mehr Kontexte werden möglich (z.B. Bildverknüpfungen durch Gesichtserkennung), an die wir heute nicht mal im Traum denken.

Anonymisierung von Daten ist wahrscheinlich nur für einen kurzen Augenblick anhand des gerade technisch möglichen definierbar.

mspro

14. Oktober 2008

Permalink
Ein sehr spannendes Thema. Aber müssten wir nach deiner Argumentation nicht auf Suchmaschinen bzw. Crawler im weitesten Sinn verzichten?

Michael

15. Oktober 2008

Permalink

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.

Dies ist die persönliche Homepage von Jan-Hinrik Schmidt. Sie finden hier mein Weblog sowie Informationen zu meinen akademischen Aktivitäten. Aktuelle Updates landen meist auch auf Mastodon. Twitter nutze ich nicht mehr aktiv, aber es gibt ein Archiv meiner Tweets.

Ich arbeite als Senior Researcher für digitale interaktive Medien und politische Kommunikation am Leibniz-Institut für Medienforschung | Hans-Bredow-Institut (HBI) in Hamburg. Seit 2021 leite ich die Aktivitäten des HBI als „Teilinstitut Hamburg“ im Forschungsinstitut Gesellschaftlicher Zusammenhalt.

Ich unterstütze die „Charta Öffentliche Kommunikationswissenschaft“.

Interview zu „Was Deutschland verbindet: Bilanz einer Dialogaktion“ – hr INFO Das Thema (ab Min. 14.00), 1.6.2026

Interview zu „Menschen, Meinungen, Miteinander – Was Deutschland verbindet“ – hr INFO Der Tag (ab Min. 19.30), 1.6.2026

Interview zu „Was Deutschland verbindet“ – hr Fernsehen „Die Ratgeber“ (ab Min. 19.00), 29.5.2026

„Kommunikationsforscher Schmidt: ‚Dialogische Fähigkeiten einüben‘“ – NDR Info, 27.5.2026

„Brauchen wir mehr offene Gesprächsrunden?“ – rbb radio 3, 12.05.2026

„Medienforscher: Wir sind noch in der Lage miteinander zu sprechen“ – ndr info, 11.05.2026

„Zwölfjähriger Goalkeeper Piet: Training, Paraden und Millionen Klicks“ – NDR Info, 26.03.2026

„KI-generierte Holocaust-Verfälschungen fluten Social Media“ – Hamburg-Journal, 20.01.2026

„Meinungsfreiheit – ist sie wirklich bedroht?“ – Sendung in der Reihe „mitreden!“ der ARD, 24.10.2025

„Der Beitrag öffentlich-rechtlicher Medien zum gesellschaftlichen Zusammenhalt“ – Bredowcast, 18.9.2025

„Rolle des öffentlich-rechtlichen Rundfunks – Zusammenhalt der Gesellschaft“ – Deutschlandradio Kultur, 17.9.2025

„TikTok, X und Co – Retter oder Killer der Demokratie?“ – Quarks Daily Special, 6.7.2024

„Woher kommt eigentlich das Internet?„, Aha! History – Zehn Minuten Geschichte, 14.10.2023

„Wie Medienereignisse Gemeinschaft stiften“, Deutschlandfunk Systemfragen, 04.05.2023

„Aprilscherze in Zeiten von Fake News, Deep Fake und gezielter Desinformation“, RBB Radio Eins, 01.04.2023

„Twitter-Nutzer stimmen über gesperrte Konten ab“, Deutsche Welle Nachrichten, 25.11.2022

„Elon Musks Twitterübernahme: Folgen für die Wissenschaft“, Bredowcast, 17.11.2022

„So können wir mit Fake News umgehen“
t3n-Podcast, 22.4.2022

„Wieso grassieren Fakenews im Netz?“
Tonspur Wissen, 24.3.2022

„Wie das Internet unsere Meinungsbildung und gesellschaftlichen Zusammenhalt prägt.“, Videocast für das Zentrum Gesellschaftliche Verantwortung der Evangelischen Kirchen in Hessen und Nassau, 18.2.2022

„Medien und Meinungsbildung“ – Forschergeist #80, 25.5.2020

Vollständige Publikationsliste

orcid.org/0000-0001-7567-1296

De Silva-Schmidt, Fenja / Novitskaya, Yana / Schmidt, Jan-Hinrik (2026): Können wir noch miteinander sprechen? Impulse aus der Forschung zu Dialogräumen. In: Zusammenhalt begreifen. Blog des FGZ, 1.6.2026. Online verfügbar: https://doi.org/10.58079/16hrw.

Schmidt, Jan-Hinrik / Braun, Milena (2026): Gesellschaftlicher Zusammenhalt. Teilhabeerfahrungen und Teilhabeerwartungen von Menschen mit Beeinträchtigung. Arbeitspapier der Aktion Mensch. Bonn: Aktion Mensch. Online verfügbar: https://delivery-aktion-mensch.stylelabs.cloud/api/public/content/aktion-mensch-studie-gesellschaftlicher-zusammenhalt.pdf.

Schmidt, Jan-Hinrik / Storll, Dieter (2026): Leistungen der öffentlich-rechtlichen Medien für den Zusammenhalt in Deutschland. Erwartungen und Wahrnehmungen der Bevölkerung aus der ARD/ZDF/Deutschlandradio-Zusammenhaltsstudie 2025. In: Media Perspektiven 13/2026. Online verfügbar: https://www.media-perspektiven.de/fileadmin/user_upload/media-perspektiven/pdf/2026/MP_13_2026_Leistungen_der_oeffentlich-rechtlichen_Medien_fuer_den_Zusammenhalt_in_Deutschland.pdf.

Schmidt, Jan-Hinrik, Lisa Merten, Felix Victor Münch (2026): Die „Datenbank Öffentlicher Sprecher:innen“ (DBÖS). v3. März 2026. Online verfügbar: https://doi.org/10.17605/OSF.IO/SK6T5.

Schmidt, Jan-Hinrik (2025): Die Bedeutung von Medienintermediären und die Frage ihrer Regulierung. In: Bundeszentrale für Politische Bildung (Hrsg.): Dossier Medienpolitik der Bundeszentrale für Politische Bildung. Online-Publikation: https://www.bpb.de/themen/medien-journalismus/medienpolitik/571959/die-bedeutung-von-medienintermediaeren-und-die-frage-ihrer-regulierung/

Schmidt, Jan-Hinrik (2025): Bildungsbezogene Leistungen des ZDF aus Sicht seines Publikums. In: ORF (Hrsg.): Für alle? Öffentlich-Rechtliche Medien in fragmentierten Gesellschaften. Public Value Studie 2025. Wien: ORF. S. 128-146. Online-Publikation: https://zukunft.orf.at/show_content.php?sid=147&pvi_id=2536

Schmidt, Jan-Hinrik (2025): Social Media as Innovation. In: Schulz-Schaeffer, Ingo / Windeler, Arnold / Blättel-Mink, Birgit (Hrsg.): Handbook of Innovation. Cham: Springer. DOI: 10.1007/978-3-031-25143-6_52-1.

Schmidt, Jan-Hinrik / Storll, Dieter / Hasebrink, Uwe (2025): Die Bildungsfunktion des ZDF aus der Sicht der Bevölkerung. Studie zum öffentlich-rechtlichen Bildungsauftrag. In: Media Perspektiven, 6/2025, S. 1-30. Online verfügbar.

Hasebrink, Uwe / Schmidt, Jan-Hinrik (2024): Was können Ergebnisse der Publikumsforschung über den Public Value öffentlich-rechtlicher Medien aussagen? In: UFITA, Jg. 88, Nr. 2, S. 223-252. DOI: 10.5771/2568-9185-2024-2-223.

Schmidt, Jan-Hinrik (2024): Soziale Medien und gesellschaftlicher Zusammenhalt. In: Zentralrat der Juden in Deutschland (Hrsg.): [Dis]Like. Soziale Medien zwischen Zusammenhalt und Polarisierung. Berlin/Leipzig: Hentrich & Hentrich. S. 43-60.

Schmidt, Jan-Hinrik / Merten, Lisa / Münch, Felix V. (2024): Die „Datenbank Öffentlicher Sprecher“ (DBÖS). v2 [Datensatz] Dezember 2024. https://doi.org/10.17605/OSF.IO/SK6T5.

Schmidt, Jan-Hinrik (2024): KI in den Sozialen Medien. In: Bundeszentrale für Politische Bildung (Hrsg.): Dossier „Wenn der Schein trügt – Deepfakes und die politische Realität“. https://www.bpb.de/lernen/bewegtbild-und-politische-bildung/556000/ki-in-den-sozialen-medien/

Schmidt, Jan-Hinrik (2024): Welchen Beitrag leisten deutsche öffentlich-rechtliche Medien für gesellschaftlichen Zusammenhalt? Ergebnisse einer Repräsentativbefragung In: ORF (Hrsg.): Fast Forward. Digitale Innovation öffentlich-rechlicher Medien in Europa. Wien: ORF. S. 138-151. https://zukunft.orf.at/show_content.php?sid=147&pvi_id=2465

Schmidt, Jan-Hinrik (2024): „Fake News“: Was ist das, warum verbreitet es sich, und was können wir tun? In: Padberg, Martina (Hrsg.): Reality Check. Wenn Dinge nicht sind, wie sie scheinen. Begleitband zur gleichnamigen Ausstellung im Kunstmuseum Ahlen. S. 177-181.

Schmidt, Jan-Hinrik (2024): Praktiken und Strukturen von Social Media aus kommunikationssoziologischer Perspektive. In: Zerres, Christoph (Hrsg.): Handbuch Social-Media-Marketing. Wiesbaden: Springer Fachmedien. S. 61-74. https://doi.org/10.1007/978-3-658-42282-0_3-1.

Schmidt, Jan-Hinrik / Immler, Hannah (2024): Regionale Medienangebote und ihr Beitrag zum gesellschaftlichen Zusammenhalt. In: Sackmann, Reinhold/Dirksmeier, Peter/Rees, Jonas/Vogel, Berthold (Hrsg.): Sozialer Zusammenhalt vor Ort. Analysen regionaler Mechanismen. Frankfurt am Main: Campus. S. 179-203.

Irene Broer, Louisa Pröschel, Jan-Hinrik Schmidt und Wiebke Schoon (2024): Partizipativer Wissenstransfer im Bereich der Medienforschung – Das Beispiel der „Denkwerkstatt“. In: Backhaus-Maul, Holger/Fücker, Sonja/Grimmig, Martina/Kamuf, Viktoria/Nuske, Jessica/Quent, Matthias (Hrsg.): Forschungsbasierter Wissenstransfer und gesellschaftlicher Zusammenhalt. Theorie, Empirie, Konzepte und Instrumente. Frankfurt am Main: Campus. S. 227-247. https://doi.org/10.12907/978-3-593-45584-6_010.

Wiedemann, Gregor / Münch, Felix Victor / Rau, Jan Philipp / Kessling, Phillip / Schmidt, Jan-Hinrik (2023): Concept and challenges of a social media observatory as a DIY research infrastructure. In: Publizistik, Online First. Online verfügbar: https://doi.org/10.1007/s11616-023-00807-6

Schmidt, Jan-Hinrik / Merten, Lisa / Münch, Felix V. (2023): Die „Datenbank Öffentlicher Sprecher“ (DBÖS). Juni 2023. Online verfügbar: https://doi.org/10.17605/OSF.IO/SK6T5

Schmidt, Jan-Hinrik / Kessling, Philipp / Nasser, Fred, / Linnekugel, Clara / Moradi, Jasmina (2023): Die Kandidierenden in sozialen Medien. Ein Vergleich der Bundestagswahlkämpfe 2017 und 2021. In: Fuchs, Martin/Motzkau, Martin (Hrsg.): Digitale Wahlkämpfe: Politische Kommunikation im Bundestagswahlkampf 2021. Wiesbaden: Springer Fachmedien. S. 27-37. DOI: 10.1007/978-3-658-39008-2_3.

Schmidt, Jan-Hinrik (2023): Widersprechen in und mit sozialen Medien. In: Füllenbach, Magdalena Tonia/Münnich, Michael/Spanke, Johanna (Hrsg.): Widerspruchs-Kulturen. Medien, Praktiken und Räume des Widersprechens. Berlin: Dietrich Reimer Verlag. S. 57-64.

Schmidt, Jan-Hinrik, Philipp Keßling, Jan Rau, Clara Linnekugel, Jasmina Moradi, Fred Nasser (2022): Twitter- und Facebook-Accounts der Kandidierenden zur Bundestagswahl 2021. Online verfügbar: https://doi.org/10.17605/OSF.IO/WN48Y.

Schmidt, Jan-Hinrik / Taddicken, Monika (2022): Soziale Medien: Funktionen, Praktiken, Formationen. In: Schmidt, Jan-Hinrik/Taddicken, Monika (Hrsg.): Handbuch Soziale Medien. 2. Auflage. Wiesbaden: Springer VS. https://doi.org/10.1007/978-3-658-03895-3_2-3.

Taddicken, Monika / Schmidt, Jan-Hinrik (2022): Entwicklung und Verbreitung sozialer Medien. In: Schmidt, Jan-Hinrik/Taddicken, Monika (Hrsg.): Handbuch Soziale Medien. 2. Auflage. Wiesbaden: Springer VS. DOI: 10.1007/978-3-658-03895-3_1-3.

Taddicken, Monika / Schmidt, Jan-Hinrik (2022): Soziale Medien und Öffentlichkeit(en). In: Schmidt, Jan-Hinrik/Taddicken, Monika (Hrsg.): Handbuch Soziale Medien. 2. Auflage. Wiesbaden: Springer VS. DOI: 10.1007/978-3-658-03895-3_22-1.

Schmidt, Jan-Hinrik (2022): Blogs. In: Baur, Nina / Blasius, Jörg (Hrsg.): Handbuch Methoden empirischer Sozialforschung. 3. überarbeitete und erweiterte Auflage. Wiesbaden: Springer Fachmedien. S. 1309-1320. DOI: 10.1007/978-3-658-37985-8_89.

Schmidt, Jan-Hinrik (2022): Zwischen Partizipationsversprechen und Algorithmenmacht. Wie soziale Medien politisches Handeln prägen. Erfurt: Landeszentrale für politische Bildung Thüringen.

Schmidt, Jan-Hinrik (2022): Wie prägt das Internet unsere Meinungsbildung? Entwicklungen und Ambivalenzen. In: Praxis Politik, Nr. 2, 2022, S. 4-7.

Broer, Irene / Schmidt, Jan-Hinrik (2022): “Dasein”: Die Integration kulturanthropologischer Konzepte in die Journalismusforschung am Beispiel einer hybriden Ethnografie beim SMC Germany. In: Medien & Kommunikationswissenschaft, Jg. 70, Nr. 1-2, S. 79-96. https://doi.org/10.5771/1615-634X-2022-1-2-79

Schmidt Jan-Hinrik (2022): Diskussionsfelder der Medienpädagogik: Onlinebasierte Gemeinschaften, Gruppen und soziale Netzwerke. In: Sander, Uwe/von Gross, Friederike/Hugger, Kai-Uwe (Hrsg.): Handbuch Medienpädagogik. Wiesbaden: Springer VS. S. 595-604. https://doi.org/10.1007/978-3-658-25090-4_73-1