Zur Abwechslung blogge ich mal wieder von einer wissenschaftlichen Tagung – nämlich der Jahrestagung der Fachgruppe computervermittelte Kommunikation der DGPuK, die auf Einladung von Axel Maireder in Wien stattfand. Das Thema der Tagung lautet „Digital Methods„, verspricht also Beiträge zu einem ganz wesentlichen und drängenden Forschungsfeld der Kommunikationswissenschaft (und anderer Sozialwissenschaften): Wie können wir die Praktiken und Strukturen von digital-vernetzten Kommunikationsräumen beobachten und erfassen, vermessen und auswerten, erklären und verstehen? Auch in unserem Fach sind ja Debatten rund um „Big Data“ und „Computational Social Science“ angekommen – wir können auf bisher ungekannte Datenmengen zugreifen, die in öffentlichen, halb-öffentlichen oder auch persönlich-öffentlichen Räumen anfallen; wir haben die Möglichkeit, etablierte Modelle und Theorien des Fachs (z.B. zu Informationsverbreitung und Agenda Setting) an die digitalen Spuren der vernetzten Kommunikation anzulegen und zu prüfen, ob sie noch passen; wir benötigen neben den „Standard-Kenntnissen“ der empirischen Sozialforschung nun auch Wissen um das Funktionieren oder gar die Programmierung von Tools und Algorithmen des Data-Mining.
Angesichts dieser durchaus grundlegenden Fragen finde es passend, dass als Ouvertüre zur Tagung ein Workshop zu Forschungsethik statt fand, den meine Bredow-Kollegin Nele Heise initiiert und hatte und mit einem Überblicksvortrag einleitete. Wir waren etwa 15 Teilnehmer/innen, die einen Nachmittag sehr intensiv und teils auch kontrovers über ethische Fragen und Fallstricke der Onlineforschung diskutierten. Zwei Beispiele:
- In welchen Fällen können wir bei der automatischen Extraktion von Daten (z.B. dem „Abgreifen“ von Facebook-Profildaten oder Blogeinträgen) das Einverständnis der Nutzer bzw. Autoren voraussetzen? Wann ist informierte Einwilligung notwendig, und wie kann man sie einholen?
- An welcher Stelle führt der ethische Anspruch, Daten und Befunde zu anonymisieren, um die Privatsphäre der Nutzer zu schützen, zu Konflikten mit dem Anspruch, Auswertungen und Interpretationen intersubjektiv nachvollziehbar zu machen? Es ist ja durchaus der wissenschaftliche Anspruch (jedoch nicht unbedingt die Praxis), z.B. auch Datensätze zu publizieren oder in Forschungsarchive einzustellen. Wie stellen wir dabei sicher, dass die Privatsphäre der „Datensatzsubjekte“ gewährt bleibt?
Natürlich konnten wir innerhalb von fünf Stunden keine abschließenden forschungsethischen Empfehlungen formulieren, aber wir haben nach meinem Eindruck Anlauf genommen, um diese Fragen in die Tagung und die breitere Fachgemeinschaft einzubringen. Natürlich denken an vielen anderen Stellen viele Forscher/innen bereits über diese Fragen nach, aber es fehlt unserer Beobachtung nach zumindest im deutschsprachigen KW-Feld noch an Empfehlungen und „guidelines“, um Orientierung geben und ethisch vertretbare Entscheidungen im Forschungsprozess treffen zu können.
Möglicherweise kann dabei auch ein Beitrag helfen, den Nele Heise und ich für das „Handbuch Online-Forschung“ beisteuern, das im Frühjahr 2014 bei Herbert von Halem erscheinen wird. Der Text basiert auf einem früheren Aufsatz von mir ((Schmidt, Jan (2009): Braucht das Web 2.0 eine eigene Forschungsethik? In: Zeitschrift für Kommunikationsökologie und Medienethik, Jg. 11, Nr. 2, S. 40-44. Siehe auch die slideshare-Präsentation.)), wurde aber von uns aktualisiert und deutlich erweitert. Bei Interesse kann ich gern eine Pre-Fassung zur Verfügung stellen, eine Mail genügt.
[Update 12:30]
Die eigentliche Tagung begann am Donnerstag mit einer Keynote von Jürgen Pfeffer (Carnegie Mellon) zu „Big Data, big research“. [Update: Die Folien seines Vortrags sind als .pdf online] Pfeffer arbeitet an der Schnittstelle von Informatik und Soziologie; das Forschungsziel, an dem er und andere arbeiten, formuliert er als „Real Time Analysis of Large-Scale Dynamic Socio-Cultural Systems“ – und das ist im Moment eine der Hauptdomänen von Big Data bzw. dem „data-driven approach“, den er in einigen Prinzipien zusammenfasste: „Sammle alles“, „messy data and big data is good“, „entscheide später, was nützlich ist“ etc. Der Vortrag enthielt viele bedenkenswerte und von ihm auch durchaus selbstkritisch angemerkte Diagnosen, darunter z.B. die Gegenüberstellung von (idealerweise) theorie- und hypothesengeleiteter sozialwissenschaftlicher Forschung vs. typische Big-Data-Analysen, deren Reihenfolge ist: methods, data, analysis, result presentation, problem.
Ein anderer Hinweis betrifft das Erkenntnisinteresse: Den meisten big-data-Forschern, gerade in nicht-akademischen Kontexten (also bei Facebook, Amazon, etc.) sei nicht, mit Hilfe der Befunde menschliches Verhalten zu erklären (geschweige denn zu verstehen): Die Motivation sei einfach, etwas zu wissen. Dumm nur: Wenn man 100 oder noch mehr unabhängige Variablen, nicht untypisch bei Analysen die auf „Sammle Alles“-Strategien beruhen, in Korrelations- oder Regressionsmodelle steckt, kommen immer irgendwelche signifikanten Korrelationen raus. Pfeffer fasste das am Ende in das schöne Bild: Man findet eigentlich immer in eine Nadel im Heuhaufen. Doch vielleicht untersucht man in Wirklichkeit einen Nadelhaufen? Oder aber das Heu ist das Interessante, und nicht die Nadel?
In der Diskussion kam auch noch der sehr wichtige Einwand, dass der steigende Einbezug von sozialwissenschaftlichen Erkenntnissen und Perspektiven in die big data Methoden (der Informatiker etc.) schön und gut sei. Aber inwieweit ist nicht schon das zugrundeliegende Menschenbild (das oft atomistisch-individualistisch ist, auf Paradigmen der exchange theory oder rational choice beruht) schon das Problem? Die Sozialwissenschaften haben ja längst herausgearbeitet haben, das „das Soziale“ auf mehr beruht als auf der Summe einzelner Handlungs- oder Kommunikationsakte. Selbst wenn man durch Aggregation riesiger Datenmengen bestimmten emergenten Mustern auf die Spur kommen mag: Der situative und körperliche Kontext des Handelns, oder auch der geteilte Sinn, den die Akteure mit ihren Praktiken verbinden, bleibt auf der Strecke.
Es folgte ein erster Block mit kürzeren Vorträgen.
Christina Schumann präsentierte Ergebnisse eines Experiments zum Einfluss von social shares auf das Ranking von Trefferlisten bei Suchmaschinen. Knapp zusammen gefasst: social shares haben einfluss auf die Indexierung „neuer“ Seiten und Keywords (im Experiment: „Savennenkatze“), hatten im beobachteten Zeitraum aber praktisch keinen Einfluss auf bestehende Rankings, konnten sich also nicht gegen andere Rankingeinflüsse zum Suchbegriff „Studentenwohnung“ durchsetzen.
Martin Emmer & Christian Strippel trugen zur (Un-)Möglichkeit der Ziehung von Inhaltsanalyse-Stichproben im Netz vor – sie haben 16 Studierende nach dem Stichwort „Salafismus Deutschland“ und „Tunesien“ suchen lassen und untersucht, inwiefern die Trefferlisten übereinstimmen. Ergebnis: Sie tun das nur teilweise; nur drei Fundstellen tauchten bspw. bei Salafismus Deutschland bei allen 16 Probanden auf. Wenn man also Material für Inhaltsanalysen über Suchmaschinen sammelt und so den Korpus generiert, sollte man den Bias beachten, der v.a. durch Personalisierungsalgorithmen ins Spiel kommen.
Karin Jungnickel und Axel Maireder beschlossen den ersten Block mit einem Vortrag zur „Black Box Facebook Timeline„. Grundlage war eine methodisch sehr interessante Studie: Sie baten im Lauf einer Onlinebefragung die Teilnehmer darum, Links aus deren Facebook-Timeline zu kopieren und dazu Fragen zu beantworten (z.B. in welcher Beziehung sie zu der Person stehen, die den Link in die Timeline gespült hatte). Zudem konnten sie die Ziele der Links inhaltsanalytisch untersuchen – mit zahlreichen Fallstricken, auf die sie im Vortrag hinwiesen (von inaktiven Links über nicht mehr verfügbare Livestreams bis hin zu nicht kategorisierbaren Inhalten).
[Update 15:30]
Den ersten Teil des Nachmittags verbrachte ich im Panel „Themenöffentlichkeiten“, man hätte es auch „Aktuelle Projekte aus der Twitterforschung“ nennen können. Den Auftakt machten Axel Bruns & Theresa Sauter mit einem Vortrag zur „Anatomie eines Trending Topics„, die sie am Beispiel der Retweet-Ketten zu einer Rede der vormaligen australischen Premierministin Gillard untersuchten und aufzeigten. Der Vortrag hatte eine Reihe von sehr interessanten Animationen und Visualisierungen der Retweet-Netzwerke, die ich hier leider nicht wiedergeben kann. Axel sagte selbst, dass es sich um erste Analysen handelt, die auch prüfen sollen, inwiefern man Retweets bzw. Retweetketten mit netzwerkanalytischen Verfahren erfassen und aggregieren kann.
Wie lassen sich Themen und Themendynamiken auf Twitter identifizieren? Christoph Neuberger & Sanja Kapidzic präsentierten eine sehr elaborierte Methode, wie sie über eine Differenzierung von Themen(facetten) und Keywords einen umfangreichen Korpus zusammenstellen und auf ihre Relevanz für das Thema überprüfen konnten. Am besten einfach mal im abstract nachlesen, in dem das Verfahren ausführlicher beschrieben ist, ich scheitere hier leider grad an einer konzisen Live-Zusammenfassung… :-(
Das Panel komplettierten Axel Maireder und Stephan Schlögl, die eine „ad-hoc-Öffentlichkeit“ untersuchten: Die „#aufschrei“-Debatte. Die beiden haben ~ 25.000 Tweets aus den 24 Stunden nach dem „Initialtweet“ erfasst, in denen der hashtag auftauchte, und zusätzlich die Daten zu follower-Netzwerken der etwa 8.200 Nutzer erhoben. Auch hier lag ein Schwerpunkt auf Visualisierungen der Netzwerke beteiligter Twitternutzer und der Verbreitung des hashtags im Zeitvergleich, die ich hier nicht reproduzieren kann. Sie finden in diesem Beispiel auch eine Reihe von intermedialen Dynamiken, einem „rausschwappen“ des Themas aus Twitter in Blogs und v.a. die Massenmedien, mit unterschiedlich starken Verbindungen zwischen diesen Arenen.
[Update 17:30]
Das zweite Panel beinhaltete nach einer Absage nur zwei Vorträge, die dafür aber auch mehr Zeit für Präsentation und Diskussion zur Verfügung hatten. Keine schlechte Voraussetzungen, und den Themen definitiv angemessen: Merja Mahrt hielt, wie sie selbst sagte, eine Art „Gegenvortrag“ zur Keynote und diskutierte die Frage, ob „Big Data“ auch eine Ende von Theorie(bildung) mit sich bringe. Sie gab einen Überblick verschiedener Probleme von datengetriebener Forschung – Primat der Datensammlung über Theorie(bildung), eine Beschränkung der untersuchten Phänomene auf das, was die Daten bzw. Plattformen (leicht) hergeben, unklare Güte der Stichproben, die z.B. Twitter der Wissenschaft zur Verfügung stellt, und eine Vernachlässigung bereits etablierter und elaborierter kommunikationswissenschaftlicher Konzepte in Studien, sodass die wechselseitige Anschlussfähigkeit verloren geht. Wie könnte man diese Probleme beheben? Merja identifizierte drei Desiderate, die man auch als Forderungen an die Big-Data-Forschung aber auch die KW verstehen kann:
- komparative Forschung: Vergleich von Befunden aus Big-Data-Studien mit methodisch anders operierenden Studien;
- Kooperation: gemeinsame Formulierung von (theoretisch geleiteten) Forschungsfragen und Untersuchungsdesigns;
- Methodenausbildung: Dass „big data literacies“ (mein ad-hoc-Begriff) auch an angehende Kommunikationswissenschaftler/innen vermittelt werden sollten, darf nicht bedeuten, andere Methoden oder auch konkurrierende Paradigmen (z.B. verstehende Methoden) über Bord zu werfen.
In der Diskussion kamen weitere interessante Fragen auf; welchen Nachteil hätte bspw. die KW (oder andere Nicht-Big-Data-Sozial-& Geisteswissenschaften) davon, wenn andere Disziplinen wie die Informatik in unseren Gefilden wildern? Vermutlich mehrere; sicherlich eine gewisse Kränkung, dass uns nun andere unsere Themen wegnehmen; dann der Verdruss, wenn die Big-Data-Forschung nicht zu Erklärungen fortschreitet, sondern sich mit reinen Befunden und Korrelationen zufrieden gibt; in dem Maße, wie Big Data zur Prognose und gesellschaftlichen Steuerung verwendet wird, aber auch das Risiko, durch falsche bzw. unterkomplexe Annahmen letztlich Schaden statt Nutzen anzurichten.
Ich bin auch nicht sicher, an welcher Stelle grundlegende Unterschiede im Menschenbild oder, damit verbunden, in Annahmen über Handlung, Praxis, das Soziale etc. eine Kooperation zwischen Informatik und KW/Sozialwissenschaften letztlich verhindern (siehe auch oben die Notizen zur Keynote). Gar nicht im Sinne einer kompletten Unvereinbarkeit oder Nicht-Verständigungsfähigkeit über die tiefen Grundlagen der jeweils eigenen Perspektive auf die Welt, sondern eher im praktischen Sinne, wenn es um auf konkrete Projekte bezogene Zusammenarbeit geht: Man muss sich ja auf Annahmen über die Menschen und die Welt einigen, um die Adäquanz der Daten beurteilen, gemeinsam Modelle und Hypothesen aufstellen und die Befunde interpretieren zu können. Vielleicht gehen die grundlegenden Annahmen aber gar nicht zusammen?
Während ich diesen Gedanken nachhänge, hat schon Nele Heise mit ihrem Vortrag zu „Big Data – small problems“ begonnen, in dem sie die Frage der spezifischen Ethik der Onlineforschung noch einmal auf Big Data zuspitzte. Wie ich Nele kenne, wird sie die Folien eh bald auf Slideshare veröffentlichen, deswegen (und weil ich ehrlich gesagt rechtschaffen müde bin), kann ich den Vortrag nicht angemessen zusammenfassen; eine ganze Reihe von Gedanken tauchten auch gestern – in kleinerem Kreis – beim Workshop auf, mit dem dieser Blog-Eintrag begann.
[Update 10.11.]
Leider habe ich am Samstag kein Live-Blogging mehr hinbekommen; die abstracts der Vorträge lassen sich aber über die Homepage der Tagung abrufen.
Ein kleines Fazit: Eine sehr anregende und gelungene Tagung; ich habe eine ganze Menge Eindrücke und Hinweise mitgenommen, wie wir in der kommunikationswissenschaftlichen Forschung mit den Herausforderungen der „digital methods“ umgehen können. Mir ist vor allem noch einmal klar geworden, wie wichtig einerseits Kompetenzen und eine adäquate Infrastruktur für die Extraktion und Analyse großer Datenmengen aus den sozialen Medien sind. Andererseits sind eine Reihe von grundsätzlichen methodischen und ethischen Fragen noch ungeklärt. Mal sehen, wie der angedachte Tagungsband diese Fragen aufgreifen wird.
Zum Nachlesen: Twitter-Hashtag zur Tagung #cvk13; Axel Bruns hat ebenfalls Eindrücke zu den Vorträgen bei sich im Blog.