Daten gegen Viren: Soziale Netzwerke als Frühwarnsysteme

Mit Apps und Maps sollen Krankheitsausbrüche in Echtzeit vorhergesagt werden. Wissenschaftler und Ärzte erhoffen sich davon, Epidemien schneller in den Griff zu bekommen. Doch die digitale Prognostik geht mit erheblichen Nebenwirkungen einher.

Im vergangenen Jahr breitete sich das Ebola-Virus mit rasender Geschwindigkeit in Westafrika aus. Die Zahl der infizierten Fälle stieg exponentiell, die Behörden waren überfordert. Auch westliche Staaten reagierten zu spät. Schon einige Wochen, bevor die WHO den Notstand ausrief, wurde auf der App «HealthMap» über ein «mysteriöses hämorrhagisches Fieber» berichtet.

«HealthMap» ist eine Software, die Regierungsseiten, soziale Netzwerke und lokale Zeitungsberichte durchforstet und auf dieser Grundlage eine Verbreitungsprognose erstellt. Auf einer Weltkarte werden Gesundheitstrends in Echtzeit in roten und violett gefärbten Kreisen dargestellt. Mit der Maus kann man in die jeweiligen Gefährdungsgebiete hineinscrollen. Der automatisierte Suchprozess extrahiert stündlich relevante Informationen aus tausenden Quellen und erstellt Gefahrenmeldungen.

In der Schweiz filterte das System einen Fall von Rindergrippe in St. Gallen (aus einem Bericht von 20 Minuten), in Sachsen-Anhalt einen Fall von Borno-Virus (aus einer vertraulichen Mail der International Society for Infectious Diseases).

Medienberichte und Tweets als Datenquelle

«HealthMap» ist noch ein wenig grobkörnig. Doch derlei Dienste könnten Gesundheitsbehörden helfen, den Ausbruch epidemischer Krankheiten schneller zu erkennen und unmittelbare Massnahmen in die Wege zu leiten. Das Problem bisheriger indikatorbasierter Prognosen lag darin, dass die Erhebung recht träge und ungenau war. Der Grund: Nicht jeder mit Symptomen einer Krankheit geht zum Arzt. Die Hoffnung der Mediziner ist, soziale Netzwerke als Frühwarnsystem für Epidemien zu nutzen.

Die Wissenschaftler des «Center for Human Dynamics in the Mobile Age» haben unter Leitung des Geografieprofessors Ming-Hsiang Tsou das Tool «Social Media Analytic and Research Testbed» (SMART) entwickelt, das Tweets aus 100 Städten in den USA nach gripperelevanten Symptomen durchforstet. Die Daten werden zunächst gefiltert, in einen räumlich-zeitlichen Kontext eingebettet und schliesslich visualisiert.

«Unser Ansatz ist, Big Data aus einer räumlich-zeitlichen Perspektive zu analysieren», sagt Tsou im Gespräch mit der TagesWoche. «Wir sammeln Social-Media-Daten auf lokaler Ebene, indem wir sowohl GPS-getaggte Nachrichten als auch solche ohne GPS mit Nutzerprofilen verknüpfen.»

Analyse von Suchanfragen war ungenau

Die Idee ist nicht neu. Auch Google versuchte mit «Flu Trends» die jährliche Ausbreitung von Grippewellen anhand von Suchbegriffen vorherzusagen. Allein, die Suchmaschine hat das Auftreten der Influenza um insgesamt 50 Prozent überschätzt. Ein Grund war auch die Nachrichtenlage: Die Medien waren im Dezember 2012 voller Schreckensmeldungen und Horrorszenarien, die die Menschen panikartig nach Grippe suchen liessen. Das Ergebnis war hochgradig verzerrt.

Professor Tsou hat seine Prognose mit dem Weekly U.S. Influenza Surveillance Report, einem wöchentlichen Bericht zur Verbreitung der Grippe, verglichen und dabei eine Korrelation von 0.849 festgestellt. Die Prognose war also relativ genau.

Andere Ansätze gehen über die Social-Network-Analyse hinaus und versuchen die Menschen in die Vorhersagemodelle einzubeziehen. Mit der App «Flu Near You» können Nutzer in den USA in einer wöchentlichen Umfrage mögliche Grippesymptome melden. Die App wertet die Daten aus und erstellt für jede Region einen aktuellen Grippe-Bericht. Man muss einfach die Postleitzahl oder eine Stadt angeben, dann erhält man Informationen über eine mögliche Grippewelle.

Wenn man zum Beispiel Los Angeles eingibt, werden dort aktuell 1500 Berichte angezeigt. 1300 Nutzer zeigen keine Symptome, 30 (2 Prozent) evidente Grippesymptome. Die Wahrscheinlichkeit, dass man sich im sonnenverwöhnten Kalifornien mit einer Grippe infiziert, ist derzeit gering.

Big Data stösst an Grenzen

Jedes Modell ist nur so gut wie die Daten. Und je mehr Daten eingespeist werden, desto aussagekräftiger ist die Datenbasis und desto genauer funktioniert die Vorhersage. Das aber ist genau das Problem. Nicht jeder, der an Grippe erkrankt ist, plaudert über seine Symptome. Gleichzeitig muss nicht jeder Tweet über Grippesymptome indizieren, dass der Nutzer auch wirklich daran erkrankt ist. Big Data stösst hier an Grenzen.

Hinzu kommen privatrechtliche Bedenken. Jeremy Gillula von der Electronic Frontier Foundation sagt im Gespräch mit der TagesWoche: «Wenn Wissenschaftler öffentlich verfügbare Social-Media-Posts durchkämmen, dürfte das keine privatrechtlichen Probleme bereiten. Die Daten sind ja schon öffentlich, und niemand würde einen Tweet als privat einstufen. Wenn aber die Daten aus einem Bereich gesammelt werden, den die Leute für privat erachten, etwa Sucheingaben, Inhalte von E-Mails oder Direktnachrichten, sind die Privatsphärebedenken gewaltig.»

Wenn zum Beispiel ein Forscher jede Suche nach Herpes und die korrespondierende E-Mail-Adresse aufzeichnet, würde eine signifikante Missbrauchs-Gefahr bestehen. Die Wissenschaftler können diese Bedenken ausräumen, indem sie die Datenerhebung transparent machen.

Datenschutz vs. Prognosegenauigkeit

Dem Geografen Tsou ist der Schutz der Privatsphäre ein wichtiges Anliegen. «Wenn jemand Vorbehalte hat, dass seine öffentlichen Tweets für SMART gesammelt werden, kann er oder sie uns bitten, die Tweets von unserer Datenbank löschen zu lassen.» Eine weitere Sorge stellen die GPS-Tags und «Check-in»-Informationen dar, die den Standort des Nutzers verraten.

Die Forscher können sogenannte «Geo-Masking»-Algorithmen anwenden, die den wahren Standort des Nutzers innerhalb von 200 oder 300 Metern randomisieren und so verschleiern. Das Problem ist, dass darunter die Datenqualität leidet. «Wenn wir einen grösseren Radius der Geo-Masks einstellen, wird der Datenwert der GPS-basierten Nachrichten signifikant abnehmen», sagt Tsou. «Wir müssen darum eine Balance zwischen dem Schutz der Privatsphäre und der Wissenschaft mit Big Data finden.»

Medienberichte und Tweets als Datenquelle

Analyse von Suchanfragen war ungenau

Big Data stösst an Grenzen

Datenschutz vs. Prognosegenauigkeit

Nächster Artikel