Erstellt am: 16. 3. 2014 - 10:15 Uhr
Big Data
Als im Jahr 2009 das gefährliche Grippevirus H1N1 entdeckt wurde, warnten die US-Gesundheitsbehörden vor der Möglichkeit einer Pandemie und führten eine ärztliche Meldepflicht ein. Weil aber Patienten nicht sofort zum Arzt gehen, wenn sie sich krank fühlen, und auch die Übermittlung der Daten eine Weile dauerte, standen die Zahlen über neue Grippefälle stets erst mit zwei Wochen Verzögerung zur Verfügung.
Zufällig wenige Wochen davor hatten Software-Entwickler des Internet-Konzerns Google eine Möglichkeit präsentiert, die Ausbreitung einer Grippeepidemie voraussagen zu können. Das Unternehmen, dessen User täglich drei Milliarden Suchanfragen stellen, wertete die 50 Millionen häufigsten davon aus. Diese wurden in Relation zu Grippedaten aus den Jahren zuvor gesetzt. Daraus ergab sich die enorme Zahl von 450 Millionen möglichen mathematischen Modellen, die auf ihre Tauglichkeit geprüft wurden, bis das richtige gefunden wurde: Seitdem kann Google aufgrund der Korrelation von nur 45 Suchbegriffen die Ausbreitung der Grippe ähnlich gut feststellen wie die Gesundheitsbehörde – allerdings nicht mit zwei Wochen Verspätung, sondern unmittelbar. Alte Suchanfragen - von vielen bloß als „Datenmüll“ betrachtet - fanden bei Google einen neuen Verwertungszweck.
Beziehungen erkennen
Anhand solcher Beispiele erklären der Journalist Kenneth Cukier (The Economist) sowie der aus Österreich stammende Jurist und Hochschullehrer Viktor Mayer-Schönberger, was das Konzept Big Data bedeutet, welche positiven gesellschaftlichen Veränderungen sie erwarten und welche Gefahren uns drohen. Bei Big Data geht es um das Erkennen von Beziehungen zwischen Informationseinheiten, deren enorme Menge wir bis vor kurzem nur mit Mühe erfassen konnten. Samples, also repräsentative Stichproben von wenigen hundert oder tausend Datensätzen, gehören im Big-Data-Zeitalter der Vergangenheit an. Stattdessen stützt sich die Auswertung auf so viel Information wie möglich.
©Joi Ito
Mehr Daten, schreiben Mayer-Schönberger und Cukier, seien wichtiger als bessere Algorithmen. Als Beispiel dienen den Autoren die Sprachübersetzungs-Tools der beiden Firmen IBM und Google. Während IBMs Software-Entwickler sich in den neunziger Jahren auf die Verbesserung der Übersetzungsalgorithmen konzentrierten, füttert Google einen verleichsweise einfachen Algorithmus mit sämtlichen Übersetzungen, die im Internet zu finden sind - mehrsprachige Firmenwebsites, amtliche Dokumente, Berichte von internationalen Organisationen und vieles mehr. Trotz der Unordentlichkeit des Inputs funktioniert Googles Übersetzungs-Software nicht nur am besten von allen, sondern auch in über 60 Sprachen. Wenn Milliarden von Informationseinheiten zur Verfügung stehen, dann fällt die Unschärfe des Datenmaterials statistisch nicht mehr ins Gewicht. „If you have too much data, then ‚good enough‘ is good enough“, zitieren die Autoren den Datenbank-Experten Pat Helland. Unschärfe und Unordnung des gigantischen Datenmaterials zu ignorieren erfordert allerdings eine Veränderung des Denkens; in einer Welt der repräsentativen Stichproben mussten Ungenauigkeiten noch um jeden Preis vermieden werden mussten.
Man muss nicht immer den Grund kennen
Die Autoren beschreiben eine weitere gesellschaftliche Konvention, die im Big-Data-Zeitalter an Aktualität verliert: die Vorstellung, man müsse von allem, was geschieht, den Grund kennen. Warum suchen Menschen bei Ausbruch einer Grippe-Epidemie vermehrt nach bestimmten Begriffen? Die Beantwortung dieser Frage mag interessant sein, ist für das gewünschte Ergebnis – die Feststellung einer Epidemie – aber nicht relevant. Im Big-Data-Zeitalter ist es nicht mehr effizient, sich aufgrund von Hypothesen zu entscheiden, welche Daten man untersuchen möchte - stattdessen sucht man in der Gesamtheit aller Daten nach Korrelationen.
Dr. Carolyn McGregor von der University of Ontario hilft Ärzten bei der Betreuung Frühgeborener. Mit Big-Data-Analysen konnte sie Korrelationen aufzeigen, die der herrschenden ärztlichen Meinung widersprachen. So fand sie zum Beispiel heraus, dass es vor einer schweren Infektion oft zu einer starken Stabilisierung der Vitalfunktionen kommt. Generationen von Ärzten seien angesichts der stabilen Werte von Frühgeborenen wohl abends beruhigt nach Hause gegangen, schreiben Cukier und Mayer-Schönberger, nur um gegen Mitternacht einen hektischen Anruf von der Station zu erhalten, dass es schwerwiegende Probleme gebe. McGregors Daten hingegen legen nahe, dass bestimmte stabile Vitaldaten bei Frühgeborenen weniger ein Zeichen von Gesundheit, sondern eher die Ruhe vor dem Sturm sein können. Mithilfe von Korrelationen können wir Phänomene analysieren und bestimmen, ohne ihren Wirkungsmechanismus zu verstehen – und damit Leben retten.
©Kenneth Cukier
Risiken der Big-Data-Methodik
Im letzten Drittel des Buches widmen sich Cukier und Mayer-Schönberger den Risiken der Big-Data-Methodik. Weil sie wertvolle Einsichten ermöglicht, mit denen wir unsere Lebensqualität verbessern können, deutet alles darauf hin, dass das Sammeln, Speichern und Verwenden unserer persönlichen Daten weiter zunehmen wird. Die Kosten für das Speichern werden weiter dramatisch sinken und die Analysewerkzeuge werden immer mächtiger. Das bedroht aber nicht nur unsere Privatsphäre. Big-Data-Analysen werden auch immer öfter für Vorhersagen benützt: In den USA verwenden schon mehr als die Hälfte der Bundesstaaten Verhaltensvorhersagen auf der Grundlage einer Datenanalyse, wenn sie entscheiden, ob eine Haftstrafe zur Bewährung ausgesetzt wird. Aufgrund von Big-Data-Analysen werden Straßen, Gruppen und sogar einzelne Menschen stärker überwacht, bloß weil sie ein Algorithmus als anfälliger für Verbrechen identifiziert hat. Versicherungen bieten Kunden teurere Verträge an, weil die Datenanalyse ein Gesundheitsproblem prophezeit. Big Data, so die Autoren, sei konstant gefährdet, für kausale Zwecke missbraucht zu werden. Im schlimmsten Fall würde daraus ein Werkzeug der Kollektivierung unserer Entscheidungsfreiheit und der Vernichtung des freien Willens in unserer Gesellschaft. Wir müssten uns daher mit der Frage befassen, wie wir Big Data kontrollieren können, um zu verhindern, dass Big Data uns kontrolliert.
„Big Data – Die Revolution, die unser Leben verändern wird“ von Viktor Mayer-Schönberger und Kenneth Cukier ist erschienen im Redline Verlag, 2013. 300 Seiten. EUR 25,70
Es ist ein zentrales Prinzip von Datenschutzgesetzen in aller Welt, dass der Betroffene selbst entscheiden können soll, ob, wie und von wem seine personenbezogenen Daten verwendet werden dürfen. Im Big-Data-Zeitalter aber ist der Nutzen von Daten bei ihrer Erhebung oft noch nicht bestimmbar, sondern wird erst zum Zeitpunkt der Wiederverwendung geschaffen – so wie im Beispiel der Grippeinfektions-Analyse aufgrund von alten Google-Suchbegriffen. Die seitenlange Datenschutzerklärung, die man heute bei der Anmeldung zu einem Internet-Service per Mausklick akzeptiert, ist zum formalisierten Ritual geworden, das den realen Gegebenheiten nicht mehr entspricht. Den Abschluss des Buchs bilden daher drei Forderungen: Erstens müssten Nutzer personenbezogener Daten verpflichtet werden, für jeden neuen Verwendungszweck eine förmliche Prüfung gerade auch im Hinblick auf die Auswirkungen für die Betroffenen durchführen – und bei mangelnder Durchführung auch stärker zur Verantwortung gezogen werden. Zweitens müsse die Gesellschaft das Konzept von Gerechtigkeit neu definieren, um in einer Welt von Big-Data-Vorhersagen die Handlungsfreiheit des Menschen zu sichern. Drittens bräuchten wir neue Institutionen und Berufe wie z.B. den Algorithmiker, der die komplexen Rechenvorgänge hinter den Ergebnissen von Big-Data-Analysen erklären und Geschädigten beistehen kann.
©Redline
Das weltweite Datenvolumen verdoppelt sich alle zwei Jahre, während die Analysemethoden immer effizienter werden. Die Welt bewegt sich von der Suche nach Kausalitäten hin zum Erkennen von Korrelationen. Viktor Mayer-Schönberger und Kenneth Cukier erklären mit wissenschaftlicher Genauigkeit, aber auch in spannender Erzählweise einen technologischen und gesellschaftlichen Wandel, der uns erreicht hat, der jeden einzelnen betrifft, und dessen Auswirkungen wir in den nächsten Jahren immer stärker spüren werden. Das Buch wurde noch vor Edward Snowdens Enthüllungen über die Methoden des US-Geheimdienstes NSA geschrieben, spricht aber auch bereits die Problematik eines umfassenden staatlichen Spitzelwesens durch Big Data an. Die Autoren plädieren dafür, die enorm wachsenden Möglichkeiten der Datenverarbeitung nicht zu vergöttern, sondern sie mit Augenmaß und Menschlichkeit einzusetzen.