Standort: fm4.ORF.at / Meldung: "Die neuen Überwachungsprogramme der NSA"

Erich Möchel

Netzpolitik, Datenschutz - und Spaß am Gerät.

24. 10. 2013 - 18:50

Die neuen Überwachungsprogramme der NSA

Die Ausschreibung der Forschungsabteilung IARPA für die Nachfolge des mächtigen, nunmehr aber betagten NSA-Systems XKeyscore läuft bereits seit Februar 2013.

Während die Programme, Methoden und Technologien der NSA zur weltweiten Überwachung aus den vergangenen zehn Jahren nun nacheinander auffliegen, hat die Arbeit an den Nachfolgesystemen längst begonnen.

Zuständig dafür ist die Intelligence Advanced Research Agency (IARPA), deren Forschungstätigkeit seit 2009 in die durch Edward Snowden bekanntgewordenen Sammel- und Analysesysteme eingeflossen ist. Seit Anfang dieses Jahres läuft dort eine Ausschreibung des "Büros für einschneidende Analysen", um neue Methoden und Ansätze zu erschließen, die "den Erkenntnisgewinn aus massiven, unzuverlässigen, disparaten und dynamischen Datensätzen, die den Analysten vorliegen - oder in Zukunft vorliegen könnten - maximieren" sollen.

Die Ausschreibung der IARPA

Ein Analysesystem für heterogene Datensätze, das exakt solches leisten soll, ist bei der NSA seit mindestens sechs Jahren unter dem Codenamen XKeyscore im Einsatz. Historie, Funktionsweise und die Probleme dieses mächtigen Werkzeugs sind mittlerweile so ausreichend dokumentiert, dass Rückschlüsse möglich sind.

In der aktuellen Ausschreibung heißt es gleich einleitend, das Ziel des neuen Programms IARPA-BAA-13-02 sei erstens, neue Ansätze und Technologien zu entwickeln, "die das Vertrauen der Analysten gewinnen, indem sie ihnen die Grundlagen für Entscheidungen" liefern. Die zweite Vorgabe betrifft die "Unsicherheit der Daten und ihre Herkunft", auch das ist ein offensichtlich bis heute ungelöstes Problem.

Der Umkehrschluss

Dieselbe Aussage lautet im Umkehrschluss nämlich so: Die Analysten vertrauen XKeyscore nicht mehr, weil dieses Werkzeug zu wenige brauchbare Ergebnisse liefert und neuere, abgefangene Daten nicht mehr geographisch zuordnen kann.

Werkzeug

http://www.flickr.com/photos/jannem/

In den ungemein vorsichtig und akribisch formulierten Wordings der für die Öffentlichkeit bestimmten Dokumente aus Geheimdienstkreisen erschließt sich die eigentliche Aussage in der Regel nämlich erst im Umkehrschluss. Mit den beiden oben zitierten Vorgaben aber sind die zwei wichtigsten Probleme der NSA mit XKeyscore bereits umrissen: immer mehr falsche Treffer bei steigenden Problemen mit deren regionaler Zuordenbarkeit.

Die in der Ausschreibung der IARPA gelisteten Themen, die für die NSA von Interesse sind, stammen aus völlig unterschiedlichen Disziplinen. Sie haben nur gemeinsam, dass sie für Analysen genutzt werden können

Das Design von XKeyscore

Exakt diese Probleme sind bereits seit 2008 dokumentiert - siehe weiter unten - und sie haben sich im Lauf der Jahre und der schnellen technischen Entwicklung noch verschärft. Das Design von XKeyscore muss an die zehn Jahre zurückliegen, zu dieser Zeit war Mark Zuckerberg noch auf dem College, von Sozialen Netzwerken war noch ebenso wenig die Rede wie von Smartphones, mobile Breitbandnetze befanden sich erst in der Phase des Roll-out.

All diese Neuentwicklungen waren im Grunddesign dieses mächtigen Analysetools natürlich nicht vorgesehen und mussten nachträglich eingefügt werden. Derlei führt bei großen Entwicklungen von Software immer zu Problemen, die ab einem gewissen Punkt eskalieren können.

Eskalation der Treffer

Im Fall von XKeyscore sind das seit Jahren hohe Systembelastung durch Suchanfragen, die bei weitem zu viele Ergebnisse und deshalb immer weniger wirkliche Treffer für die Analysten liefern. XKeyscore hat zweifellos ein solches systemisches Problem, wie es bereits beim "Trailblazer"-Überwachungsprogramm zu beobachten war. Das Projekt wurde nach Milliardenkosten, die in der vierjährigen Entwicklungszeit anfielen, 2006 eingestellt, ohne dass es je in Betrieb gegangen wäre.

Ein solches multifunktionales Analysesytem, das Zugriff auf eine Unzahl von Datenbanken ermöglicht, die völlig disparate Datensätze enthalten und obendrein noch ständiger Veränderung unterworfen sind, ist von enormer Komplexität.

Was und wie gesucht wird

Zu den vorhandenen kommen laufend neue Datensätze hinzu, weil dieselben Personen ja weiterhin weltweit kommunizieren. Von Zielpersonen ist auf dieser Ebene noch gar nicht die Rede, denn das System ermöglicht ja auch Suchen in Verhaltensmustern, aus denen Gruppen abgeleitet werden, um dann erst mögliche Zielpersonen ausfindig zu machen.

Metadaten aus Sozialen Netzen wie von Telefonaten unterliegen also demselben Prozedere - wer mit wem wann wo -, erst dann geht man die Inhalte der Kommunikation an. Telefongespräche werden dafür in einem riesigen Pufferspeicher der Systeme eine Woche lang vorgehalten.

Was des Analysten Herz begehrt

Alle neu akquirierten Metadaten müssen in die Historien der Anrufe eingepflegt werden, ein vergleichbarer Vorgang ist auch bei den übrigen Daten notwendig. Dazu kommen Milliarden von E-Mails samt Metadaten sowie Adressbücher, die allerdings noch nicht mit den Mailadressen der Eigentümer korreliert sind.

Der Datenpool von XKeyscore läuft auf einem massiven Linuxcluster aus 700 Servern weltweit, die wiederum auf eine Anzahl weiterer Datenbanken zugreifen können. Von Satelliten abgefangene Kommunikation oder Aufzeichnungen herkömmlicher, gezielter Lauschangriffe durch den weltweit tätigen "Special Collection Service" sind ebenso dabei.
- Der Stand der Dinge von Anfang 2008 ("Guardian")

Der Abgriff der Adressbücher funktioniert mit einer vollkommen anderen Methode und wird an anderen Punkten der Netzwerktopologie durchgeführt als der E-Mail-Verkehr. All das muss nun erst einmal miteinander abgeglichen werden, dazu kommen die Chats, deren Metadaten und Historien, Anfragen bei Suchmaschinen und jeder nur denkbare WWW-Verkehr in allen möglichen Sprachen und alle Konfigurationen der jeweils benutzten Browser. Vorhanden wäre damit zwar alles, was des Analysten Herz begehrt, allein es ist zuviel.

Probleme seit 2008 bekannt

XKeyscore, das in Gebrauch befindliche Auswertungssytem für ein solch babylonisches Datensammelsurium ist seit mindestens sechs Jahren im operativen Betrieb. Das älteste einer Reihe von Dokumenten aus der Sammlung Snowdens dazu ist mit Februar 2008 datiert. XKeyscore muss also davor schon mindestens ein Jahr operativ gewesen sein, denn diese Präsentationsfolien beziehen sich auf Erfahrungen im Umgang mit dem Analysetool.

Schon damals haperte es offensichtlich mit der Datenselektion. In der Präsentation wird denn auch ausführlich beschrieben, womit XKeyscore den Analysten definitiv nicht dienen kann. In allen zitierten Fällen handelte es sich dabei um zu wenig gezielte Suchanfragen, die deshalb viel zu viele falsche Treffer produzieren. Die Folgen waren zu hohe Systembelastung bei keinen greifbaren Erkenntnissen für die Analysten.

Die IARPA Programme von 2009

2009 wiederum versuchte die gerade erst gegründete IARPA dieses systemische Problem zu lösen. Eines der ersten IARPA-Programme namens SCIL ("Socio-Cultural Content in Language") sollte die automatische Extrahierung und Analyse der neu anfallenden massiven Datensätze aus Sozialen Netzen leisten.

Das SCIL-Programm zur Überwachung Sozialer Netze wurde bereits im Februar 2009 ausführlich beschrieben, wie auch das Athena-Projekt. Weitere zwei Storys über die IARPA aus dieser Zeit finden sich ebenfalls im Fuzo-Archiv.

Dazu kamen weitere Programme der obersten Geheimhaltungsklasse ("Top Secret/Sensitive Compartmented Information", TS/SCI) wie ATHENA, das die beim Design XKeyscore natürlich nicht vorgesehenen, neu anfallenden massiven Videodatensätze von YouTube und anderen Diensten erschließen sollte. Die dabei für diese Dienste entwickelten Methoden und technischen Ansätze wurden zwar wenigstens teilweise in XKeyscore implementiert. Das systemische Problem wurde dadurch aber nicht gelöst

Dacapo im Jahr 2011

Ein weiteres vom "Guardian" publiziertes NSA-Dokument thematisierte 2011 erneut ein und dieselben Schwierigkeiten, die spezielle Trainings der Analysten nötig machten. Trainiert wurde in erster Linie die gezielte Vorauswahl von Suchkriterien in XKeyscore.

Mit hoher Wahrscheinlichkeit ist der Ursprung von XKeyscore auf das berüchtigte
"Total Information Awareness"-Programm von Admiral John Poindexter zurückzuführen. Die erste Fuzo-Story dazu erschien im November 2002.

2011 bestand dasselbe Problem also noch immer und hatte sich obendrein durch das gestiegene Datenaufkommen noch verschärft. Die logische Folge davon war, dass zwangsläufig noch mehr falsche Treffer ausgeworfen wurden, eine Lösung dafür fand man auch damals nicht.

Fortsetzung folgt

Der nächste Teil dieser Serie über die kommenden Spionagesysteme des militärisch-elektronischen Komplexes der USA ist bereits in Arbeit und wird voraussichtlich am Montag fertig.