Was sind eigentlich Metadaten?

Teaser Bild Untertitel
Screenshot des Projektes Immersion, das Metadaten von E-Mails visualisiert

Telekommunikations-Verbindungsdaten, wie sie bei der Vorratsdatenspeicherung und von den Geheimdiensten der Welt gesammelt werden, verraten intime Details über unser Leben. Dies bekräftigt jetzt auch der Informatik-Professor Edward W. Felten in einem Gutachten. Die möglichen Rückschlüsse aus Verbindungsdaten sind größer als die der Kommunikationsinhalte – und nehmen noch weiter zu.

Der Sommer von Snowden begann mit der Enthüllung, dass der amerikanische Mobilfunk-Anbieter Verizon alle Telefon-Verbindungsdaten der NSA übermittelt. Das heißt bei uns Vorratsdatenspeicherung. Keine Woche später reichte die American Civil Liberties Union (ACLU) Klage gegen diese krasse Bürgerrechtsverletzung ein.

Der Professor für Informatik und Öffentliche Angelegenheiten Edward W. Felten hat ein Gutachten an das Gericht übermittelt, das zeigt, wie aussagekräftig und intim diese “Metadaten” sind:

Below, I discuss how advances in technology and the proliferation of metadata-producing devices, such as phones, have produced rich metadata trails. Many details of our lives can be gleaned by examining those trails, which often yield information more easily than do the actual content of our communications. Superimposing our metadata trails onto the trails of everyone within our social group and those of everyone within our contacts’ social groups, paints a picture that can be startlingly detailed.

 

Metadaten sind einfach zu analysieren

Im Gegensatz zu Inhaltsdaten sind Verbindungsdaten strukturiert: Telefonnummern, E-Mail-Adressen, Zeit und Ort sind einfach zu verarbeiten und miteinander zu verknüpfen. Der kontinuierliche technologische Fortschritt haben die Speicherung günstig und die Rechenleistung möglich gemacht. Dadurch sind neue Möglichkeiten entstanden, große Berge dieser Daten zu rastern und Strukturen zu erkennen.

Dafür gibt es Software von der Stange. Als Beispiel führt Felten i2 Analyst’s Notebook von IBM an, über das Netzpolitik.org wiederholt berichtet hatte. IBM wirbt mit Sprüchen wie: “Identify key people, events, connections, patterns and trends that might otherwise be missed.”
Bild entfernt.Eine weitere in Deutschland eingesetzte Software ist rola rsCASE. Über beide Tools habe ich auch in meinem Talk zur Funkzellenabfrage auf der SIGINT-Konferenz berichtet.

Vor diesem Hintergrund ist es logisch, dass Ermittlungsbehörden und Geheimdienste oft erst Verbindungsdaten analysieren und dann in die Inhalte Verdächtiger hineinzoomen.

Das Produzieren von Metadaten ist unvermeidbar

Im Allgemeinen ist es praktisch unmöglich, in Echtzeit zu kommunizieren, ohne Verbindungsdaten zu hinterlassen. Während Kommunikations-Inhalte verschlüsselt werden können, sind die Metadaten für viele Beteiligte offen. Zwar gibt es Tools wie Tor, um diese zu verschleiern, aber das hilft auch nur zum Teil und hat andere Nebeneffekte.

Telefon-Verbindungsdaten enthüllen Inhalte

Die Verbindungsdaten von Telefongesprächen sind extrem aufschlussreich. Im einfachsten Fall reicht die Zuordnung einer Telefonnummer zu einer Schwangerschafts-, Drogen- oder Spielsucht-Beratung, um von Metadaten auf Inhalte zu schließen. SMS-Nachrichten an bestimmte Nummern können Spenden an Kirchen, eine Familienberatung oder sogar an politische Kandidaten offenlegen.

Hierzulande bekannt ist die Visualisierung der Vorratsdaten von Malte Spitz, die extrem viel über sein Leben verrät.

Aggregierte Telefon-Verbindungsdaten sind noch aussagekräftiger

Wenn man Verbindungsdaten sammelt und miteinander verknüpft, werden die daraus gewonnenen Erkenntnisse noch detaillierter. Durch die Erstellung von sozialen Graphen können Rückschlüsse auf soziale Bindungen gewonnen werden. Daran lassen sich sogar der soziale Status und die Hierarchie in einem Unternehmen ablesen. Hier bringt Felten ein aussagekräftiges Beispiel:

A young woman calls her gynecologist; then immediately calls her mother; then a man who, during the past few months, she had repeatedly spoken to on the telephone after 11pm; followed by a call to a family planning center that also offers abortions. A likely storyline emerges that would not be as evident by examining the record of a single telephone call.

Der Chaos Computer Club hat in seinem Gutachten zur Vorratsdatenspeicherung im Juni 2009 bereits ein ähnliches Beispiel visualisiert:Bild entfernt.

Wer erkennt Muster?

In short, aggregated telephony metadata allows the government to construct social graphs and to study their evolution and communications patterns over days, weeks, months, or even years. Metadata analysis can reveal the rise and fall of intimate relationships, the diagnosis of a life-threatening disease, the telltale signs of a corporate merger or acquisition, the identity of a prospective government whistleblower, the social dynamics of a group of associates, or even the name of an anonymous litigant.

Massenhaft gesammelte Metadaten und Data-Mining über viele Einzelpersonen

Mit den unter dem Buzzword Big Data zusammengefassten Entwicklungen der letzten Jahre werden noch erstaunlichere Sachen mit Verbindungsdaten möglich. Einige der Erkenntnisse:

Diese Studien zeigen, dass das Ende der Möglichkeiten noch lange nicht erreicht ist. Es ist auch davon auszugehen, dass die NSA all das kann und macht.

Das Gutachten unterstreicht erneut, wie aussagekräftig die immer als “harmlos” beschriebenen Verbindungs- oder Metadaten sind. Und dass wir eine anlasslose Speicherung all dieser intimen Details names Vorratsdatenspeicherung in jeder Form verhindern müssen.

....
Dies ist eine leicht überarbeitete Version des Artikels "Vorratsdatenspeicherung: Warum Verbindungsdaten noch aussagekräftiger sind als Kommunikations-Inhalte", der auf netzpolitik.org zuerst erschien.