Gretchenfrage Big Data

Dem einen oder anderen Beobachter mag aufgefallen sein, dass vieles von dem, was ich seit 2010 hier in diesem Blog aufschreibe, sich in Big Data manifestiert (hier eine gute Deutschlandradiosenung zu Big Data). Und ich bin mittlerweile auch zu der Ansicht gelangt, dass wir mit der Entwicklung von Big Data direkt am Scheideweg des Kontrollverlustes stehen. Ich glaube, dass die Kämpfe – insbesondere auch die um die EU-Datenschutzverordnung – in Wirklichkeit auch eine Richtungsentscheidung zu diesem Thema sein soll.

Der Kontrollverlust, so wie ich ihn definiere, ist die generelle Unabsehbarkeit von Informationen, die aus Daten gewonnen werden können. Er schließt ein, dass ich 1. nicht mehr wissen kann, welche Daten erhoben werden, 2. welche Wege sie gehen, bzw. welche Kopien von ihnen angefertigt werden und 3. und wichtigstens, ich nicht wissen kann, wie diese Daten, verknüpft mit anderen Daten, welche Aussagen zulassen.

Der dritte Punkt nun ist im großen und ganzen der Coup hinter Big Data. Big Data greift meist auf Bestandsdaten zurück, die zu einem ganz anderen Zweck erhoben wurden (Tracking, Suchabfragen, Mobiltelefonzellenortung, medizinische Daten, etc.) und korreliert sie mit anderen Datensätzen. Das erlaubt verblüffende Erkenntnisse. Und zwar in jeder Hinsicht verblüffend: vielleicht auch über mich.

Wenn – so die Datenschützer – Big Data ausschließlich vollständig anonymisierte Daten nutzen würde, dann wäre da auch gar nichts gegen einzuwenden. „Jaja„, antworten Startups und Konzerne, „wir anonymisieren doch!

Leider gibt es da ein kleines Problem. Zu den oben erwähnten Unkalkulierbarkeiten von Big Data gehört unter anderem die ständige Gefahr der Deanonymisierbarkeit. Die meisten Daten (vor allem die interessanten) werden auf die eine oder andere Art eben doch durch den Menschen induziert. Nimmt man beispielsweise einen Datensatz eines Telefonanbieters, ersetzt alle personenbezogenen Daten (Telefonnumern, Namen, Adressen, etc) mit Aliasen, so dass man nur noch anonymisierte Bewegungsprofile irgendwelcher Menschen hat, glaubt man sich sicher. Korreliert man sie mit zum Beispiel Daten aus Foursquare (Welcher Alias ist an Orten, wo sich ein User eincheckt?) lassen sich einzelne Daten nicht nur wunderbar rückübersetzen, sondern auch alle Lücken des Foursquare-Users füllen. Korreliert man die paar Treffer widerum mit Facebook und den jeweiligen Social Graphs (Freundesnetzwerken) bekommt man auch einen Großteil aller anderen raus. (Dies ist ein einfaches, plakatives Beispiel. Das geht natürlich noch viel mehr von hinten durch die Brust ins Auge.) (PS: Anscheinend ist mein kleines Gedankenexperiment hier mittlerweile so – genau so – wissenschaftlich bestätigt worden.)

Und hier sind wir mitten drin, in der wohl wichtigsten Streitfrage der aktuellen Datenschutzdiskussion: der Frage nach der Definition von personen bezogenen Daten, die auch bei der Diskussion um die EU-Datenschutzverordnung eine große Rolle spielt.

Datenschützer hätten deswegen gerne eine generell sehr weite Definition von „personenbezogenen Daten“. Alle Daten, die – auch nur potentiell – auf Personen beziehbar sind, sollen dazugehören. In Anbetracht unserer obigen Überlegungen hieße das nichts anderes, als dass fast alle Daten personenbezogen sind.

Würden sich die Datenschützer an dieser Stelle durchsetzen, hieße das das Ende von Big Data. (Klar, es gibt den Erlaubnisvorbehalt, aber wie ich oben beschrieben habe, ist bei Big Data ja eben das spannende, dass man unvorhergesehene Berechnungen macht. Und dafür können dann ja eben schlecht Erlaubnisse nachträglich eingeholt werden.)

Es würden – zumindest in Europa – alle Entwicklungen in Richtung Big Data extrem behindert werden. Aber nicht nur. Wenn zum Beispiel IP-Adressen zum personen bezogenen Datum werden (wie von manchen gefordert), kann ich keine Reportings mehr für meine Websites machen. Eine ganze Reihe von Netzwerkanalysetools würde illegal werden. Usertracking würde enorm erschwert werden und die eh schon dürren Geschäftsmodelle von Websitebetreibern ruinieren. Das Web würde sehr leiden unter einer solchen Definition.

Es war klar, dass der Datenschutz an einen Punkt kommen wird, an dem er von einem freiheitsermöglichenden Schutzrecht zu einem freiheitseinschränkenden Regime wird. Ich glaube, dieser Zeitpunkt ist jetzt.

Wenn der Datenschutz seine Vorstellungen von „Personenbezug“ durchsetzt, erweitert er seine Kompetenzen auf beinahe Alles. Dann wird er entweder totalitär oder wird an dieser Stelle schlicht und ergreifend ebenso armselig scheitern, wie es die tragische Figur Thilo Weichert heute schon beinahe täglich vormacht.

Die Alternative dazu wäre nicht nur, den „Personenbezug“ so eng zu definieren wie möglich, sondern den Datenschutz vom Ansatz her neu zu denken. Es würde nämlich bedeuten, dass die Datenverarbeiter zwar zusichern können alles zu tun, um Daten zu anonymisieren, dass sie aber keine Garantie geben könnten, dass die Daten nicht wieder deanonymisierbar sind. Es bräuchte einen Datenschutz, der den grundsätzlichen Kontrollverlust akzeptiert und dennoch alles Mögliche tut, die Folgen einzuschränken. (Beispielsweise wäre die derzeit wichtigste Aufgabe in dieser Hinsicht, gegen die Vorratsdatenspeicherung zu kämpfen.)

Ich denke, die Wahl ist nicht ganz leicht, aber sie stellt sich derzeit genau so. Ich bin für die letzte Variante, wie ich nicht müde werde zu betonen, aber ich kann schon verstehen, dass man sich damit schwer tut.

Ein paar Gedanken dazu:

1. Wir stehen in Sachen Datenverarbeitung immer noch am Anfang. Die Datenberge werden weiterhin exponentiell wachsen und deren Möglichkeiten und Mächtigkeiten mit ihr. Wenn wir jetzt einen restriktiven Faktor einbauen, dann wird diese Institution keine andere Chance haben, als mit den von ihr unter dem Deckel zu haltenden Möglichkeiten mitzuwachsen. Wenn wir also über eine machtvolle Datenschutzbehörde nachdenken, dann müssen wir bedenken, dass sie in zwei Jahren doppelt so mächtig sein muss und in 10 Jahren 64 mal. Mir macht das mehr Angst, als jeder Kontrollverlust über meine Daten.

2. Wir stehen mit unserem gesamten „Way of Life“ derzeit an einer Weggabelung. Und zwar nicht in erster Linie durch das Digitale, sondern vor allem wegen der Endlichkeit der Ressourcen. Die Welt – aber zu erst der Westen – kann es sich nicht mehr länger leisten seine Ökonomie auf einem ständigen Wachstum – und damit auf ständigem Mehrverbrauch von Ressourcen aufzubauen. Meines Erachtens gibt es nur zwei Möglichkeiten aus der Misere: wir verbrauchen weniger, d.h. wir alle schnallen den Gürtel enger, schränken uns ein, etc. Das wird hart, vielleicht in gewissen Maße auch auch unumgänglich. Und/Oder zweitens: Wir schaffen es, die vorhandenen Ressourcen effizienter zu verteilen. Ich bin überzeugt, dass wir uns keine Vorstellung davon machen, was für enorme Potentiale für Wohlstand bei gleichzeitiger Umweltverträglichkeit in der effizienteren Umorganisation von Ressourcen steckt. Und ich glaube, dass da gar kein Weg dran vorbei geht.

Wir können uns auf Dauer keinen motorisierten Individialverkehr mehr leisten. Wir könnten uns aber wenige selbstfahrende, jederzeit über ihre Fahrgäste und ihre Position bewusste Taxis leisten. Wir können uns nicht leisten, auf regenerative Energie zu verzichten. Dafür aber brauchen wir intelligente Stromnetze, die in Echtzeit Strom dorthin schicken, wo er gebraucht wird. Wir können uns Fehlplanungen beim Wohnungsbau nicht mehr leisten. Wir können uns nicht leisten, weiterhin intransparente Märkte zu haben, indem wir uns weiterhin selbst zutrauen, sie zu durchforsten. Wir können uns nicht mehr leisten, mit Werbung, die enorme Streuverluste hat, die Welt vollzustellen. Wir können uns nicht mehr leisten, Butterberge, Getreideberge etc. herzustellen und dann verrotten zu lassen. Und es gibt viele, viele andere Beispiele, wie unsere Ökonomie zwar nicht mehr wachsen kann, aber trotzdem nicht weniger lebenswert werden muss. Das Wachstum muss und wird sich nach innen verlagern.

Um diese Dinge aber zu lösen, müssen wir von der Milchtüte bis zum Fensterscharnier alles mit Intelligenz ausstatten. Und um die Dinge intelligent und effizient auf einander einzustellen, werden wir jede Sekunde viele Petabyte an Daten auswerten müssen. Und wir werden keine Rücksicht darauf nehmen können, wenn Dinge aus diesen Daten herauslesbar sein werden, die uns manchmal nicht passen. Big Data wird in jeder Hosentasche stattfinden, ob die Datenschützer es nun wollen oder nicht.

Dieser Beitrag wurde unter Kontrollverlust, Weltkontrollverlust abgelegt und mit , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

8 Kommentare zu Gretchenfrage Big Data

  1. Pingback: Datenschutzverordnungskritik « H I E R

  2. Pingback: die ennomane » Blog Archive » Links der Woche

  3. Pingback: i&t

  4. Tim sagt:

    „Nimmt man beispielsweise einen Datensatz eines Telefonanbieters, ersetzt alle personenbezogenen Daten (Telefonnumern, Namen, Adressen, etc) mit Aliasen“
    Das wäre dann aber nur Pseudonymisiert. Löschen der Zuordnung zu einem Nutzer (Spalte komplett weg), wäre anonym

    „IP-Adressen zum personen bezogenen Datum werden (wie von manchen gefordert), kann ich keine Reportings mehr für meine Websites machen“
    Da man mit statischen IPs rechnen muss (Zuordnung zu Einzelnutz möglich) sind IPs personenbezogen. §15 TMG erlaubt jedoch die kurzfristige Speicherung von Logfiles, sowie nach §15 Abs. 3 TMG auch das pseudonymisierte Tracking.

    • Nils sagt:

      “Nimmt man beispielsweise einen Datensatz eines Telefonanbieters, ersetzt alle personenbezogenen Daten (Telefonnumern, Namen, Adressen, etc) mit Aliasen”
      „Das wäre dann aber nur Pseudonymisiert. Löschen der Zuordnung zu einem Nutzer (Spalte komplett weg), wäre anonym“

      Nein, eine Zuordnung zu einem Nutzer fällt natürlich auch unter die personenbezogenen Daten, die bei einer Anonymisierung weg fallen. Die Deanonymisierung funktioniert indem man die anonymen Daten wie z.B. Zeit und Ort mit anderen Daten korrelieren kann, die personenbezogene Daten enthalten wie im Beispiel von Foursquare. Das ist natürlich nicht 100%, aber je mehr Daten man hat umso besser funktioniert es.

  5. Pingback: Big Data und das Ende des Kontrollverlustes | Ich sag mal

  6. Pingback: 25. Februar 2013 « Schichtstufen

  7. tsvair sagt:

    mspro!

    Ich habe über diesen Text noch einmal nachgedacht und bin zu folgendem Schluss gekommen:
    Die Frage nach absoluter Anonymität stellt sich mir eigentlich nicht nicht, da sie sowieso nie vorhanden sein kann, allein schon durch Anwesenheit. Die Frage, die sich mir viel eher stellt, ist: inwiefern können wir unsere Identitäten noch organisieren? Das sich alles verknüpfen lässt ist klar, aber das heißt ja nicht, das auch alles zueinander passt. Falschinformationen und Lügen wird es immer geben, und sie werden imho auch DAS Schlupfloch der Datenverknüpfung sein. Ich denke, das wir es auch in Zukunft wissen werden, unsere Identitäten durch gezielte Informationen voneinander zu trennen. So viel Vertrauen habe ich dann noch in die Intelligenz der Menschheit^^
    Was natürlich nicht funktionieren wird, ist zu versuchen, geheime Räume im öffentlichen zu schaffen. Es wird sicher einige Konventionen geben, aber an die werden sich nicht alle halten. Diese Konventionen festzuschreiben, sehe ich als das wesentlichere Problem. Aber ich glaube nicht wie du an die Totalität dieser Dinge. Wenn jemand seine „Werte“ einfordert meint er sie häufig weniger ernst, als er sie formuliert. Das eigentliche Problem ist nicht das konkrete Beispiel des Datenschutzes, sonders das Prinzip des Normativismus, des Absolutheitsanspruchs der eigenen Werte! Wenn wir es schaffen, die Werte von dieser absoluten Position herunterzubekommen und sie zu normalen Meinungen werden zu lassen, haben wir keine Probleme mehr mit solchen Bewegungen – getrieben von jeglichem Moralverständniss. Das dies nicht überall durchzusetzen ist, ist mir klar. Doch ich finde es wertvoll und Grund genug, dafür zu kämpfen!

    sreyi eodem,
    Tsvah’iiyr Siukh!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.