Drei Missverständnisse bei der Debatte um Big Data im Wahlkampf

Vor allem nach der Trumpwahl wurde wieder viel über Big Data gesprochen und was die Auswirkungen auf den politischen Prozess sein kann. Und ich muss sagen, dass mich der Diskurs darum wahnsinnig nervt – nicht weil ich ihn für unwichtig halte – sondern weil er so falsch geführt wird. Das betrifft sogar Formate und Personen, die ich eigentlich sehr schätze. Der Anlass dieses Artikels ist deswegen die aktuelle Folge der „Lage der Nation„. Ulf und Philip sind aber nicht die einzigen, die die Denkfehler bezüglich Big Data machen, es ist aber so, dass ich mich immer dann besonders ärgere, wenn intelligente Menschen falsche Dinge sagen.

Deswegen hier drei Denkfehler (sicher nicht die einzigen), die regelmäßig auftauchen, wenn es um Fragen von Big Data geht.

1) Es geht nicht um Vorhersage individueller Handlungen oder Eigenschaften

Was man immer wieder hört, ist ein Satz wie: „… und anhand dieser Daten können die dann bestimmen, dass du Eigenschaft X hast, oder dich so und so verhalten wirst.“ Das ist schlicht falsch. Big Data und andere statistische Verfahren können nicht anhand von sachfremden Daten dein tatsächliches Verhalten oder irgendwelche Eigenschaften herauslesen. Was sie tun können ist, Wahrscheinlichkeiten zu bestimmen.

Am konkreten Beispiel: Big Data kann zwar nicht aus deinem Facebook-Verhalten schließen, dass du homosexuell bist und morgen Margarine kaufst, sie können aber sagen, dass du zu 86% Wahrscheinlichkeit homosexuell bist, und zu 65% an Margarine interessiert bist. Das mag jetzt pingelig klingen aber diesen Unterschied zu als einen wesentlichen zu verstehen ist wahnsinnig wichtig. Dieser Unterschied definiert sehr genau, was mit Big Data möglich ist und was nicht und führt zu den meisten falschen Vorstellungen, die in der Öffentlichkeit zu Big Data rumschwirren.

Leute, die diesen Unterschied nicht verstanden haben, machen sich darüber lustig, dass der Amazon- oder Facebook-Algorithmus ihnen schon wieder etwas vorgeschlagen hat, das sie gar nicht interessiert. Was diese Leute nicht verstehen, ist, dass es getargetete Werbung nicht auf sie als Individuum abgesehen hat. Dass die Algorithmen sie falsch eingeschätzt haben, ist den Betreibern nämlich völlig egal bzw. die Fehlerquote ist längst mit reingerechnet.

Um Big Data zu verstehen, muss man sich zunächst mal davon verabschieden, vom Individuum her zu denken. Du als Individuum – Du als Max Mustermann – spielst hier überhaupt keine Rolle. Der Erfolg eines Algorithmus wird nicht daran bemessen, ob du tatsächlich Himbeermarmelade magst oder nicht, sondern ob auf die Anzeige 2,0468 % mehr Leute regiert haben, als bei dem andern Algorithmus. Dass also eine Clicktroughrate von 14,5682 auf 16,615 erhöht wurde. Das klingt jetzt total langweilig und banal und gar nicht mehr so sexy. Das ändert sich aber etwas, wenn man weiß, dass das einen Umsatzplus von mehreren Millionen Euro bedeuten kann. Und während sich das Individuum kaputtlacht, weil es ja gar keine Himbeermarmelade mag, stört es den BigData-Analysten keineswegs, dass dieses Individuum zu den 83,385% gehört, die falsch getargetet wurden.

Diese Zusammenhänge lassen sich nicht auf individuelles Erleben mappen, was uns vor ein riesiges Verständnisproblem führt, denn wir sind es gewohnt, nur so zu denken. Überschriften wie „SIE KÖNNEN DEIN VERHALTEN VORHERSAGEN UND WISSEN ALLES ÜBER DICH!!“ sind zwar prima zu klicken, aber falsch und lenken von den echten Problemen bei Big Data ab.

Ebenfalls wenig hilfreich ist, dass der Diskurs in Deutschland vor allem von Datenschützern geführt wird. Das Individuum und seine informationellen Freiheitsrechte sind nämlich der Nagel den diese überall sehen, weil sie ja der Hammer dafür sind. Es ist zwar so, dass beim Sammeln der Daten für Big Data oft die informationelle Selbstbestimmung berührt wird, aber das ist höchstens ein Nebenproblem von Big Data. Den Big Data-Verwendern ist die Identität der Individuuen für fast alle Verwendungszwecke nämlich herzlich egal. Sie anonymisieren die Daten gerne und freiwillig (auch wenn das oft nicht so einfach ist, aber das ist ein anderes Thema), denn die Anonymisierung hat keinerlei Auswirkungen auf die Effektivität der Anwendung. (Zwar muss man für die meisten Anwendungen wieder die Augenpaare adressieren können, die Reidentifizierbarkeit ist also in gewissem Sinne wichtig, aber das muss nicht an die bürgerliche Identität geknüpft sein.)

Zwar kann man mit rigidem Datenschutz den legalen Einsatz von Big Data eindämmen. Aber ich glaube nicht, dass das wünschenswert ist, da Big Data erstens auch viele sehr nützliche und wichtige Anwendungsfelder hat und zweitens weil ich nicht glaube, dass es irgendein Problem löst, das wir mit Big Data haben. Das Gegenteil ist der Fall, wie ich hier ausführen will.

2) Das Problem ist nicht das Verwenden von Big Data, sondern der ungleiche Zugang zu Daten

„Wissen ist Macht“ wird gerne gesagt, aber leider ist auch das wieder irreführend. Um Wissen wirklich in Handlungsmacht zu übersetzen, muss man nicht nur über Wissen, sondern vor allem über einen Wissensvorsprung verfügen. Diese einfache Erkenntnis scheint in der Debatte um Big Data nicht wirklich angekommen zu sein. Immer wird völlig kontextfrei darüber sinniert, ob Big Data jetzt allgemein gut oder böse oder neutral ist. Dabei ist Big Data als erstes einmal eins: ein neues Werkzeug, im schlimmsten Fall eine Waffe und somit ist als erstes mal zu analysieren, wie es mit der Waffengleichheit aussieht.

Auf der Ebene der Algorithmen ist eine Waffengleichheit nicht ganz, aber doch ziemlich weitgehend gegeben, da viele und sogar die neusten und relevantesten Algorithmen für Big Data bis Machine Learning open source verfügbar sind. Die Algorithmen sind nicht der kritische Punkt.

Der Flaschenhals sind die Daten selbst. Der Zugang zu Daten – zu guten Daten, zu vielen Daten – ist sehr ungleich verteilt und folgt dabei einer ganz spezifischen Topografie. Es sind vor allem die großen Plattformbetreiber, die über die mit Abstand größten Datenschätze verfügen. Das wird ihnen in der Zukunft einen entscheidenden strategischen Vorteil verschaffen. Und darin besteht auch die Gefahr. Facebook zum Beispiel hätte mit Leichtigkeit den Ausgang der US-Wahl sehr gezielt beeinflussen können und zwar ohne, dass es aufgefallen, noch dass es nachweisbar gewesen wäre. Eine solche Macht in den Händen privater Unternehmen hat es seit Western Union und Rockefeller nicht mehr gegeben.

Ich halte die Gefahren von Big Data also für insofern eingrenzbar, wenn es ein gewisses demokratisches Gleichgewicht zwischen den Big Data einsetzenden Kontrahenten gibt, als auch wenn die Menschen ein hinreichendes Verständnis der Vorgänge haben und im besten Fall ebenfalls Tools an die Hand bekommen, um Manipulationsversuche aufzudecken, etc. (Einen Vorschlag habe ich hier gemacht).

Gerade wenn wir uns den US-Wahlkampf angucken, kann ich (obwohl ich sehr unzufrieden mit dem Ausgang bin) wenig problematisches am Einsatz von Big Data erkennen. Beide Kampagnen haben sehr gezielt hochaktuelle Verfahren eingesetzt. Die Bevölkerung kennt den Einsatz seit mindestens zwei Präsidentschaftswahlen. Mit Sicherheit wird es zwar Effizienzunterschiede zwischen den eingesetzten Modellen gegeben haben, aber das halte ich für im Rahmen des Vertretbaren. Am Ende war es – solange es keine Anzeichen für das Gegenteil gibt – ein Arms-Race auf Augenhöhe.

Wenn wir also über Big Data im Wahlkampf reden, sollten wir vor allem über Ungleichverteilung beim Zugang von Daten reden. Die Macht von Big Data kann immer nur so groß sein, wie der Wissensvorsprung, der sich daraus generiert. Der Rest sind Effzienzgewinne.

(Eine andere Frage ist der Umgang mit dem generierten Wissen und in wieweit es dazu genutzt werden kann, um böses zu tun. Menschen zu diskriminieren zum Beispiel. Das ist auch eine wichtige Debatte, aber hat mit dem Wahlkampfthema wenig zu tun.)

3) Bekämpfung durch Datenschutz ist eine gefährlich kurzsichtige Idee

Und hier sind wir wieder bei der deutschen Debatte (und hier ist die Debatte sehr deutsch), dass Big Data Problem mittels Datenschutzgesetzen in den Griff zu bekommen.

Es wird gerade so getan, als ob Big Data-Erkenntnisse über Deutsche nur in Deutschland erhoben werden können. Wir (jeder von uns) sind doch längst Teil von hunderten von Big Data-Verarbeitungen, die in Deutschland rechtlich zumindest schwierig wären. In hunderten von Rechenzentren werden unsere Daten gecruncht und wir werden jetzt schon ständig mit den Ergebnissen konfrontiert, vor allem anhand von Werbung. Das Einzige, was die Gesetzeslage bewirkt, ist, dass deutsche Unternehmen da nicht mitmachen dürfen.

Ähnliches gilt für den Wahlkampf. Es mag sein, dass die Gesetzeslage den Parteien es äußert schwer macht, überhaupt mit Big Data zu operieren. Aber das heißt ja nicht, dass es nicht zum Einsatz kommt.

In Zeiten, wo die AfD bei diversen Wahlkämpfen anonyme Schützenhilfe bekommt, indem sie Flyer, Anzeigen und Plakate aus dunklen Kanälen gesponsort bekommt und in Zeiten, in denen Russland mutmaßlich mittels gezielter Hackingangriffe und Veröffentlichungsaktionen in den amerikanischen Wahlkampf eingegriffen hat – in diesen Zeiten sollen wir uns darauf verlassen, dass unsere Gesetzeslage Big Data aus dem Wahlkampf raushalten wird?

Sagen wir so: Wäre ich Putin, wäre das genau mein Angriffwinkel auf die Bundestagswahl. Über dubiose Kanäle würde ich die AfD im Wahlkampf mit einer ausgefeilten Big Data-Kampagne flankieren.

Das ist vor allem deswegen erfolgversprechend, weil die Wahlkampflandschaft hierzulande im Gegensatz zur USA nicht auf Big Data eingestellt ist. Es wäre wie mit der Neutronenbombe zum Messerkampf zu kommen. Die anderen Parteien wären der zusätzlichen Effizienz hilflos ausgeliefert, denn sie dürfen ja nicht.

Der Datenschutz wäre am Ende eine wunderbare Waffe. Für Putin.

Dieser Beitrag wurde unter Algorithmenkritik, Das Neue Spiel, Kontrollverlust, Queryology veröffentlicht. Setze ein Lesezeichen auf den Permalink.

9 Kommentare zu Drei Missverständnisse bei der Debatte um Big Data im Wahlkampf

  1. Pingback: Datenschutz, Datensouveränität und digitale Nachlässe | digital.danach

  2. Pingback: Linkdump #26 | WZB Data Science Blog

  3. Pingback: Der Data Breakthrough - Du und die Medienpädagogik in der digitalen Krise? (v0.1) - Matthias Andrasch

  4. Pingback: LdN039 Trump im Amt, Höcke im Sportpalast, NPD in Karlsruhe, Holm draußen – Nur die Kirschen

Schreibe einen Kommentar zu Peter Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht.