Drei Missverständnisse bei der Debatte um Big Data im Wahlkampf

Vor allem nach der Trumpwahl wurde wieder viel über Big Data gesprochen und was die Auswirkungen auf den politischen Prozess sein kann. Und ich muss sagen, dass mich der Diskurs darum wahnsinnig nervt – nicht weil ich ihn für unwichtig halte – sondern weil er so falsch geführt wird. Das betrifft sogar Formate und Personen, die ich eigentlich sehr schätze. Der Anlass dieses Artikels ist deswegen die aktuelle Folge der „Lage der Nation„. Ulf und Philip sind aber nicht die einzigen, die die Denkfehler bezüglich Big Data machen, es ist aber so, dass ich mich immer dann besonders ärgere, wenn intelligente Menschen falsche Dinge sagen.

Deswegen hier drei Denkfehler (sicher nicht die einzigen), die regelmäßig auftauchen, wenn es um Fragen von Big Data geht.

1) Es geht nicht um Vorhersage individueller Handlungen oder Eigenschaften

Was man immer wieder hört, ist ein Satz wie: „… und anhand dieser Daten können die dann bestimmen, dass du Eigenschaft X hast, oder dich so und so verhalten wirst.“ Das ist schlicht falsch. Big Data und andere statistische Verfahren können nicht anhand von sachfremden Daten dein tatsächliches Verhalten oder irgendwelche Eigenschaften herauslesen. Was sie tun können ist, Wahrscheinlichkeiten zu bestimmen.

Am konkreten Beispiel: Big Data kann zwar nicht aus deinem Facebook-Verhalten schließen, dass du homosexuell bist und morgen Margarine kaufst, sie können aber sagen, dass du zu 86% Wahrscheinlichkeit homosexuell bist, und zu 65% an Margarine interessiert bist. Das mag jetzt pingelig klingen aber diesen Unterschied zu als einen wesentlichen zu verstehen ist wahnsinnig wichtig. Dieser Unterschied definiert sehr genau, was mit Big Data möglich ist und was nicht und führt zu den meisten falschen Vorstellungen, die in der Öffentlichkeit zu Big Data rumschwirren.

Leute, die diesen Unterschied nicht verstanden haben, machen sich darüber lustig, dass der Amazon- oder Facebook-Algorithmus ihnen schon wieder etwas vorgeschlagen hat, das sie gar nicht interessiert. Was diese Leute nicht verstehen, ist, dass es getargetete Werbung nicht auf sie als Individuum abgesehen hat. Dass die Algorithmen sie falsch eingeschätzt haben, ist den Betreibern nämlich völlig egal bzw. die Fehlerquote ist längst mit reingerechnet.

Um Big Data zu verstehen, muss man sich zunächst mal davon verabschieden, vom Individuum her zu denken. Du als Individuum – Du als Max Mustermann – spielst hier überhaupt keine Rolle. Der Erfolg eines Algorithmus wird nicht daran bemessen, ob du tatsächlich Himbeermarmelade magst oder nicht, sondern ob auf die Anzeige 2,0468 % mehr Leute regiert haben, als bei dem andern Algorithmus. Dass also eine Clicktroughrate von 14,5682 auf 16,615 erhöht wurde. Das klingt jetzt total langweilig und banal und gar nicht mehr so sexy. Das ändert sich aber etwas, wenn man weiß, dass das einen Umsatzplus von mehreren Millionen Euro bedeuten kann. Und während sich das Individuum kaputtlacht, weil es ja gar keine Himbeermarmelade mag, stört es den BigData-Analysten keineswegs, dass dieses Individuum zu den 83,385% gehört, die falsch getargetet wurden.

Diese Zusammenhänge lassen sich nicht auf individuelles Erleben mappen, was uns vor ein riesiges Verständnisproblem führt, denn wir sind es gewohnt, nur so zu denken. Überschriften wie „SIE KÖNNEN DEIN VERHALTEN VORHERSAGEN UND WISSEN ALLES ÜBER DICH!!“ sind zwar prima zu klicken, aber falsch und lenken von den echten Problemen bei Big Data ab.

Ebenfalls wenig hilfreich ist, dass der Diskurs in Deutschland vor allem von Datenschützern geführt wird. Das Individuum und seine informationellen Freiheitsrechte sind nämlich der Nagel den diese überall sehen, weil sie ja der Hammer dafür sind. Es ist zwar so, dass beim Sammeln der Daten für Big Data oft die informationelle Selbstbestimmung berührt wird, aber das ist höchstens ein Nebenproblem von Big Data. Den Big Data-Verwendern ist die Identität der Individuuen für fast alle Verwendungszwecke nämlich herzlich egal. Sie anonymisieren die Daten gerne und freiwillig (auch wenn das oft nicht so einfach ist, aber das ist ein anderes Thema), denn die Anonymisierung hat keinerlei Auswirkungen auf die Effektivität der Anwendung. (Zwar muss man für die meisten Anwendungen wieder die Augenpaare adressieren können, die Reidentifizierbarkeit ist also in gewissem Sinne wichtig, aber das muss nicht an die bürgerliche Identität geknüpft sein.)

Zwar kann man mit rigidem Datenschutz den legalen Einsatz von Big Data eindämmen. Aber ich glaube nicht, dass das wünschenswert ist, da Big Data erstens auch viele sehr nützliche und wichtige Anwendungsfelder hat und zweitens weil ich nicht glaube, dass es irgendein Problem löst, das wir mit Big Data haben. Das Gegenteil ist der Fall, wie ich hier ausführen will.

2) Das Problem ist nicht das Verwenden von Big Data, sondern der ungleiche Zugang zu Daten

„Wissen ist Macht“ wird gerne gesagt, aber leider ist auch das wieder irreführend. Um Wissen wirklich in Handlungsmacht zu übersetzen, muss man nicht nur über Wissen, sondern vor allem über einen Wissensvorsprung verfügen. Diese einfache Erkenntnis scheint in der Debatte um Big Data nicht wirklich angekommen zu sein. Immer wird völlig kontextfrei darüber sinniert, ob Big Data jetzt allgemein gut oder böse oder neutral ist. Dabei ist Big Data als erstes einmal eins: ein neues Werkzeug, im schlimmsten Fall eine Waffe und somit ist als erstes mal zu analysieren, wie es mit der Waffengleichheit aussieht.

Auf der Ebene der Algorithmen ist eine Waffengleichheit nicht ganz, aber doch ziemlich weitgehend gegeben, da viele und sogar die neusten und relevantesten Algorithmen für Big Data bis Machine Learning open source verfügbar sind. Die Algorithmen sind nicht der kritische Punkt.

Der Flaschenhals sind die Daten selbst. Der Zugang zu Daten – zu guten Daten, zu vielen Daten – ist sehr ungleich verteilt und folgt dabei einer ganz spezifischen Topografie. Es sind vor allem die großen Plattformbetreiber, die über die mit Abstand größten Datenschätze verfügen. Das wird ihnen in der Zukunft einen entscheidenden strategischen Vorteil verschaffen. Und darin besteht auch die Gefahr. Facebook zum Beispiel hätte mit Leichtigkeit den Ausgang der US-Wahl sehr gezielt beeinflussen können und zwar ohne, dass es aufgefallen, noch dass es nachweisbar gewesen wäre. Eine solche Macht in den Händen privater Unternehmen hat es seit Western Union und Rockefeller nicht mehr gegeben.

Ich halte die Gefahren von Big Data also für insofern eingrenzbar, wenn es ein gewisses demokratisches Gleichgewicht zwischen den Big Data einsetzenden Kontrahenten gibt, als auch wenn die Menschen ein hinreichendes Verständnis der Vorgänge haben und im besten Fall ebenfalls Tools an die Hand bekommen, um Manipulationsversuche aufzudecken, etc. (Einen Vorschlag habe ich hier gemacht).

Gerade wenn wir uns den US-Wahlkampf angucken, kann ich (obwohl ich sehr unzufrieden mit dem Ausgang bin) wenig problematisches am Einsatz von Big Data erkennen. Beide Kampagnen haben sehr gezielt hochaktuelle Verfahren eingesetzt. Die Bevölkerung kennt den Einsatz seit mindestens zwei Präsidentschaftswahlen. Mit Sicherheit wird es zwar Effizienzunterschiede zwischen den eingesetzten Modellen gegeben haben, aber das halte ich für im Rahmen des Vertretbaren. Am Ende war es – solange es keine Anzeichen für das Gegenteil gibt – ein Arms-Race auf Augenhöhe.

Wenn wir also über Big Data im Wahlkampf reden, sollten wir vor allem über Ungleichverteilung beim Zugang von Daten reden. Die Macht von Big Data kann immer nur so groß sein, wie der Wissensvorsprung, der sich daraus generiert. Der Rest sind Effzienzgewinne.

(Eine andere Frage ist der Umgang mit dem generierten Wissen und in wieweit es dazu genutzt werden kann, um böses zu tun. Menschen zu diskriminieren zum Beispiel. Das ist auch eine wichtige Debatte, aber hat mit dem Wahlkampfthema wenig zu tun.)

3) Bekämpfung durch Datenschutz ist eine gefährlich kurzsichtige Idee

Und hier sind wir wieder bei der deutschen Debatte (und hier ist die Debatte sehr deutsch), dass Big Data Problem mittels Datenschutzgesetzen in den Griff zu bekommen.

Es wird gerade so getan, als ob Big Data-Erkenntnisse über Deutsche nur in Deutschland erhoben werden können. Wir (jeder von uns) sind doch längst Teil von hunderten von Big Data-Verarbeitungen, die in Deutschland rechtlich zumindest schwierig wären. In hunderten von Rechenzentren werden unsere Daten gecruncht und wir werden jetzt schon ständig mit den Ergebnissen konfrontiert, vor allem anhand von Werbung. Das Einzige, was die Gesetzeslage bewirkt, ist, dass deutsche Unternehmen da nicht mitmachen dürfen.

Ähnliches gilt für den Wahlkampf. Es mag sein, dass die Gesetzeslage den Parteien es äußert schwer macht, überhaupt mit Big Data zu operieren. Aber das heißt ja nicht, dass es nicht zum Einsatz kommt.

In Zeiten, wo die AfD bei diversen Wahlkämpfen anonyme Schützenhilfe bekommt, indem sie Flyer, Anzeigen und Plakate aus dunklen Kanälen gesponsort bekommt und in Zeiten, in denen Russland mutmaßlich mittels gezielter Hackingangriffe und Veröffentlichungsaktionen in den amerikanischen Wahlkampf eingegriffen hat – in diesen Zeiten sollen wir uns darauf verlassen, dass unsere Gesetzeslage Big Data aus dem Wahlkampf raushalten wird?

Sagen wir so: Wäre ich Putin, wäre das genau mein Angriffwinkel auf die Bundestagswahl. Über dubiose Kanäle würde ich die AfD im Wahlkampf mit einer ausgefeilten Big Data-Kampagne flankieren.

Das ist vor allem deswegen erfolgversprechend, weil die Wahlkampflandschaft hierzulande im Gegensatz zur USA nicht auf Big Data eingestellt ist. Es wäre wie mit der Neutronenbombe zum Messerkampf zu kommen. Die anderen Parteien wären der zusätzlichen Effizienz hilflos ausgeliefert, denn sie dürfen ja nicht.

Der Datenschutz wäre am Ende eine wunderbare Waffe. Für Putin.

Dieser Beitrag wurde unter Algorithmenkritik, Das Neue Spiel, Kontrollverlust, Queryology veröffentlicht. Setze ein Lesezeichen auf den Permalink.

7 Kommentare zu Drei Missverständnisse bei der Debatte um Big Data im Wahlkampf

  1. Peter Lierhaus sagt:

    Danke Michael Seemann,
    das ist wirklich mal ein Blickwinkel, der mir bisher nicht sichtbar war.
    Aber es ist augenscheinlich sehr richtig.

    Peter Lierhaus

  2. Peter sagt:

    These: Durch Targeting wird die Werbung nicht nur zielgerichteter gestreut – sie wird auch verschärft. Wenn Werbung „zufällig“ ausgespielt wird (Werbeplakat auf der Straße), muss sie mit einem möglichst breiten Publikum kompatibel sein und kann daher nur oberflächlich bleiben.

    Mit Targeting kann ich aber deutlich tiefer einsteigen. Z. B. spezielle „Angst-Mach-Werbung“ für alle in der Gruppe „Impfgegner, die gerade ein Kind bekommen haben und wenig Geld verdienen“.

  3. Pingback: Datenschutz, Datensouveränität und digitale Nachlässe | digital.danach

  4. Pingback: Linkdump #26 | WZB Data Science Blog

  5. Pingback: Der Data Breakthrough - Du und die Medienpädagogik in der digitalen Krise? (v0.1) - Matthias Andrasch

  6. Oliver sagt:

    Dass BigData bei Werbung und Konsummessungen nicht auf den einzelnen abzielt und diesen damit u.U. bedroht, ist jetzt nichts neues. Jeder, der sich mal mit den Empfehlungen von Amazon beschäftigt hat, weiss das. Vom Konzept her ist das Errechnen von persönlichen Eigenschaften anhand Spielen und Facebook-Verhalten nichts wirklich anderes.

    Allerdings gibt es ja auch genug „auf den Einzelnen“ abzielende BigData-Analysen anhand Scoring – wie es zB verpflichten in China geplant ist oder Agenturen wie Schufa, Schober usw betreiben. Hier kann sehr schnell ein einzelnes Individuum aufgrund weitgehend unbeeinflussbarer Wohnort, Gruppenzugehörigkeit, Lebenssituation oder Verhalten in eine Klasse sortiert werden, die sein weiteres Leben ernsthaft negtiv beeinflussen kann (Kredite, Versicherungen, Käufe & Verträge). Hierzu fehlen mir leider Antworten in der Diskussion – Datentransparenz ist hier ja genau nicht sinnvoll aus der Sicht der Datenbesitzer (auf beiden Seiten!).

  7. Martin Däniken sagt:

    Was du schreibst geht mir sehr in die Richtung :
    „Wir sind nur die Wissenshaftler..
    .Alles andere regelnP olitike und Wähler.
    Die Wissenschaft ist neutral!“
    Wiedermal dieser Abstand zu einer persönlichen Verantwortung-mein subjektiver Eindruck,ok!
    Hmmm,mir fällt spontan die Retina-gesteuerte Werbung beim Minority-Report ein.
    „Du“ wirst identifiziert und wo immer du dich bewegst und wo entsprechende Werbehologramme vorhanden sind kriegste die persönliche auf dir abgestimmte Werbung vorgespielt…
    Irgenswoher haben die ja diese Daten gewonnen…

    deshalb nehme ich schon jetzt die „Anonymisierung“ von Daten nicht ernster als die Unternehmen!
    Wenn genügend Geld und rechtsanwaltliche Power und die Überzeugung keinen Schaden anzurichten vorhanden sind,
    geht einiges und wenn sich dann nur wenige mit der Datensicherheit auskennen (wollen),noch mehr!
    Und was den deutschen Hang zum Daten“uber“schutz angeht..denke ich an Leroy Jethro Gibbs Story über den Pferdehandel:
    Verhandel hart um das Beste Pferd,versaue den Deal und krieg das 2.Beste Pferd fürn Appel und ein Ei.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.