Das Erkennen von Korrelationen durch Big Data kann viele Vorteile bringen, kann aber auch schnell zu fehlerhaften Entscheidungen führen. Foto: "Big Data" von NY - http://nyphotographic.com/, CC BY-SA 3.0 NY

Big Data

Was verbirgt sich hinter dem Buzzword?

Erstellt am 08.12.2016

Dieser Beitrag wird neben weiteren Artikeln Teil unserer neuen Broschüre "Datenschutz im digitalen Zeitalter" sein, die im Januar 2017 erscheinen wird.

 

Big Data ist zu einem beliebten Buzzword auf IT-Gipfeln rund um den Globus geworden. Was steckt dahinter?

 

Als Big Data werden Datenmengen bezeichnet, die zu groß, zu komplex, zu schnelllebig oder zu schwach strukturiert sind, um sie mit manuellen und herkömmlichen Methoden der Datenverarbeitung auszuwerten. Mit der systematischen Big-Data-Analyse riesiger Datenmengen sollen Unternehmensziele besser umgesetzt werden können und durch die erfassten Daten gewinnbringende Entwicklungen erkannt werden. Im besten Fall können dadurch Vorhersagen künftiger Ereignisse gemacht werden. In der Marktforschung, der Finanzindustrie, im Energiesektor (bedarfsorientierte Energieversorgung), im Gesundheitswesen, aber auch in der Kriminalistik und Terrorismusbekämpfung (Predictive Policing, Vorratsdatenspeicherung) wird die Analyse von Big Data an vielen Stellen zum Allheilmittel sozialer und technischer Probleme erklärt.

 

Das Erkennen von Korrelationen durch Big Data kann viele Vorteile bringen. In der Medizin beispielsweise können durch die Verknüpfung großer Datenmengen und deren statistische Auswertung bislang unerkannte Zusammenhänge zwischen Symptomen verschiedener Krankheiten oder Nebenwirkungen von Medikamenten gefunden werden. Das ist vor allem in Disziplinen hilfreich, in denen bisher viele Daten noch von Hand ausgewertet werden.

 

So hilfreich diese Erkenntnisse auch sein können, dürfen die Probleme von Big Data nicht übergangen werden. Die Ergebnisse solcher Big-Data-Analysen sollten keineswegs unkritisch als objektive und gesicherte Erkenntnisse verstanden werden. Größere Datenmengen müssen nicht qualitativ besser als geringere Mengen sein und nicht alle Daten sind gleichermaßen wertvoll. Bei der Auswertung von Big Data werden statistische Grundprinzipien wie das der repräsentativen Stichprobe oft vernachlässigt. Gerade bei der Sammlung von Daten von Privatpersonen ist die Nutzung personenbezogener Daten nicht zwangsläufig ethisch vertretbar, nur weil sie technisch möglich ist. Der Versuch, Unsicherheiten durch Big Data zu reduzieren, ist attraktiv. Wir dürfen aber nicht vergessen, dass das Aufzeigen von Zusammenhängen durch die Analyse enormer Datenmengen vor allem auf Wahrscheinlichkeiten und nicht auf Kausalitäten beruht. Korrelation ist nicht gleichbedeutend mit Kausalität. Zusammenfallende Ereignisse müssen nicht zwangsläufig in einem Ursache-Wirkungs-Zusammenhang stehen. Hier sei ein Beispiel genannt: Die Scheidungsrate des Bundesstaates Maine in den USA weist eine Korrelation von 99 Prozent zum Margarinekonsum in den Vereinigten Staaten auf. Die mathematische Ähnlichkeit der Datensätze könnte die Schlussfolgerung nahelegen, dass es einen Zusammenhang gibt, niemand würde aber tatsächlich den Margarinekonsum als Ursache der Scheidungen vermuten oder andersherum.

 

Mit Big Data können große Datenmengen schnell gewonnen werden und die statistische Auswertung ist Dank der Digitalisierung so einfach wie noch nie. Unter dem Druck der Masse an verfügbaren Daten werden oft Korrelation und Kausalität verwechselt. Durch die steigende Verfügbarkeit von Daten kommt es auch zu einer neuen Einstellung gegenüber Statistiken: Wenn die Menge der Daten ausreichend groß ist, reicht auch schon eine Korrelation als Grundlage für Entscheidungen. Die Verfügbarkeit von Korrelationen drängt die Ursachenforschung in den Hintergrund. Wenn vernachlässigt wird, ob Beziehungen zwischen Datensätzen zufällig sind, dann sind auch fehlerhafte Entscheidungen wahrscheinlicher.

 

In der vor Kurzem veröffentlichten Charta der Digitalen Grundrechte der Europäischen Union, an der ich mitwirken konnte, fordern wir deshalb, dass jede und jeder das Recht haben muss, nicht Objekt von automatisierten Entscheidungen zu sein. Sofern automatisierte Verfahren zu Beeinträchtigungen führen, muss ein Anspruch auf Offenlegung, Überprüfung und Entscheidung durch einen Menschen bestehen. Außerdem müssen bei der Verarbeitung von Big Data Anonymisierung und Transparenz über die Kriterien automatisierter Entscheidungen sichergestellt werden.

Kommentare

Keine Kommentare

Kommentar hinzufügen
*
*

*
CAPTCHA-Bild zum Spam-Schutz Wenn Sie das Wort nicht lesen können, bitte hier klicken.

*