Was ist „Big Data“?

Was ist Big Data?

Von „Big Data“ ist oft und gerne die Rede, wenn es um neue Technologien, vor allem mit Bezug zu künstlicher Intelligenz geht. Malerblog.net wollten nun wissen, was hinter diesem klangvollen Digitalbegriff steckt, und haben Carsten Andrä, den geschäftsführenden Gesellschafter der C.A.T.S.-Soft GmbH, gefragt und folgende Antwort erhalten:

Carsten Andrä, geschäftsführender Gesellschafter C.A.T.S.-Soft GmbH

Als „Big Data“ wird zunächst eine Ansammlung großer Datenmengen bezeichnet. Der deutsche Begriff „Massendaten“ ist somit eine passende Übersetzung. Diesen großen Datenmengen ist meist gemein, dass die Daten an sich wenig strukturiert, das heißt in einem festen Datenschema abgebildet und komplex vom Aufbau her sind, also vielfältige Informationen beinhalten und sich meist sehr schnell ändern können, also zum Beispiel Echtzeitdaten darstellen. 

In der heute gebräuchlichen Verwendung bezeichnet „Big Data“ die Technologien, die in Zusammenhang mit der Sammlung und Auswertung oben genannter Datenmengen stehen.

Als Quellen für Big Data kommen heutzutage viele Systeme in Betracht, die laufend Daten aufzeichnen: Das kann zum Beispiel die Nutzung von Kreditkarten oder von Überweisungen im Zahlungsverkehr oder die Sammlung von Fitness- und Gesundheitsdaten durch Smartwatches oder Smartphones sein. Natürlich spielen auch vernetzte Häuser (smart-homes) einschließlich der Versorgungsdaten zum Beispiel digitale Strommessgeräte (smart-meter) oder vernetzte Fahrzeuge eine wesentliche Rolle. Auch Verkehrsüberwachungssysteme und Videokameras im öffentlichen und privaten Raum liefern Daten, die als Big Data bezeichnet werden können.  

Die Herausforderung besteht darin, diese Daten auszuwerten und daraus einen Nutzen, zumindest aber Schlussfolgerungen, zu ziehen. Dazu werden häufig verschiedene Quellen für Big Data miteinander verknüpft.

Je größer die Datenbestände sind, umso komplexer gestaltet sich die Analysearbeit, die bei sehr großen Datenmengen technisch gesehen viele klassische Datenbanksysteme nicht leisten können. Für die Analyse großer Datenmengen sind große Rechenleistungen erforderlich, um viele Datensätze mit gleichzeitig vielen Informationsfeldern, die auch aus unterschiedlichsten Datentypen (Texte, Zahlen, Bilder, Audiodaten usw.) bestehen können, auszuwerten. Diese sind heute in der Regel in cloudbasierten Rechenzentren implementiert. Dadurch können die Datenmengen gleichzeitig auf vielen Rechnern (Prozessoren) parallel verarbeitet werden. Auch der Ansatz von künstlicher Intelligenz und selbstlernenden Systemen spielt hierbei eine Rolle. Hierbei geht es zum Beispiel um die Erkennung bestimmter Muster in den Daten und den Ansatz die Menge der Daten auf intelligente Weise zu reduzieren ohne den Inhalt (die Schlussfolgerungen) zu verlieren, also wesentliche und unwesentliche Datenbestandteile zu erkennen.

Ein Beispiel für die Auswertung und Nutzung von Big-Data ist zum Beispiel im Bereich der Gesundheits- oder Pharmaforschung zu sehen. So können aus vielen, meist anonym erhobenen, Fitness- und Gesundheitsdaten Rückschlüsse auf mögliche Erkrankungen erhoben oder zum Beispiel anhand von vielen Daten aus Impfungen mögliche Nebenwirkungen analysiert und bewertet werden.

Ein weiteres Beispiel ist die Heranziehung von Zahlungsdaten, sozialen Daten über Wohnort usw. zu Scorings für die Kreditvergabe (Bonitätsprüfung) oder die Berechnung von Versicherungsbeiträgen (zum Beispiel KFZ- oder Krankenversicherung) anhand von Schadensfallanalysen.

Ein aktuell bekanntes Beispiel im Rahmen der Corona-Pandemie ist auch die Analyse von Mobilitätsdaten, zum Beispiel über Verkehrsüberwachung und Mobilfunkzellen zur Berechnung des Mobilitätsverhalten in der Gesellschaft.

Kritisch zu sehen ist, dass Big Data Anwendungen auch zur vollständigen Überwachung zum Beispiel im Rahmen des sogenannten social-scoring-Verfahrens in China oder die Erstellung von Persönlichkeits- und Bewegungsprofilen durch Geheimdienste genutzt werden können.

Ebenso wäre die gezielte Steuerung von Wahlergebnissen mit sogenannten Microtargeting Verfahren in großen Stil denkbar, was zum Beispiel über die Verknüpfung verschiedener Daten in sozialen Netzwerken wie zum Beispiel Facebook-Likes bereits 2016 im US-Wahlkampf durch das Unternehmen Cambridge-Analytica angewendet wurde.     

Auch wenn die Sammlung und Analyse von Big Data große Chancen zum Beispiel bei der Entwicklung neuer Medikamente oder der besseren Verkehrssteuerung bietet, so müssen doch immer auch der Schutz der Persönlichkeit des Einzelnen und die möglichen Missbrauchspotentiale beachtet werden.