Big Data

Volume: Das prominenteste und wohl auch größte soziale Netz Facebook verzeichnet weltweit über eine Milliarde Nutzer, von denen monatlich über 600 Millionen über ein mobiles Endgerät auf das soziale Netz zugreifen. Pro Minute generieren die aktiven Nutzer in Facebook über 650.000 verschiedene Inhalte oder verteilen ca. 35.000 „Likes“ an Hersteller oder Organisationen [6]. Weitere Beispiele für das erzeugte Volumen sind die mehr als 200 Millionen Emails, die pro Minute verschickt werden oder die 175 Millionen Kurznachrichten bzw. Tweets, die über Twitter von den über 465 Millionen Accounts pro Tag gepostet werden. Diese enorme Ansammlung an Daten stellt für traditionelle Datenbanksysteme eine Herausforderung dar. Es gibt zwar bereits Datenbanksysteme im Petabyte Bereich, diese werden jedoch schnell teuer und daher besteht hier die Herausforderung abzuwägen, welchen Wert Daten haben und ob diese die Kosten für große Datenbanksysteme aufwiegen.

Velocity: Der Aspekt Geschwindigkeit kann in zweierlei Hinsicht betrachtet werden. Erstens bezieht sich dies auf die enorme Rate, mit der Daten aktuell in den verschiedensten Anwendungsfeldern erzeugt werden. Zweitens muss diese rasch wachsende Datenmenge auch zeitnah weiterverarbeitet werden, um möglichst schnell darauf reagieren zu können. Je nach Anwendung kann dies bis in den Minuten oder gar Sekundenbereich gehen. Pro Minute werden zum Beispiel über Google mehr als zwei Millionen Suchanfragen abgesetzt, über Amazon mehr als 80000 Dollar umgesetzt oder in YouTube 30 Stunden Videomaterial hochgeladen und 1,3 Millionen Videos konsumiert.

Variety: Die Vielzahl an Daten ist der wichtigste Aspekt in der Definition von Big Data. Die stark unterschiedlichen und oft nicht strukturierten Daten stellen gerade für traditionelle Datenbanksysteme ein Problem dar und können nicht effizient verarbeitet werden. In traditionellen relationalen Datenbanksystemen werden Datensätze mit Hilfe von Relationen abgespeichert. Dies kann man sich vereinfacht als Tabelle vorstellen, in der jede Zeile einem Datensatz entspricht. Die abzuspeichernden Daten müssen dazu eine Struktur besitzen. Ein Beispiel für strukturierte Daten könnten Kundenstammdaten sein (siehe linke Spalte in Abbildung 2). Halbstrukturierte Daten besitzen zwar auch bis zu einem gewissen Grad eine Struktur, jedoch besitzen sie auch einen unstrukturierten Teil. Ein Beispiel hierfür könnten Email Nachrichten sein. Der Kopf der Nachricht besitzt eine klare Struktur wie Absender, Adressat oder Betreff. Der Rumpf der Nachricht jedoch kann jeglichen Inhalt oder auch beliebige Anhänge enthalten und ist daher ohne Struktur. Im Rahmen von Big Data werden jetzt alle vorhandenen Daten, ob strukturiert oder nicht, zusammengefasst und gemeinsam analysiert. Das hierdurch erzeugte, in sich unstrukturierte Datenkonglomerat kann in drei Kategorien klassifiziert werden. Die erste Kategorie enthält Daten, die aus der Kommunikation zwischen Personen entstehen. Beispiele hierfür wären Daten aus sozialen Netzen oder auch Web Protokolldateien. Die zweite Kategorie enthält Daten aus der Kommunikation zwischen Personen und Diensten oder Maschinen. Beispiele hier wären Daten aus E-Commerce Anwendungen oder auch Daten aus der Nutzung bestimmter Geräte wie zum Beispiel Geldautomaten. In der dritten Kategorie schließlich finden sich Daten zwischen Diensten oder Maschinen wie zum Beispiel Sensordaten, GPS Positionsinformationen oder Überwachungsbilder.

Was ist Big Data?

Big-Data-Architektur

Wie bei der Architektur im Bauwesen bietet die Big-Data-Architektur einen Entwurf der grundlegenden Struktur, wie Unternehmen ihre Daten verwalten und analysieren. Die Big-Data-Architektur bildet die Prozesse ab, die für die Verwaltung der großen Datenmengen auf ihrem Weg durch die vier grundlegenden „Schichten“ erforderlich sind: von den Datenquellen über die Datenspeicherung und die Big-Data-Analyse bis zur Verbrauchsschicht, in der die analysierten Ergebnisse als Business Intelligence dargestellt werden.

Big-Data-Analysen

Dieser Prozess ermöglicht eine aussagekräftige Datenvisualisierung mithilfe von Datenmodellierung und Algorithmen, die speziell auf die Merkmale von Big Data zugeschnitten sind. In einer detaillierten Studie und Umfrage der MIT Sloan School of Management wurden über 2.000 Führungskräfte zu den Erfahrungen ihres Unternehmens mit der Analyse von Big Data befragt. Es überrascht nicht, dass diejenigen, die sich für die Entwicklung von Big-Data-Managementstrategien einsetzten und diesen Prozess vorantrieben, die messbar besten Geschäftsergebnisse erzielten.

Big Data und Apache Hadoop

Stellen Sie sich zehn Zehn-Centmünzen in einer einzigen großen Schachtel vor, die mit 100 Fünf-Centmünzen vermischt sind. Stellen Sie sich dann zehn kleinere Schachteln nebeneinander vor, jede mit zehn Fünf-Centmünzen und nur einer Zehn-Centmünze gefüllt. In welchem Szenario wird es einfacher sein, die Zehn-Centmünzen zu finden? Hadoop funktioniert im Wesentlichen nach diesem Prinzip. Es handelt sich um ein Open-Source-Framework, mit dem sich eine verteilte Verarbeitung großer Datenmengen über ein Netzwerk mit vielen verbundenen Computern verwalten lässt. Anstatt also einen großen Computer für die Speicherung und Verarbeitung aller Daten zu verwenden, bündelt Hadoop mehrere Computer zu einem fast unendlich skalierbaren Netzwerk und analysiert die Daten parallel. Dieser Prozess verwendet typischerweise ein Programmiermodell namens MapReduce, das die Verarbeitung großer Datenmengen koordiniert, indem es die verteilten Computer aufeinander abstimmt (Marshalling).

Data Lakes, Data Warehouses und NoSQL

Für die Speicherung strukturierter Daten werden herkömmliche SQL-Datenbanken im Stil von Tabellenkalkulationen verwendet. Unstrukturierte und halbstrukturierte Big Data erfordern jedoch besondere Speicher- und Verarbeitungsparadigmen, da sie sich nicht für eine Indizierung und Kategorisierung eignen. Data Lakes, Data Warehouses und NoSQL-Datenbanken sind allesamt Daten-Repositorys, mit denen nicht herkömmliche Datensätze verwaltet werden. Ein Data Lake ist ein riesiger Pool von Rohdaten, die noch verarbeitet werden müssen. Ein Data Warehouse ist ein Repository für Daten, die bereits für einen bestimmten Zweck verarbeitet wurden. NoSQL-Datenbanken bieten ein flexibles Schema, das an die Art der zu verarbeitenden Daten angepasst werden kann. Jedes dieser Systeme hat seine Stärken und Schwächen. Viele Unternehmen verwenden eine Kombination dieser verschiedenen Daten-Repositorys, um ihre Anforderungen zu erfüllen.

In-Memory-Datenbanken

Herkömmliche festplattenbasierte Datenbanken wurden mit Blick auf SQL und relationale Datenbanktechnologien entwickelt. Sie können zwar große Mengen strukturierter Daten handhaben, sind jedoch nicht dafür ausgelegt, unstrukturierte Daten optimal zu speichern und zu verarbeiten. Bei In-Memory-Datenbanken erfolgt die Verarbeitung und Analyse vollständig im Arbeitsspeicher (RAM), anstatt die Daten von einem festplattenbasierten System abrufen zu müssen. Auch In-Memory-Datenbanken basieren auf verteilten Architekturen. Das bedeutet, dass sie – im Vergleich zu festplattenbasierten Datenbankmodellen mit einem Knoten – durch eine Parallelverarbeitung weitaus höhere Geschwindigkeiten erreichen können.

Big Data

Big Data

Als Big Data werden große Datenmengen bezeichnet, die aus unterschiedlichen Quellen, wie dem Internet, der Wirtschaft, dem Gesundheitswesen, aber auch aus sozialen Medien stammen. Diese Datenmengen werden in sogenannten Big-Data-Analysen gespeichert, verarbeitet und ausgewertet, um wichtige Informationen und Erkenntnisse (beispielsweise für die Wirtschaftswissenschaft und Politikberatung) zu erlangen.

Eigenschaften

5 Merkmale sind für Big Data charakteristisch:

1. Volume:

Beschreibt das enorme Datenvolumen. Um Big Data analysieren zu können, müssen riesige Datenmengen gespeichert und verarbeitet werden.

2. Velocity (Geschwindigkeit):

Bezeichnet die Geschwindigkeit, mit der Daten entstehen. Durch die fortschreitende Digitalisierung und die steigende Zahl an mobilen Endgeräten stehen immer mehr Daten in immer kürzerer Zeit zur Verfügung.

3. Variety (Vielfalt):

Es gibt eine Vielzahl von unterschiedlichen Datenquellen und –formen. Daten können strukturiert, semi-strukturiert oder unstrukturiert sein und zum Beispiel als Audio- oder Videodatei vorliegen.

4. Veracity (Wahrhaftigkeit):

Beschreibt die Datenqualität, insbesondere in Bezug auf Authentizität, Vollständigkeit und Mehrdeutigkeit. Um eine hohe Qualität und Vertrauenswürdigkeit der Daten zu gewährleisten, müssen besondere Informationsextraktionsverfahren angewandt werden.

5. Value (Wert):

Steht für den Mehrwert, der durch die Analyse aller anfallenden Daten erzeugt wird. Durch zielgerichtete Auswertungen können aus vorhandenen Daten neue Informationen gewonnen und Vorhersagen getroffen werden.

Nutzung von Big-Data

Die Datenquellen, die derzeit für ökonomische Big-Data-Analysen genutzt werden, sind 35 Prozent administrativer Art, 22 Prozent stammen aus Statistikbüros und 15 Prozent basieren auf Umfragen. Neuere Datenquellen wie Sensoren (13 Prozent), Konsumentendaten (9 Prozent) und soziale Medien (7 Prozent) spielen noch eine eher untergeordnete Rolle.

Derzeit ist die Hälfte der in den Big-Data-Projekten verwendeten Datensätze offen oder halb-offen, das heißt die Nutzung erfordert eine Registrierung.

Formen der Big-Data-Analyse

Vorrangig fokussiert sich die Forschung auf deskriptive Analysen (mehr als 70 Prozent). Die zweithäufigste Analyseart ist laut einer Studie die Trendanalyse. Neuere Formen wie Text und Sentiment Mining sind noch nicht weit verbreitet. Text Mining extrahiert analysierbare Informationen aus Texten (z.B. Worthäufigkeiten), Sentiment Mining fängt Stimmungen zu einem Thema ein und kategorisiert Inhalt etwa in positiv oder negativ oder auf einer Werteskala. Das ermöglicht beispielsweise die Analyse der tatsächlichen Reaktion der Bevölkerung auf eine bestimmte politische Maßnahme, denn online äußern sich Menschen unter Umständen ehrlicher als in einer direkten Umfrage. Eine weitere, immer häufiger genutzte Form der Big-Data-Analyse ist das sogenannte Nowcasting. Dabei werden Informationen genutzt, die früher oder häufiger zur Verfügung stehen als die eigentliche Variable des Interesses. Es liefert damit eine sehr zeitnahe Prognose, die als „early estimate“ dienen kann. Google-Suchanfragen nach Begriffen wie „Arbeitsamt“ oder „Arbeitslosengeld beantragen“ werden etwa analysiert, um eine zeitnahe Aussage über die Entwicklung des Arbeitsmarktes zu treffen.

Anmerkungen

Generell eignen sich Big-Data-Analysen, um die traditionellen Statistiken zu ergänzen. Abstriche müssen bei der Kausalität der Analysen gemacht werden. Oft legen Big-Data-Analysen lediglich Korrelationen offen.

Die möglicherweise größte Herausforderung für den Wissenschaftler besteht darin, relevante von vorhandenen Daten unterscheiden zu können.

Quelle: Barbara Engels in IW-Kurzberichte 88.2016

 

Leave a Reply

Your email address will not be published. Required fields are marked *