Was ist Big Data?

Übersicht über Big Data

Big Data bestehen aus Petabytes (über 1 Million Gigabyte) und Exabytes (mehr als 1 Milliarde Gigabyte), im Gegensatz zu den Gigabytes, die für private Geräte üblich sind.

Mit der Entwicklung von Big Data wurden auch Rechenmodelle mit der Möglichkeit, sie zu speichern und zu verwalten, entwickelt. Zentralisierte oder verteilte Computing-Systeme bieten Zugriff auf Big Data. Zentralisiertes Computing bedeutet, dass die Daten auf einem zentralen Computer gespeichert und von Computing-Plattformen wie BigQuery verarbeitet werden.

Verteiltes Computing bedeutet, dass Big Data auf verschiedenen Computern gespeichert und verarbeitet werden, die über ein Netzwerk kommunizieren. Ein Software-Framework wie Hadoop ermöglicht die Speicherung der Daten und die Ausführung von Anwendungen zur Verarbeitung.

Anstatt Big Data für die Analyse aus einem verteilten System zu extrahieren, bietet die Verwendung von zentralisiertem Computing und der Analyse von Big Data an seinem Speicherort Vorteile. Statistiken sind für jeden Nutzer in Ihrem Unternehmen zugänglich, und sind in tägliche Workflows eingebunden, wenn sich Big Data an einem Ort befinden und von einer Plattform analysiert werden.

Datenanalyse als Service: Die wichtigsten Big-Data-Tools aus der Cloud

Amazon Web Services (AWS)

Mit Elastic MapReduce (EMR) bietet Amazon Web Services einen umfangreichen Big-Data-Service auf der hauseigenen Cloud-Plattform. Die dort verfügbaren AMIs (Amazon Machine Image) enthalten bereits ein bootfähiges Linux-Betriebssystem, Hadoop und weitere Software, die zum Betrieb des Clusters notwendig ist. Die Version 4.2.0 unterstützt neben Hadoop auch Ganglia, Hive, Hue, Pig, Mahout und Spark. Als Datenbanken stehen neben der NoSQL-Lösung DynamoDB und der relationalen Datenbank RDS auch das Big-Data-Warehouse Redshift zur Verfügung, das auf PostgreSQL basiert.

Mit Kinesis bietet der Hersteller zudem einen Service zur Echtzeitanalyse großer Mengen von Streaming-Daten; über AWS IoT (Beta) lassen sich Sensoren, Aktoren, Embedded Devices oder Wearables mit der Cloud-Plattform verbinden. Ergänzt wird das Angebot durch mehr als 300 Applikationen von Drittanbietern, die über den AWS Marketplace abgerufen werden können.

AWS Elastic MapReduce

Beim Aufsetzen eines Hadoop-Clusters in Amazon EMR kann man unter anderem die Cluster-Größe, die Software-Version und die installierenden Applikationen wählen. AWS Elastic MapReduce

Seit EMR-Version 4.1.0 lassen sich Cluster im laufenden Betrieb verkleinern. AWS Elastic MapReduce

Mit Version 4.2.0 bietet Amazon die Möglichkeit, EMR-Cluster in einer virtuellen Private Cloud (VPC Subnet) zu betreiben. AWS IoT

AWS IoT ermöglicht die Steuerung von Smart Devices über die Amazon-Cloud-Plattform.

Eine Hadoop-Instanz lässt sich auch manuell auf Knoten der Elastic Compute Cloud (EC2) einrichten. Zur Speicherung der Initialdaten nutzt man sinnvoller Weise Amazon S3, da der Datentransfer zwischen S3 und EC2 kostenlos ist. Dort legt man auch die Ergebnisse ab, bevor der Cluster heruntergefahren wird. Temporäre Daten hält man dagegen besser im Hadoop Distributed File System (HDFS) vor.

Amazon bietet eine 12-monatige Testphase, in der ein Kunde unter anderem 750 Stunden pro Monat eine EC2-Instanz und 5 GB Standard-S3-Speicher nutzen kann. Auch einige Big-Data-Anwendungen wie DynamoDB, AWS IoT und Redshift lassen sich kostenlos testen, nicht aber EMR.

Amazon Web Services - Leistungsumfang Big-Data-Analyse

Amazon Elastic MapReduce (EMR): Hadoop und zahlreiche Big-Data-Frameworks als Service (Hive, Hue, Pig, Hbase, Impala, Mahout, Spark)

Amazon Kinesis: Echtzeitanalyse von Streaming-Daten

Amazon Machine Learning: Erstellung von Vorhersagemodellen

Amazon Elasticsearch Service: Suche, Protokollanalyse und Datenvisualisierung

AWS IoT (Beta): Kommunikation mit Smart Devices

diverse Datenbanken / Warehouses (DynamoDB, RDS, Redshift)

Amazon Web Services - Fazit

Pro

+ kostenloser Datentransfer zwischen Speicher (S3) und Computing-Plattform (EC2)

+ wichtigste Systeme vorinstalliert

+ Hadoop-Cluster können bedarfsorientiert auf- und auch wieder abgebaut werden

Contra

- manuelle Hadoop-Installation aufwendig

- wenn Daten in S3 statt in HDFS gespeichert werden, ist die Latenz recht hoch

- EMR nicht im kostenlosen AWS-Kontingent enthalten

So macht Apple aus Siri und iCloud Big Data

Wie Internet-Unternehmen mit den Daten ihrer Mitglieder umgehen So macht Apple aus Siri und iCloud Big Data Seite: 2/3

Traditionelles Handwerk auf großer Stufenleiter

Mit welchen Anlagen und Betriebssystemen Apple diese Datenbestände verarbeitet, ist dem Unternehmen selbst nicht zu entlocken. Gewisse Hinweise lassen sich jedoch den Stellenanzeigen des Unternehmens entnehmen.

Das iOS 8 auf verschiedenen Displays. (Bild: Apple)

Im Dezember 2013 suchte Apple nach Informatikern mit Erfahrungen auf Big-Data-Plattformen wie „Hadoop“ zur Entwicklung komplexer und skalierbarer DW/BI-Lösungen. Vorausgesetzt wurden Kenntnisse in mehreren Programmiersprachen sowie Erfahrungen im Umgang mit Data Warehouses auf der Basis von Teradata, Oracle und Informatica.

Im Januar 2014 folgte eine Stellenanzeige für einen „Big Data Operations Engineer“ für das kalifornische Santa Clara. Zur Entwicklung standortbezogener, neuer iOS-Anwendungen sollten die Bewerber bereits Erfahrungen in der Hadoop-Cluster-Administration und Hadoop Mapreduce sowie mit CDH 4 oder Redhat Linux und Apache Webserver mitbringen, dazu Shellscripting und Programmierkenntnisse mit Java.

Anders als bei Google und Facebook: konventionelle Infrastruktur

Auch über die Hardware der Rechenzentren muss spekuliert werden. Allein für die USA betreibe Apple drei Server-Instanzen, so ein Beitrag in der Online-Community Reddit: Für die Westküste, die Ostküste und die übrigen US-Regionen, dazu eine unbekannte Anzahl weiterer Server-Instanzen für andere Länder und Regionen.

Die Server, so der Beitrag weiter, bestehen aus vier voll bestückten HP C7K Blade-Systemen mit jeweils acht Server-Blades zu jeweils 1 Terabyte RAM. Dies würde pro Instanz 32 Server-Blades mit 1.024 Kernen und 32 Terabyte Arbeitsspeicher ergeben, aktueller Marktwert gut 1 Million Dollar.

Die Daten befinden sich jedoch nicht lokal auf den Servern, sondern werden über ein SAN (Storage Area Network) abgerufen. Fällt ein Server aus, lässt er sich ohne Beeinträchtigung der Verfügbarkeit des Gesamtsystems austauschen. Zum Betriebssystem der Server wurden keine Angaben gewagt, statt dem OS X Server aus dem eigenen Haus hielt man eine andere Unix-Variante oder Linux für wahrscheinlicher.

(ID:42845934)

 

Leave a Reply

Your email address will not be published. Required fields are marked *