Big Data: seine Zukunft und sein Nutzen

Inzwischen sollten Sie wissen, was Big Data ist, wie es entstanden ist, wo es verwendet wird und warum es nützlich ist. Aber wie sieht es mit der Zukunft der Big-Data-Analyse aus? Wird Big Data die Welt verändern? Oder wird es in ein paar Monaten vergessen sein?

Ich habe einige der populärsten Prognosen über Big Data zusammengestellt, damit Sie wissen, was Sie in Zukunft von Big Data erwarten können.

1. Das Datenvolumen wird weiter zunehmen

Big-Data-Experten gehen davon aus, dass das Volumen der erzeugten Daten exponentiell wachsen wird. Laut dem IDC-Bericht “Data Age 2025” könnte die Datenmenge bis zum Jahr 2025 175 Zettabyte erreichen. Das ist 40-mal mehr als das Datenvolumen im Jahr 2013.

2. Das maschinelle Lernen wird sich weiter entwickeln

Wie Wei Li, Vice President und General Manager von Intel, sagte, wird das maschinelle Lernen mit jedem Jahr ausgefeilter. Es wird in selbstfahrenden Autos, Geräten zur Betrugserkennung und Big Data genutzt, und die Einsatzmöglichkeiten sind längst nicht ausgeschöpft. Der Grund dafür ist, dass das maschinelle Lernen von der Menge der eingegebenen Daten abhängt, so dass die Genauigkeit der Lernergebnisse mit der wachsenden Datenmenge zunimmt.

Außerdem war das maschinelle Lernen für die meisten Unternehmen lange Zeit nicht verfügbar, da Open-Source-Plattformen diesen Bereich dominierten. Das bedeutet, dass Unternehmen, die maschinelles Lernen in ihre Prozesse implementieren wollten, die Lösungen selbst konfigurieren mussten, und die meisten von ihnen litten unter mangelnden Kenntnissen in diesem Bereich. Dies änderte sich, als kommerzielle Anbieter begannen, ihre eigenen erschwinglichen Lösungen zu entwickeln, die nicht allzu viel Konfigurationsaufwand erfordern. Anwendungen und Plattformen für maschinelles Lernen haben bis März 2019 ca. 14,4 Milliarden US-Dollar an Fördermitteln erhalten, und diese Zahlen steigen mit der Nachfrage.

3. Big-Data-Experten werden sehr gefragt sein

Positions like chief data officer and data scientist are relatively new and have only really existed since the massive implementation of machine learning and big data.

Ein guter Chief Data Officer oder auch ein Data Scientist ist wegen seines Know-hows wertvoll. Beide müssen mit einer breiten Palette von Themen vertraut sein, darunter Programmiersprachen, Algorithmen für maschinelles Lernen, Techniken der Datenverarbeitung sowie Datenplattformen und -tools. Als Spezialisten müssen sie die neuesten Trends kennen und wissen, wie man sie zur Lösung bestimmter Aufgaben einsetzt, was Zeit und Erfahrung erfordert. Diese beiden Faktoren bedeuten zwar, dass Spezialisten teuer sein können, aber sie können Ihrem Unternehmen potenziell einen erheblichen Gewinn bringen. Deshalb könnte es eine gute Idee sein, schon jetzt mit der Suche nach einem Spezialisten zu beginnen.

4. Schnelle und verwertbare Daten werden in Zukunft immer häufiger gebraucht

Der Wettbewerb zwischen den Unternehmen bedeutet, dass sie bahnbrechende Entscheidungen treffen müssen, bevor ihre Konkurrenten die Möglichkeiten überhaupt erkennen. Big data macht es einfacher, diese Chancen zu sehen und zu nutzen.

Wenn wir von Datenanalyse sprechen, auch wenn es um maschinelles Lernen geht, meinen wir in der Regel die Analyse im Batch-Modus (die Daten werden gesammelt und gemeinsam einem Algorithmus übergeben, damit dieser uns wertvolle Informationen als Ausgabe liefert). Das bedeutet jedoch nicht, dass wir in dem Moment, in dem wir die Daten erhalten, eine Entscheidung treffen können - eine endgültige Analyse braucht Zeit.

Schnelle Daten ermöglichen eine Verarbeitung in Echtzeit - sobald sie in unseren Datenbanken erscheinen. So können Veränderungen in den Datenströmen sofort analysiert werden, um schnell darauf reagieren zu können. Das ist ein echter Wendepunkt.

Verwertbare Daten sind das Ergebnis der Big-Data-Analyse. Wenn man eine große Menge an verschiedenen Datentypen erhält, kann man kaum etwas damit anfangen. Aber nach der Verarbeitung mit Big-Data-Analysetools kann man Informationen gewinnen, die dabei helfen, fundierte und rationale Entscheidungen zu treffen.

Einigen Experten zufolge könnten Big Data in Zukunft sogar durch schnelle und verwertbare Daten ersetzt werden.

5. Immer mehr Unternehmen werden Ihre Daten monetarisieren

Überall werden Daten gesammelt, von Lebensmittelgeschäften bis hin zu Websites und Anwendungen, und alle diese Daten können als weitere Einnahmequelle an andere Unternehmen verkauft werden. Die Nachfrage nach dieser Art von Daten ist groß und scheint nicht abzunehmen.

6. Zur Datenanalyse ist kein Analyst mehr nötig

Der Bedarf an Datenanalyse ist groß, aber wie bereits erwähnt, mangelt es in diesem Bereich an Experten. Es ist sehr wahrscheinlich, dass Anbieter ihren Kunden Lösungen anbieten werden, die weit weniger technische Kenntnisse erfordern.

7. Big Data könnte die Debatte über den Klimawandel bereichern

Zusätzliche Big-Data-Analysen können Wissenschaftlern helfen, ihr Verständnis des Klimawandels und seiner Ursachen und Auswirkungen zu vertiefen. Dies könnte bei künftigen evidenzbasierten politischen Debatten hilfreich sein.

8. Big Data könnte helfen, Heilmittel für Infektionskrankheiten zu finden

Das Gesundheitswesen ist einer der Hauptanwender von Big Data. Einige Wissenschaftler glauben, dass nach der Auswertung großer Mengen medizinischer Daten neue Heilmittel viel schneller als erwartet gefunden werden könnten.

Sie könnten Recht haben, aber die Umsetzung steht vor zwei großen Problemen. Erstens betrug das Datenvolumen der klinischen Aufzeichnungen allein im Jahr 2019 bei ca. 170 Exabyte, und die geschätzte jährliche Zunahme liegt bei 1,2 bis 2,4 Exabyte. Das sind viele Daten, und die Herausforderung besteht darin, sie an einem Ort zu sammeln und zu speichern. Eine weiteres Problem besteht darin, dass Forschungseinrichtungen den Entdeckungsprozess durch komplizierte Patentgesetze verlangsamen können.

9. Natural language processing (NLP) wird in größerem Umfang eingesetzt werden

Die Verarbeitung der natürlichen Sprache wird mit ihrer Weiterentwicklung sowohl erschwinglicher als auch benutzerfreundlicher. Einige Experten sagen voraus, dass wir in naher Zukunft keinen Code mehr verwenden müssen, um mit intelligenten Systemen zu interagieren.

Unternehmen können schon jetzt von NLP profitieren, indem sie ihren Kunden intelligente Chatbots zur Verfügung stellen, die schnell Informationen liefern können, wie es ein menschlicher Mitarbeiter tun würde. Aus der Analyse der verbalen Interaktionen zwischen dem Kunden und dem Unternehmen können die Vermarkter auch erkennen, was der Kunde über die Marke denkt.

10. Cybersicherheit bleibt eine Herausforderung

Je mehr Daten gespeichert werden, desto schwieriger ist es, sie zu schützen. Unternehmen, die Big Data nutzen, werden mit großen Herausforderungen im Bereich der Cybersicherheit konfrontiert, da die Verwendung zusätzlicher Softwareprodukte auch Cyberkriminellen mehr Möglichkeiten bietet, Daten zu stehlen.

11. Immer mehr Daten werden in die Cloud verlagert

Da das Datenvolumen wächst, werden Unternehmen vor der Wahl stehen, entweder Datenspeicher mit mehr Kapazität einzurichten oder das Problem der Datenspeicherung den Cloud-Diensten zu überlassen. In Anbetracht der Tatsache, dass Cloud-Dienste großen Speicherplatz zu erschwinglichen Preisen bieten, ohne dass die Hardware gewartet werden muss, gehen wir davon aus, dass sich die meisten Unternehmen für die zweite Möglichkeit entscheiden werden. Dies gilt vor allem deshalb, weil Sie bei Mangel an Speicherplatz keine weitere Hardware einrichten müssen, sondern nur Ihren Plan zu erweitern brauchen.

12. Big Data wird Forscher nicht ersetzen

Es liegt auf der Hand, dass die Big-Data-Analyse viel mehr Informationen liefern kann als herkömmliche Forschungsmethoden, und diese Informationen werden präziser und wertvoller sein. Das Hauptproblem ist jedoch, dass wir einer Maschine beibringen können, Muster und Korrelationen zu finden, aber wir können ihr nicht beibringen, Zusammenhänge so gut zu verstehen wie ein Mensch. Big-Data-Experten werden den Forschern also weiterhin zur Seite stehen, aber sie nicht ersetzen können.

13. In der Zukunft könnten Data-Science-Kenntnisse genauso verbreitet sein, wie heute Excel-Kenntnisse

Andy Monfried, CEO und Gründer von Lotame, geht davon aus, dass Big-Data-Apps mit einer benutzerfreundlichen Oberfläche entstehen werden, so dass fast jeder in der Lage sein wird, große Datenmengen zu analysieren, und in Zukunft zur Alltagsroutine gehören könnte.

14. Big Data wird mit dem Internet der Dinge (IoT) integriert sein

Unternehmen sind ständig bestrebt, mehr Gewinn aus ihren Produkten zu ziehen, und die Datengenerierung ist eine Möglichkeit dazu. IoT-Geräte werden wahrscheinlich viele Informationen über Nutzer und ihre Umgebung sammeln. Diese Daten können dann innerhalb des Unternehmens analysiert werden, um das Kundenerlebnis zu verbessern oder verkauft zu werden.

15. Immer mehr Daten werden analysiert und für die Entscheidungsfindung genutzt

99,5 % der gesammelten Daten werden nie analysiert oder in irgendeiner Weise verwendet. Dies ist ein großer Verlust für Unternehmen, die diese Daten erfassen. Mit der Entwicklung von Big Data und maschinellem Lernen wird dieser Prozentsatz definitiv sinken. Data Scientists werden definitiv Möglichkeiten finden, diese 99,5 % zu nutzen.

16. Unternehmen, die Big Data nutzen, werden weniger Ausgaben haben

Laut Umfragen von Syncsort und NewVantage konnten 59,4 % der befragten Unternehmen durch Big-Data-Analysen ihre Ausgaben senken. 66,7 % der Unternehmen hatten Big Data speziell zu diesem Zweck eingesetzt.

17. Data wird das Interesse an der Blockchain-Technologie erneuern

Große Datenmengen bringen Sicherheitsbedenken mit sich, und die Blockchain könnte dafür genutzt werden, diese zu lösen. In naher Zukunft könnte das Interesse an der Blockchain-Technologie für die Datensicherheit zunehmen.

18. Unternehmen werden weitere Werkzeuge zur Datenanalyse verwenden

Die Werkzeuge zur Datenanalyse sind noch neu, und manchmal kann ein einziges Softwareprodukt nicht alle Anforderungen eines bestimmten Unternehmens erfüllen. So kann eine Lösung beispielsweise sehr gut für die Arbeit mit großen Datenmengen geeignet sein, aber keine Funktionen für die schnelle Datenanalyse bieten, während eine andere Lösung zwar Fast Data verarbeiten kann, aber keine benutzerfreundliche Benutzeroberfläche aufweist.

Aus diesem Grund werden Unternehmen verschiedene Anwendungen kombinieren, um den größtmöglichen Nutzen zu erzielen. Laut Gartner verwenden einige Unternehmen bereits mehr als eine “Enterprise Standard”-Anwendung.

19. Erwarten Sie eine breitere Nutzung der Data-Fabric-Architektur

Data Fabric ist eine Architektur, die zusammensetzbare Daten und Analysen sowie eine Vielzahl ihrer Komponenten unterstützt. Zu den Vorteilen gehören ein um 30 % verringerter Zeitaufwand für das Integrationsdesign, eine um 30 % reduzierte Bereitstellungszeit und ein um 70 % geringerer Wartungsaufwand. Data Fabric kann auch die vorhandenen Fähigkeiten und Technologien von Data Hubs, Data Lakes und Data Warehouses nutzen. All dies zusammen mit der Fähigkeit, neue Ansätze und Tools für die Zukunft einzuführen, lässt kaum einen Zweifel daran, dass diese Architektur sich weit verbreiten wird.

20. Die DSGVO wird von großer Bedeutung bleiben

Initiativen zur Data-Governance haben ihre Aktivitäten nicht verringert. Die Datenschutz-Grundverordnung hat die Kunden zu den Eigentümern aller von ihnen erstellten Informationen gemacht, und sie können entscheiden, an welche Unternehmen sie ihre Daten weitergeben wollen. Wenn sich ein Unternehmen nicht korrekt verhält, können sie zu einem Konkurrenten wechseln, was zu Umsatzeinbußen führt.

Big Data ist auf Kunden angewiesen, daher müssen Unternehmen die DSGVO und lokale Vorschriften einhalten, nicht nur, um Sanktionen zu vermeiden, sondern auch, um ihre Dateneinnahmen zu sichern.

“Big Data as a Service” gehört die Zukunft - nur wie sieht die aus?

Gesponsert

Daten in Bewegung “Big Data as a Service” gehört die Zukunft - nur wie sieht die aus?

Um in der heutigen Welt konkurrieren und gewinnen zu können, gilt es alles jederzeit zu optimieren. Dazu gehören auch Software-Architekturen, die immer mehr Kernprozesse und -aspekte des Business tragen. Denn die Kundenerwartungen wurden und werden von „Digital Natives” gesetzt – Unternehmen, die von Grund auf auf modernen Plattformen aufbauen. Skalierung? Kein Problem!

Gesponsert von Confluent Germany GmbH

Die Erwartungshaltung an digitale Kundenerlebnisse und vollständig integrierte Echtzeitabläufe passt nicht mit Daten- und Infrastruktur-Silos zusammen. Daten müssen über das komplette Unternehmen hinweg kontinuierlich gesammelt, verarbeitet und in Applikationen reaktiv genutzt werden.

Für Unternehmen geht es dabei nicht nur um Automatisierung, sondern um eine ganzheitliche Neuausrichtung des Geschäfts. Das bedeutet: Während im Frontend nachhaltige digitale Kundenerlebnisse geschaffen werden, muss das Backend hochentwickelte, software-gesteuerte Abläufe in Echtzeit umsetzen können.

Endlich Echtzeit?

Wir können uns also darauf einigen, dass Kundenerfahrungen am Frontend und die Backend-Abläufe eines Unternehmens Aktivitäten sind, die permanent und in Echtzeit stattfinden. Das aktuelle Paradigma für die Dateninfrastruktur unterstützt jedoch keinen kontinuierlichen Echtzeit-Datenfluss. Das Geschäft ist Echtzeit – unsere Daten sind es nicht.

Ein gutes Beispiel hierfür ist das Telefonat mit der Taxizentrale versus der Live-Verfolgung des Taxis per App. Wir erwarten den genauen Standort des Taxis und eine Änderung der Ankunftszeit aufgrund einer roten Ampel in Echtzeit sehen zu können.

Im Zentrum der heutigen Datenverwaltung stehen nach wie vor Datenbanken. Aus dem Erbe der Datenspeicherung hervorgegangen, wurden sie entwickelt, um einer isolierten, UI-zentrierten Anwendung den Zugriff auf gespeicherte Daten als Reaktion auf menschliche Interaktion zu ermöglichen. Sie sind, kurz gesagt, eine Plattform, die für ruhende Daten entwickelt wurde.

Datenbanken bleiben eine wichtige Kategorie, reichen aber als alleinige Datenplattform in einem Unternehmen nicht mehr aus.

Moderne Datenplattformen sowie die Systeme, die den Geschäftsbetrieb ausführen und Kundenerlebnisse liefern, müssen integriert sein und Daten in Echtzeit verarbeiten können. Sie müssen die Infrastruktursilos überwinden und kontinuierlich auf ein sich ständig weiterentwickelndes Geschäft reagieren, antworten und sich anpassen, sobald eine Änderung oder eine Interaktion eintritt. Unternehmen benötigen somit eine Dateninfrastruktur, die das Sammeln eines kontinuierlichen Datenstroms aus dem gesamten Unternehmen unterstützt und Anwendungen erstellt, die diesen Datenstrom in Echtzeit verarbeiten.

Dies ist ein grundlegender Paradigmenwechsel und trifft den Kern dessen, wie wir über Daten denken. “Data in Motion” ist nicht nur eine fehlende Funktion in Datenbanken, sondern ein grundlegendes Umdenken in der Informatik, die Datensystemen zugrunde liegt.

Apache Kafka® als skalierbares Fundament für “Data in Motion”

Als Standard für die Handhabung von “Data in Motion” hat sich in den letzten Jahren Apache Kafka etabliert. Über 80% der Fortune 100 setzen auf die Event-Streaming-Plattform, die bei LinkedIn erfunden wurde und seitdem einen Siegeszug durch die Architekturen von eingesessenen Unternehmen und Digital Natives macht.

Einer der Hauptgründe, warum Apache Kafka zum De-facto-Standard für so viele verschiedene Anwendungsfälle wurde, ist die Kombination aus vier leistungsstarken Konzepten:

Publish & Subscribe auf Event-Streams, ähnlich wie bei einem auf Message Queues basierenden Enterprise-Messaging-System

Speichern von Event-Streams in einem fehlertoleranten und persistenten Speicher, solange die Daten benötigt werden (Stunden, Tage, Monate, dauerhaft)

Kontinuierliches Verarbeiten, Korrelieren und Aggregieren von Ereignisströmen in Echtzeit

Integration von verschiedenen Daten-Quellen und -Senken (egal ob die Schnittstelle Echtzeit, Batch oder Request-Response Kommunikationsparadigmen anbietet)

Apache Kafka als zentraler Integrationslayer und Daten-Nervensystem im Unternehmen (Bild: Confluent)

Kafka in der Cloud?

Der Aufstieg von “Data in Motion” ist ein weltweites Phänomen, das sich auf jede Branche, jede Region und jede Art von Unternehmen auswirkt. Es war nur eine Frage der Zeit, bis auch dieses Paradigma den Weg in die Cloud findet. In vielen der größten Tech-Giganten verarbeiten deren Data-in-Motion-Plattformen jeden Tag Petabytes an Daten, die permanent in Bewegung sind. Dabei wird jeder Teil eines riesigen digitalen Unternehmens verbunden und alle Aktivitäten des Unternehmens werden über Streams erfasst und verarbeitet.

Dieses Paradigma hat sich jedoch weit über die reinen Tech-Unternehmen hinaus verbreitet und wird mittlerweile von über 80 % der Fortune-100-Unternehmen eingesetzt.

Ein paar Beispiele:

Use Cases in Branchen

Einzelhändler nutzen "Data in Motion", um ihre stationären Geschäfte mit E-Commerce-Systemen in Echtzeit zu vereinen und so ein einheitliches Kundenerlebnis zu schaffen. Mit Echtzeit-Bestandsmanagement können Einzelhändler sicherstellen, dass Kunden nie einen Artikel online kaufen, nur um später festzustellen, dass er nicht mehr vorrätig ist, wenn sie ihn abholen wollen.

Ride-Sharing-Unternehmen schaffen ein mobiles Echtzeit-Erlebnis mit sofortigem Fahrer-Fahrgast-Matching, dynamischer Preisgestaltung und in Echtzeit aktualisierter Fahrer-Ankunftszeit.

Banken nutzen “Data in Motion”, um Kreditkartenbetrug zu erkennen und zu verhindern: Statt Überprüfung der Transaktionen über Nacht werden Echtzeit-Warnungen über Smartphones ausgespielt.

Telefonanbieter können von periodischen Inspektionen zu einer vorausschauenden Überwachung in Echtzeit übergehen.

Technische Use Cases & Unterstützung von Technologietrends

Unterstützung der Cloud-Einführung, indem eine Data-in-Motion-Plattform als Echtzeit-Synchronisation zwischen älteren Teilen eines Unternehmens, die in On-Prem-Rechenzentren betrieben werden, und modernen Cloud-Umgebungen fungiert.

Erschließung von Datenquellen im ganzen Unternehmen, um Machine-Learning-Anwendungen zu speisen und komplexe Trainings- und Produktionsabläufe zu realisieren.

Backbone für Echtzeit-Datenströme, die von Sensoren, mobilen Geräten, aus der Fertigung und aus Fahrzeugen stammen.

Warum werden nun immer mehr dieser Use Cases im Rahmen des cloud-nativen und voll gemanagten Kafka-Services von Confluent umgesetzt?

Der Wert von Apache Kafka und Echtzeitdaten für Unternehmen steht außer Frage. Leider sind die Kosten der Selbstverwaltung sehr oft zu kostspielig, wenn man Faktoren wie Skalierung, Verwaltung, Support, Sicherung oder die Erstellung von Konnektoren addiert. Ressourcen in Unternehmen sind knapp: Dies betrifft sowohl die besten Teammitglieder als auch das Budget. Diese Ressourcen sollen nicht durch die tägliche Verwaltung von Kafka gebunden sein, sondern Projekten, die einen Wettbewerbsvorteil liefern oder eine Geschäftsdifferenzierung schaffen, vollumfänglich zur Verfügung stehen.

Viele Unternehmen stellen daher auf einen vollständig gemanagten cloud-nativen Kafka-Service um.

Was sollte er also können, der cloud-native Daten-Streaming-Service?

Elastische Skalierbarkeit

Kafka-Cluster können je nach Bedarf serverlos, auto-balanced bereitgestellt werden und elastisch zwischen 0-100 MBps skalieren oder sich mit wenigen Klicks auf GBps+ skalieren lassen. Diese sofortige Elastizität bedeutet, dass in alle Richtungen skaliert werden kann, um entweder einen unerwarteten Bedarf zu decken oder um die Kosten unter Kontrolle zu behalten. Bezahlt wird für das, was benötigt wird, und zwar dann, wann es benötigt wird – nicht mehr und nicht weniger.

Zugriff, aber bitte global

Studien haben gezeigt, dass 80 Prozent der Unternehmen mehr als einen Cloud Service Provider nutzen. Wenn die Kafka-Implementierung nur auf einem von diesen funktioniert, beschränkt das natürlich die Handlungsfähigkeit – vor allem im Bereich der Datennutzung. Confluent erlaubt eine Verknüpfung der Kafka-Cluster, die sich in Echtzeit synchronisieren, sodass Events überall verfügbar sind – über mehrere Public oder Private Clouds hinweg.

Unbegrenzter Speicher

Datenmengen können unbegrenzt in Kafka-Clustern gespeichert werden, ohne dass im Voraus Kapazitäten geplant oder bereitgestellt werden müssen. Kafka wird zu einem “System of Record”, so dass aus Echtzeit-Events alles herausgeholt werden kann. Weiterer positiver Nebeneffekt: Es müssen keine Ressourcen abgezogen werden, um Ausfallzeiten aufgrund von Ausfällen des Festplattenspeichers abzufangen.

Eine komplette Event-Streaming-Plattform

Confluent macht mehr als nur Kafka zu verwalten. Unternehmen erhalten eine komplette Plattform, die auf Kafka aufbaut, damit Projekte schnell umgesetzt werden können. Dies beinhaltet sofort einsatzbereite Konnektoren für die beliebtesten Datenquellen und -senken im Kafka-Ökosystem, eine Schema Registry zur Gewährleistung der Datenintegrität, eine Event-Streaming-Datenbank mit ksqlDB und vieles mehr – alles vollständig verwaltet in ein und derselben Cloud-UI (Abb. 3).

Confluent Cloud ist verfügbar auf AWS, GCP und Microsoft Azure (Bild: Confluent)

Unternehmen sind immer in Bewegung – ein zentrales Nervensystem kann mithalten

“Data in Motion” steht für die Hälfte des Datenmanagement-Problems, die bisher weitgehend ignoriert worden ist.

Aber: Dieses Paradigma hat das Potenzial, unser Denken und unsere Nutzung von Daten in ähnlichem Maße zu verändern, wie die Cloud unser Denken und unsere Nutzung von Hardware-Infrastrukturen verändert hat. Man nimmt etwas, das statisch war, und verwandelt es in etwas, das dynamisch und allgegenwärtig ist.

Diese Fähigkeit zu nutzen und eine zentrale Integrationsschicht aufzubauen, welche die Systeme und Anwendungen des Unternehmens zu einem kohärenten Ganzen zusammenfügt, wird für die nächste Generation von Unternehmen entscheidend sein. Die Data-in-Motion-Plattform übernimmt die Rolle eines zentralen Nervensystems für Daten und trägt den Strom der Impulse dessen, was geschieht, durch alle Teile des Unternehmens. So kann überall auf diese Echtzeitströme reagiert, geantwortet oder diese verarbeitet werden. Verschiedenen Anwendungen und Software-Services werden so koordiniert, dass sie kontinuierlich und intelligent reagieren, wenn sich das Unternehmen weiterentwickelt.

Die Fähigkeit, Daten in Bewegung zu denken und nutzen zu können, ist kein entscheidender Wettbewerbsvorteil der Zukunft, sondern der Gegenwart. Die cloud-native Umsetzung dieses Paradigmas versetzt Unternehmen direkt in die Lage, diese Gegenwart zeitgemäß zu gestalten.

Unternehmen wie BOSCH, Ricardo, Baader, NORD/LB, Deutsche Bahn oder BMW setzen bereits erfolgreich auf “Data in Motion” und schaffen Mehrwert in Echtzeit.

Confluent Cloud kann kostenlos getestet werden:

(ID:47560670)

Big Data und Datenseen - die Zukunftswährung?

Wer sich nicht auf das Sammeln und das Erzeugen von Daten konzentriert, kann in Zukunft das Nachsehen haben. Deshalb ist es wichtig, mehr von der Materie Daten, Big Data und Digitalisierung im Allgemeinen zu verstehen.

Warum Daten sammeln?

Die Kombination von unterschiedlichen Daten und deren Auswertung kann für Unternehmen weitreichende Entscheidungsgrundlagen bieten.

Analysen über vergangene Kundenbestellverhalten können in Korrelationen zu anderen Einflussgrößen geprüft werden. Handelt es sich vielleicht um Saisonware und die Rohstoffe unterliegen volatilen Einkaufsbedingungen? Kann also vorausschauend vielleicht ein optimierter und datenbasierter Einkaufsprozess zu besseren Konditionen führen? Wann sind die Kundenanfragen eigentlich am höchsten und wann die Abschlussquoten? Gibt es neue Marktbegleiter oder gar disruptive Einflüsse am Markt, die für eine radikale Veränderung sorgen? Und wie sieht eigentlich der Ausbauprozess von Kundenbeziehung mit weiteren Produkten aus dem eigenen Hause aus?

Erst wenn über genügend Daten verfügt wird, lassen sich Hypothesen bilden und datenbasiert überprüfen. Die Schwierigkeit Daten zu filtern, herauszufinden, welche Information die richtige ist, beschreibt die größte Herausforderung.

Nicht nur kaufmännische Daten sollten gesammelt werden, auch jegliche andere Datenquelle ist in Betracht zu ziehen. Der Fantasie der Datenverwertung sollten keine Grenzen gesetzt werden. Noch wissen wir heute nicht, welche Daten wir morgen verwerten können.

Maschinenverhalten, beispielsweise Vibrationen nach einer gewissen Laufleistung, deuten vielleicht auf benötigte Wartungen hin. Es gibt sehr viele Muster, die aus der analogen Welt bekannt sind und sich digital erkennen lassen. Der Controller-Fantasie sind kaum Grenzen gesetzt, sofern die Daten verfügbar sind und harmonisieren.

Oder die Sensoren in einem Flugzeug: Wenn heute ein Flugzeug abhebt, wird bereits dem Bestimmungsort digital mitgeteilt, welche Wartungen fällig sein werden. Ohne Big Data, nicht möglich.

In Autos sind so viele Sensoren verbaut, die permanent Daten erzeugen, dass den Fahrenden der genaue Zustand des Fahrzeugs an einem Bildschirm angezeigt wird. Das kennen sicherlich die meisten Leserinnen und Leser dieses Artikels. Aus diesem Grund wird im Abschnitt ‘Big Data 9 Vs‘ der Kern dieses Themas anhand fahrender Autos vertieft. Es soll somit nachvollziehbar werden, welche Voraussetzungen, Bedeutungen und Auswirkungen Big Data hat.

Zuvor folgt noch eine theoretische Vertiefung, um relevante Begrifflichkeiten bzw. thematische Big Data Themen nachvollziehen zu können.

Big Data und Datenseen - die Zukunftswährung?

Wie bei dem Begriff Digitalisierung gibt es auch für den Begriff Big Data keine standardisierte Norm. Eine Primärquelle, eine Urheberschaft auf diesen Ausdruck, ist ebenfalls nicht aufzufinden.

Big Data auf Deutsch

Mit Big Data werden jene Datenmengen bezeichnet, die nicht mehr mit herkömmlichen Methoden der Datenverarbeitung analysiert werden können – zumindest was die derzeitigen Möglichkeiten betrifft.

Was Zweck und Nutzen von Big Data ist, wird nun erörtert.

Wie entsteht Big Data?

Dank der Informatisierung ist es heute möglich, dass Unmengen an Daten aus unterschiedlichen Systemen produziert werden.

Mobiltelefone, Navigationssysteme, Maschinen, etc. werden computerisiert mit programmierten Befehlen gesteuert und verwendet. Sie sind in der Lage, Informationen über den eigenen Betriebszustand und für nachstehende Systeme und Prozesse zu senden und zu empfangen und für den eigenen Betrieb zu verwerten.

Diese Funktion wird als eine Implikation der Kombinatorik bezeichnet, in der auf Basis von digitalen Schnittstellen Fremdsysteme Kommunikation betreiben. Die dabei anfallenden Datenmengen sind ein Beispiel für die sogenannte Digitalisierungsausprägung Big Data.

Schauen wir uns das genauer anhand von Beispielen und weiteren Hintergrundinformationen an.

Hintergründe und thematische Vertiefung

Vereinfacht erklärt, handelt es sich bei Big Data um das Aufkommen und Sammeln von Daten aus jeglichen nur vorstellbaren Quellen. Beispielsweise erzeugen Sensoren in Maschinen Daten, aber auch Mobiltelefone und deren Apps senden u.a. Standort- und Nutzerdaten. Social Media bzw. Suchmaschinenanbieter sammeln Verhaltensweisen der User und Informationen über den Zustand der verwendeten Geräte.

Stand heute produzieren etwa 20 Milliarden Systeme Daten. Immer, teilweise in Millisekunden. Um Daten zu qualifizieren, bedarf es Ordnung.

© Statista study_id34576

Volume, Velocity, Variety) nach halbwegs wissenschaftlichen Kriterien. Diese Kategorisierung geriet in die Kritik, wird seitdem dennoch fortgeführt und es kommen regelmäßig neue Vs zum Big Data Modell hinzu. Auf diese gehen wir im Abschnitt Die Big Data Vs genauer ein. 2011 veröffentlichte Gartner eine Big-Data-Definition mit drei Vs (olume,elocity,ariety) nach halbwegs wissenschaftlichen Kriterien. Diese Kategorisierung geriet in die Kritik, wird seitdem dennoch fortgeführt und es kommen regelmäßig neue Vs zum Big Data Modell hinzu. Auf diese gehen wir im Abschnittgenauer ein.

Was passiert mit Daten?

) . Daten bleiben häufig in ihren Applikationen gefangen und werden primär nur dort verwertet (siehe Beispiel am Anfang des Artikels: Was ist eigentlich Digitalisierung?

Nehmen wir Daten aus einer E-Mail, beispielsweise eine Kundenbestellung. Die Informationen der Bestellung müssen zur weiteren Abwicklung in ein oder mehrere EDV-Systeme übertragen werden, (sofern nicht noch mit Zettel und Stift gearbeitet wird). Es handelt sich dabei um einen Medienbruch, da Daten von dem einem Medium manuell an ein anderes übergeben werden müssen. In der Praxis sind das in der Regel ein ERP-Tool, ein Warenwirtschaftssystem oder Excel. Damit nicht genug.

Die Dokumentation des Geschäftsprozesses muss ebenfalls gewährleistet werden – Stichwort ‚keine Buchung ohne Beleg‘ – und so füllen sich entweder parallel Aktenordner oder virtuelle Ordner mit Unterlagen oder anderen Begleitbelegen des Geschäftsprozesses. Das Beispiel könnten wir endlos weiter ausschmücken. Sie können sicherlich nachvollziehen, worauf es hinausläuft: Daten, Daten, Daten.

Die benötigten Informationen sind also in Daten verwandelt worden und stecken nun in einer der ausgewählten Anwendungen fest. Sie können zunächst nur dort verarbeitet und verwertet werden. Werden weitere, vielleicht sogar die gleichen Informationen in anderen IT-Systemen benötigt und lassen diese sich nicht automatisierbar übertragen, wird das Systembruch genannt. Daten müssen per Hand von einer Datenquelle bzw. Anwendung in die andere übertragen werden.

Mit Programmierschnittstellen (Fachbegriff API - application programming interface) lässt sich Medien- und Systembrüche entgegenwirken. Daten aus Fremdsystemen können automatisiert übernommen werden und für ein unterbrechungsfreieres Arbeiten sorgen.

Das Problem dabei ist, dass die Datenmengen unüberschaubar groß werden, in sich komplex und nicht von dauerhafter Aktualität bleiben, und, wegen einer zu schwachen Struktur, nur schwer auswertbar sind, sofern mit herkömmlichen Analysewerkzeugen gearbeitet wird. Das ist auf der einen Seite die weitere Definition von Big Data und gleichzeitig der Hinweis darauf, dass, wer diese Daten beherrscht, damit Wertschöpfung in teilweise unvorstellbaren Dimensionen betreiben kann.

In diesem Zusammenhang sind die GAFA-Unternehmen das beste Beispiel dafür, wie digitale Geschäftsmodelle, basierend auf Daten- und Applikationsservices, die Erträge und Rentabilitäten beeinflussen.

GAFA steht für Google, Apple, Facebook und Amazon. Deren Hauptgeschäfte sind besagte digitale Geschäftsmodelle. Bezahlte Suchmaschinenoptimierung, App-Stores, platzierte Werbung nach Benutzerverhalten oder ein digitales Einkaufsportal haben die Gründer der GAFA-Unternehmen zu den mächtigsten Firmeninhabern der Welt gemacht. In der nachstehenden Abbildung sind die wertvollsten Unternehmen der Welt 2020 abgebildet.

© Statista study_id11600

Klein- und Mittelständische Unternehmen fühlen sich häufig nicht stark oder befähigt genug, einen digitalen Weg wie die GAFA-Unternehmen zu gehen. Das ist auch nicht nötig, denn diese Märkte sind ja bereits vergeben. Aber darauf zu achten, sein Unternehmen zu digitalisieren, Prozesse digitalisiert zu verschlankern und zu automatisieren und erzeugte Daten, wo auch immer erzeugt, zu sammeln, das ist auch im KMU-Umfeld zwingend erforderlich.

Mit anderen Worten: Es lohnt sich, Daten zu sammeln. Viele Daten. Oder noch drastischer: alle Daten.

Datenseen

Damit Daten weitreichend nutzbar werden, sammeln Unternehmen diese in virtuellen Datensammelbehältern, weshalb gerne von Datenseen (engl. data lakes) gesprochen wird. Hier werden alle Daten für weitere Verwendungen angereichert und stehen bspw. zur Auswertung, Verwertung oder sogar zur Vermarktung zur Verfügung. Dank des technologischen Fortschritts und der exponentiell wachsenden Rechen- bzw. Verarbeitungskapazität von Supercomputern, lassen sich mittlerweile Daten fast in Echtzeit analysieren und verwerten.

Zur Veranschaulichung: An der Börse werden Rechenleistungen in Millisekunden optimiert, da in einer Sekunde Zeit hunderttausende Transaktionen stattfinden und von Computern überwacht werden. Wer die erste Kursschwankung am Markt digital erkennt – damit sind Aktien selbstkaufender und verkaufender Programme gemeint -, ist der Gewinner bei Börsenwetten. Deshalb wird bei Big Data in der Regel auch von Big Data Analytics und Business Itelligence gesprochen.

Es geht zunächst darum, erzeugte Daten zu sammeln, um sie zum richtigen Zeitpunkt fehlerfrei verwerten zu können. Aus diesem Anlass werden die besagten Big Data Vs genutzt, um Daten nach relevanten Merkmalen zu qualifizieren.

Die meisten anfallenden Daten werden heutzutage noch nicht genutzt. Teilweise sind Daten noch nicht kompatibel, also mit anderen Datenquellen bzw. Anwendungen ohne Weiteres vergleichbar. Doch der technologische Fortschritt ermöglicht es, unterschiedliche Daten miteinander zu vernetzen und mittels Berechnungen in relevante Korrelationen zu bringen.

So ist Big Data eine relevante Grundlage für Künstliche Intelligenz. In dem Artikel Die Mär künstlicher Intelligenz gehen wir vertiefender auf das Thema ein.

Daten(formate): – passt oder passt nicht

Datenformate beschreiben einerseits die Struktur der Daten, andererseits geben sie Auskunft über die enthaltenen Informationen des Dateiformats.

Mittels des Datentyps ist festgelegt, um welche Art der Information es sich handelt. Wenn Sie beispielsweise eine Exceldatei auf dem MP3-Player Ihres Handys abspielen wollten, erscheint eine Fehlermeldung.

Datenformate sorgen für Aufbau, Inhalt und zeitliche Abfolge eines Datensatzes. Für IT-Laien: Stellen Sie sich vor, was passiert, wenn Sie Ihr Benzinauto mit Diesel betanken. Die Motoren sind für die unterschiedlichen Kraftstoffe nicht kompatibel und gehen kaputt. Genauso ist das mit Daten in falschen Systemen. Der Unterschied: Diese lassen sich ein stückweit migrieren bzw. mit Zwischenlösungen von einem System in ein anderes übertragen.

Die Kunst, Daten zu analysieren und anderen Systemen fehlerfrei zu übergeben, liegt darin, die unterschiedlichen Datenformate nutzen, auswerten und vor allem migrieren (anpassen) zu können. Worauf es allerdings ankommt: Der Datenleser muss sich auf die Datenqualität und -relevanz verlassen können.

Das ist der Moment der Big Data 9 Vs.

Big Data 9 Vs - beispielhaft erklärt

Um eine Vorstellung von Big Data, Rechenleistungen und Datenverfügbarkeit zu erhalten, wird das Big-Data-V-Modell historisch-chronologisch und anhand autonomen Fahrens beispielhaft erläutert.

Stellen Sie sich vor, wie ein Auto vollkommen autonom, ohne die Eingriffsmöglichkeit einer im Auto befindlichen Person, durch den Schwarzwald fährt. Sensoren überwachen das Umfeld, mittels GPS ist der genaue Standort stets bekannt und eine lückenlose Hochgeschwindigkeitsinternetverbindung – gemeint ist lückenloses 5G, derzeit noch eine Utopie – sorgt für einen Datenaustausch mit anderen Verkehrsteilnehmern, Ampeln, Schildern etc. Was passiert nun?

Den ersten Wurf des Gattungsbegriffs Big Data setzte Gartner 2011 aus den drei englischen Vs für:

Volume (Datenvolumen => bspw. Datenmenge, Transaktionen)

(Datenvolumen => bspw. Datenmenge, Transaktionen) Velocity (Datenumlaufgeschwindigkeit => bspw. zeitnahe Verarbeitung, Livestreams)

(Datenumlaufgeschwindigkeit => bspw. zeitnahe Verarbeitung, Livestreams) Variety (Datenvielfalt => bspw. strukturierte oder unstrukturierte Daten)

zusammen.

Das autonom fahrende Auto und das Umfeld erzeugen Unmengen an Daten. Volume: Während der Fahrt entscheiden Tempozonen in Abgleich mit dem Navigationssystem, den aktuellen Verkehrsdaten, der Beschaffenheit der Fahrbahn, Wettereinflüssen, Sensoren an Baustellenschildern, Marker in der Straßenmarkierung die Fahrgeschwindigkeit.

Velocity: Wichtig ist, dass die zeitliche Genauigkeit der zu verwendenden Daten stimmt. Entsprechend schnell genug sein muss die Hardware, um die Daten in Echtzeit zu berechnen. Auch die Informationen anderer Quellen müssen in Echtzeit zur Verfügung stehen. Warum?

Fahren zwei Autos mit hoher Geschwindigkeit auf eine Kreuzung zu und soll eine Kollision vermieden werden, ist die genaue Zusammenkunft der Autos zu berechnen. Jetzt spielt die Latenz der Datenübertragung eine wichtige Rolle, denn bei einer langsamen Internetverbindung könnte ein Auto bereits weiter sein als die Daten es vermuten lassen. Je vielfältiger dabei die Daten sind, Variety, desto präziser lassen sich komplexe Zusammenhänge lösen.

Buhl et al. definierten (2013)

Veracity (Datenglaubwürdigkeit => bspw. Verbindlichkeit)

Als viertes elementares V von Big Data bedeutet Datenglaubwürdigkeit, dass das gesamte Modell auf multidisziplinäre und evolutorische Verbindungen angewiesen ist. Fragen zu Verwertung von Daten lauten u.a., wann welche Daten relevant sind, wie sichergestellt werden kann, ob die Inhalte der verfügbaren Daten stimmen und die erforderliche Güte verifizierbar ist.

Veracity: Zurück in unsere aufeinander zufahrenden Autos. Die Datenglaubwürdigkeit ist nun essenziell, da es

a) wichtig ist zu wissen, dass es sich wirklich um ein heranfahrendes, anderes Auto handelt.

b) von Bedeutung ist, dass die Echtzeitdaten aus anderen Datenquellen stimmen, aber auch

c) bspw. die spezielle Regeln, wer wem ausweicht oder wer Vorfahrt hat, abgestimmt sind. Bereits hier ist deutlich erkennbar, welche Wucht an Datenverarbeitung Big Data bedeutet.

Als berechenbares Ergebnis argumentieren Rossa und Holland (2014) ein fünftes V, den

Value (Daten(mehr)wert => bspw. Wertschöpfung durch Auswertungen)

des gesamten Datenkonstrukts und begründen eine Wertschöpfung von Daten.

Value: Der Vorstellungskraft sind keine Grenzen gesetzt, welche wirtschaftlichen Nutzen sich aus der Datenverwertung bilden lassen. Die Fahrzeuge erfassen Daten der Route, Schlaglöcher oder andere Ungereimtheiten auf der Straße werden direkt den Straßenbauämtern mitgeteilt, lösen ein Wartungsticket aus. Das gleiche Stichwort, Wartung, rechnet aus, welche Tankstelle oder Werkstatt zu welchem Zeitpunkt angesteuert werden muss. Nutzer können entscheiden, ob Sie das Tracken des Fahrverhaltens ihrer Versicherung zustellen, um durch einen ökologischen und sicheren Fahrstil von Prämien zu profitieren.

Ja, das klingt einerseits utopisch und schnell lassen sich dystopische Zustände ausmalen. Doch wenn nur für einen Augenblick die Möglichkeiten der Big-Data-Seen gesehen werden, liegt es an uns, die Kapazitäten und ethischen Fragen zu stellen. Hier sei bereits erwähnt, dass die europaweite DSGVO (kurz Datenschutzverordnung) Handel mit Daten fördern statt verhindern soll. Dazu mehr in einem eigenen Artikel.

In den vergangenen Jahren kamen weitere Vs hinzu und sicherlich werden weitere folgen. Unter den V-Aufzählungen werden kurze Beispiele zum autonomen Fahren fortgeführt.

Visibility (Sichtbarkeit) => Daten müssen zwischen Systemen teilbar bzw. verfügbar und verwertbar sein. Sichtbarkeit ist die Voraussetzung dafür, dass Systeme untereinander Handel betreiben. Die Voraussetzung ist also, dass Hersteller bereit sind, ihre Daten zur Verfügung zu stellen und zeitgleich, dass Daten einen Eigentumsanspruch nicht verlieren.

(Sichtbarkeit) => Daten müssen zwischen Systemen teilbar bzw. verfügbar und verwertbar sein. Sichtbarkeit ist die Voraussetzung dafür, dass Systeme untereinander Handel betreiben. Die Voraussetzung ist also, dass Hersteller bereit sind, ihre Daten zur Verfügung zu stellen und zeitgleich, dass Daten einen Eigentumsanspruch nicht verlieren. Volatility (Schwankungsbreite) => Was passiert, wenn sich Daten volatil verhalten? Im Auto könnte ein sehr einfaches Beispiel die Öltemperatur sein. Im Winter ist das Öl bei einem über Nacht draußen stehenden Auto kälter als im Sommer. Ist der Motor bzw. das Öl nach Fahrtantritt noch nicht warmgelaufen, ist die Start -Stopp-Funktion schädlich für die Langlebigkeit des Motors. Die Schwankungsbreite der Öltemperatur muss entsprechend eingeordnet werden und zu neuen systemischen Entscheidungen führen.

(Schwankungsbreite) => Was passiert, wenn sich Daten volatil verhalten? Im Auto könnte ein sehr einfaches Beispiel die Öltemperatur sein. Im Winter ist das Öl bei einem über Nacht draußen stehenden Auto kälter als im Sommer. Ist der Motor bzw. das Öl nach Fahrtantritt noch nicht warmgelaufen, ist die Start -Stopp-Funktion schädlich für die Langlebigkeit des Motors. Die Schwankungsbreite der Öltemperatur muss entsprechend eingeordnet werden und zu neuen systemischen Entscheidungen führen. Validity (Verlässlichkeit) => Angenommen, Daten lassen einen Zweifel der Verlässlichkeit zu, so kann dies zu verheerenden Umständen führen. Jüngst fuhr ein autonom fahrendes Auto auf einer US-amerikanischen Autobahn in einen umgestürzten LKW, da das Hindernis nicht erkannt wurde.

Fazit

Viability (Rentabilität) => Kurzum: Big Data wird zu einer Zukunftswährung, ja, ist es sogar schon. Das Potenzial ist vielseitig. Anfallende Kundeninformationen, Maschinenverhalten, Sensorendaten, erzeugte Spuren auf Computern, im Netz, auf dem Mobiltelefon – überall – erzeugen ein Abbild des Zustands der digitalen Gegenwart. Wer es versteht, diese Daten zu nutzen, nicht als Handelsgut, sondern zur Automation ganzer Prozesse, wird die Rentabilität der eigenen Organisationseinheit steigern.

Schon gewusst?

Das größte Big Data Unternehmen in Deutschland ist übrigens das Finanzamt. Mit nur wenig Vorstellungskraft, und nach Sichtung dieses Artikels, leuchtet ein, warum Steuerbetrug (eigentlich) Geschichte von gestern sein sollte und in mittelbarer Zukunft sein wird.

Vorhergehende und nächste Themen

Diese Serie folgt einem roten Faden und ist so aufgebaut, dass Sie thematisch bzw. inhaltlich gesteigert wird.

Der erste Teil dieser Serie lautet Was ist eigentlich Digitalisierung . Wenn Sie von vorne Anfangen wollen, klicken Sie einfach auf den Titel. Sie befinden sich aktuell im Thema Big Data. Je nach Erscheinungsdatum werden die anderen Tehmenangebote verlinkt.

Hierzu werden zunächst die Themen

in jeweils eigenen Artikeln beschrieben. Jeder Fachbegriff wird mit praxisbezogenen Beispielen erklärt.

Anschließend folgt ein historischer Abriss von Industrie 1.0 bis heute , damit die Gründe und Auswirkungen des Wandels der Arbeit und der Gesellschaft nachvollziehbarer werden. Denn es ist gewiss, dass wir aus den Fehlern von einst, aber auch den Entwicklungsmöglichkeiten und das Erkennen von Trends viel lernen können.

Unter Digitale Transformation und Geschäftsmodell werden theoretische Teile und Beispiele aus der Praxis erläutert.

In Rationalisierung versus Dematerialisierung werden die Begrifflichkeiten voneinander abgegrenzt und deren Auswirkungen anhand eines Beispiel dargestellt.

Das vielleicht spannendste Thema mündet in Auswirkungen und Prognosen von Digitalisierungsprojekten . Hier werden kurzweilig Studienergebnisse aus der Wissenschaft dargeboten. In diesem Zusammenhang haben wir den IHK-Digitalisierungsbarometers entwickelt, ein Online-Fragebogen, mithilfe dessen Sie den digitalen Reifegerade ihres Unternehmens messen können.

Die Serie endet mit einem Leitfaden für digitale Transformation bzw. einem Fragekatalog zum Online-Test. Dieser Leitfaden dient zur Orientierung in acht Themenfeldern den digitalen Reifegrad des Unternehmens zu hinterfragen und zu steigern.

Wenn Ihnen der Artikel gefallen hat, Sie mehr über das Thema wissen wollen oder an unseren Online-Seminaren teilnehmen möchten, empfehlen wir Ihnen sich für unsere Newsletter und Veranstaltungshinweise zu registrieren.

(Stand 17. September 2020 – EMB, NAZ)

 

Leave a Reply

Your email address will not be published. Required fields are marked *