Wie hilft Big Data die Skills der Zukunft zu finden? #13

Digitale Technik und ihre Möglichkeiten sind durch menschliche Fähigkeiten und Ideen entstanden. Das ist die Antwort von Christian Vetter, Co-Founder von HRForecast, auf unsere klassische Einstiegsfrage „Was bedeutet Digitalisierung für Dich?“. Als Gast im Podcast spricht er mit unserem Host Dr. Benjamin Jetter darüber, wie Unternehmen bessere Personal- und Business- Entscheidungen mit Hilfe von Big Data und intelligenten Tools treffen und ordnet die Rolle des Menschen und seinen Skills für die Digitalisierung ein.

HRForecast analysiert für seine Kunden, welche Skills in der Zukunft eine größere Rolle spielen werden. Dieses Wissen hat für Unternehmen mehrere Vorteile, sagt Christian: Zum einen können sie bestimmen, welche Fähigkeiten noch gebraucht werden und gezielter danach suchen. Zum anderen kann überprüft werden, wie gut die vorhandenen Skills zur HR- und Unternehmensstrategie passen. Eine spannende Reflektion über die Zusammenarbeit von Mensch und Maschine!

Streamen Sie unseren Podcast auf Spotify, Apple Podcasts, Amazon Music, Deezer, Google Podcasts und YouTube.

Die Zukunft für den Erfolg datengesteuerter Unternehmen

Data Warehouse oder Data Lakehouse? Die Zukunft für den Erfolg datengesteuerter Unternehmen

Wie viele andere Technologien, z. B. die CD oder die Diskette, hat auch das Data Warehouse eine gute Zeit gehabt, aber neue Anwendungsfälle haben neue Technologien hervorgebracht. Im Jahr 2021 ein Data Warehouse als primäre Datenarchitektur zu verwenden wäre, als wenn man eine CD zum Streamen von Musik verwenden würde.

Künstliche Intelligenz (KI) wird für jedes Unternehmen zu einer Priorität, die eine neue Datenarchitektur erfordert, um sich für die Zukunft zu rüsten. Wie sieht die Antwort darauf aus? Das Data Lakehouse ist eine offene Datenarchitektur, die das Beste aus Data Warehouses und Data Lakes in einer Plattform vereint.

Anzeige

Unternehmen können jetzt alle ihre Daten – strukturierte, unstrukturierte und halbstrukturierte – in einem offenen Data Lake speichern, der Qualität, Leistung, Sicherheit und Governance bietet. Dies ist die Zukunft für den Erfolg datengesteuerter Unternehmen. In diesem Beitrag werden wir die Hauptunterschiede zwischen einem Data Warehouse und einem Data Lakehouse untersuchen und erläutern, warum ein Lakehouse die bessere Datenarchitektur ist.

Die proprietäre Seite, also ein Data Warehouse, wurde entwickelt, um ausschließlich strukturierte oder halbstrukturierte Daten für SQL-basierte Analysen und Business Intelligence zu speichern und zu verwalten, meist im JSON-Format. In der Regel sind es die wertvollen Geschäftsdaten, die kuratiert und in Data Warehouses hochgeladen werden, die für hohe Leistung und Zuverlässigkeit optimiert sind.

Dieses Konzept ist im Vergleich zu Data Lakes mit weitaus höheren Kosten verbunden. In der Vergangenheit sind Data Warehouses auch an funktionale Grenzen gestoßen, da weder gleichzeitige ETL- (Extract, Transform, Load) und BI-Abfragen, noch Streaming-Anwendungen möglich waren. In ihrer jetzigen Form können sie keine unstrukturierten Daten wie Bilder, Sensordaten, Dokumente und Videos verarbeiten. Außerdem bieten sie nur begrenzte Unterstützung für maschinelles Lernen und können beliebte Open-Source-Bibliotheken wie TensorFlow, PyTorch und andere Python-basierte Bibliotheken nicht direkt nativ unterstützen.

Vom Data Lake zum Data Swamp

Dies ist der Grund, warum Unternehmen auf der ganzen Welt große Datenmengen in Data Lakes aufbewahrt und nur Teilmengen in das Data Warehouse verschoben haben, um BI- und SQL-Anwendungsfälle auszuführen. Dies hat zu den bekannten „Data Swamps“ geführt, die voll mit Daten sind, die niemand auswerten kann.

Data Lakes sind kostengünstige Speichersysteme, die Daten in jedem beliebigen Format speichern können. Die meisten Unternehmen haben ihre Daten jedoch in offenen Formaten gespeichert, um eine Vielzahl verschiedener Tools und Anwendungen nutzen zu können, um Herstellerabhängigkeiten sogenannte Vendor-Lock-Ins zu vermeiden und die Daten zugänglich zu machen.

Andererseits mangelt es diesen Low-Code-Systemen an Sicherheit, Qualität und Leistung. Das hat dazu geführt, dass die Unternehmen viel Zeit damit verbringen, die Daten in ein Format umzuwandeln, das für ihr Data Warehouse geeignet ist, wobei naturgemäß viele Fehler auftreten.

Data Lakehouse

Die innovativsten Unternehmen kombinieren heute das Beste aus Data Warehouse und Data Lake. Das Ergebnis ist das Data Lakehouse. Die Architektur ermöglicht effiziente und stabile KI und BI direkt auf riesigen Datenmengen, die in Data Lakes gespeichert sind. Sie sind in der Lage, mit allen Datenformaten zu arbeiten, weshalb sie an den Data Lakes ansetzen, wo die meisten Daten in die Infrastruktur gelangen und somit ein Data Warehouse ersetzen.

Diese Architektur verfügt über die SQL- und Leistungsfunktionen wie Indizierung, Caching und MPP-Verarbeitung, die eine schnelle BI ermöglichen, sowie über direkten Dateizugriff und direkte native Unterstützung für Python, Data Science und KI-Frameworks.

Das Data Lakehouse ist keine Zukunftsvision und viele Unternehmen profitieren bereits jetzt. Ein Beispiel ist das in Berlin ansässige Unternehmen Solytic, das Solaranlagen überwacht und analysiert. Das Problem der Firma war der Predictive Maintenance-Anwendungsfall bei steigenden Datensätzen. Das Data Engineering-Team sah sich mit einem 1.500-prozentigen Anstieg des Datenvolumens konfrontiert, das von den in den Solarmodulen integrierten IoT-Sensoren erzeugt wurde und musste eine neue Lösung finden. 10.000 Events pro Sekunde mussten bereinigt, angereichert und aggregiert werden, damit die Data Scientists sie abfragen und ihre Analysen durchführen konnten.

Das Team entschied sich für eine Lakehouse-Architektur, um die Erkenntnisse aus allen Daten, die sich bereits im Data Lake befanden, zu nutzen und die Kunden proaktiv über potenzielle Leistungsprobleme zu informieren, bevor sie direkt davon betroffen sind. Das Team war in der Lage, innerhalb eines Jahres schnell von 20.000 auf 300.000 Solarmodule zu skalieren. Da die Lakehouse-Architektur nun vollständig zugänglich ist, kann das Daten-Analyseteam in Zukunft weitere innovative Optionen erkunden.

Warehouse vs. Lakehouse

Das obige Beispiel verdeutlicht den Übergang von geschlossenen zu offenen Architekturen, die in Cloud-Umgebungen betrieben werden. Werfen wir daher einen kurzen Blick auf die wichtigsten Unterschiede zwischen einem Warehouse und einem Lakehouse. Die Lakehouse-Infrastruktur ist offen und baut auf bestehenden Data Lakes auf, die oft mehr als 90 Prozent der Daten im Unternehmen enthalten.

Data Warehouses unterstützen häufig die Funktionalität externer Tabellen, um auf diese Daten zuzugreifen, haben jedoch erhebliche Funktions- und Leistungseinschränkungen. Eine Lakehouse-Architektur fügt stattdessen herkömmliche Data Warehousing-Funktionen zu bestehenden Data Lakes hinzu. Dazu gehören ACID-Transaktionen, feinkörnige Datensicherheit, kostengünstige Aktualisierungen und Löschungen. Sie bietet erstklassige SQL-Unterstützung, optimierte Leistung für SQL-Abfragen und BI-gestützte Berichte. Kurz gesagt: Ein Lakehouse bietet ein einziges System für die Verwaltung aller Daten eines Unternehmens und unterstützt gleichzeitig das Spektrum der Analysen von BI und KI.

Um die Betriebskosten zu minimieren und die Leistung zu maximieren, sind Data Lakehouses auf separaten, elastisch skalierbaren Rechen- und Speicherkapazitäten aufgebaut. Darüber hinaus nutzen sie oft kostensparende Funktionen von Cloud-Anbietern wie Spot-Instance-Preise und reduzierte Preise für selten genutzten Speicher. Dies ist etwas, wofür herkömmliche Data Warehouse-Engines nicht ausgelegt sind.

Schließlich hat Databricks vor kurzem einen Weltrekord für den offiziellen 100-Terabyte-TPC-DS-Benchmark aufgestellt, den Goldstandard zur Bewertung der Leistung von Data Warehouse-Systemen. Im Gegensatz zu den meisten anderen Benchmark-Ergebnissen wurden die Ergebnisse vom offiziellen Transaction Processing Performance Council (TPC), dass die TPC-DS organisiert, geprüft und veröffentlicht.

Nach Angaben des Councils übertraf Databricks den bisherigen Weltrekordhalter um das 2,2-fache. Damit hat Databricks zum ersten Mal gezeigt, dass die Lakehouse-Architektur tatsächlich eine bessere Data Warehousing-Leistung erbringen kann als herkömmliche Data Warehouses mit proprietären Datenformaten. Denn sie baut auf riesigen, in offenen Data Lakes gespeicherten Datenmengen auf. Dies ist eine wichtige Bestätigung für das Lakehouse-Paradigma und zeigt, warum das Data Warehouse, wie wir es heute kennen, im kommenden Jahrzehnt entweder nicht mehr existieren oder ganz anders aussehen wird.

Data Warehouses gibt es auch nach vierzig Jahren noch, aber es ist an der Zeit, sie in Rente zu schicken. Ein Lakehouse bietet eine einheitliche Methode zur Verwaltung von Zugriffskontrolle, Datenqualität und Compliance für alle Daten eines Unternehmens, indem es Standardschnittstellen wie in Data Warehouses verwendet.

Lakehouse-Systeme unterstützen eine fein abgestufte Zugriffskontrolle (auf Zeilen-, Spalten- und Ansichtsebene) über SQL, Abfrage-Auditing, attributbasierte Zugriffskontrolle, die Versionierung von Daten, sowie Überwachung der Datenqualität. Durch die Zentralisierung aller Daten mit einer einzigen Verwaltungsschnittstelle in einem Lakehouse-System werden der Verwaltungsaufwand und die Fehleranfälligkeit, die mit der Verwaltung mehrerer separater Systeme einhergehen, verringert.

Diese neuen Datenarchitekturen sind offen, kosteneffizient und erreichen eine höhere Leistung, weshalb immer mehr Unternehmen ihre Dateninfrastruktur von der alten auf die neue Architektur umstellen.

Roman Pritzkow ist Regional Vice President Sales Germany bei Databricks.

Databricks

Große Unternehmen profitieren von Big Data

Große Unternehmen profitieren von Big Data

Studie von IIA und SAS:

Analytics ist bedeutend für Umwandlung von Daten in konkreten Business-Nutzen.

Das International Institute for Analytics (IIA) und SAS, einer der weltgrößten Softwarehersteller, präsentieren in ihrem aktuellen Report "Big Data in Big Companies" die bislang umfassendste Übersicht erfolgreicher Big-Data-Projekte in Großunternehmen.

Dafür untersuchen die Autoren Tom Davenport (IIA) und Jill Dyché (SAS) den Einsatz moderner Analytics-Systeme bei 20 großen Unternehmen - und welchen konkreten Nutzen sie damit aus ihren großen Datenbeständen ziehen.

Zu den Teilnehmern der Studie zählen AIG, Bank of America, Caesars Entertainment, Carolinas Health Care, Dell, Fidelity, GE, Schneider National, Sears, UnitedHealthcare, UPS, Verizon und Wells Fargo.

Software für High-Performance Analytics erlaubt es Unternehmen heute, sehr umfangreiche Mengen strukturierter und unstrukturierter Daten zu analysieren, die zudem aus den verschiedensten internen und externen Quellen stammen. Unternehmen, die Big-Data-Projekte konsequent umsetzen, gewinnen dadurch erhebliche Wettbewerbsvorteile: Ihnen eröffnen sich neue Geschäftsmöglichkeiten, außerdem können sie bestehende Prozesse kostengünstiger, schneller und effizienter organisieren.

"Die befragten Führungskräfte waren sich einig, dass wir es bei Big Data mit einem ganzen Bündel verschiedener Disziplinen und Möglichkeiten zu tun haben, das sich permanent weiter entwickelt und im Laufe der Zeit immer wieder neue und auch unerwartete Einsatzmöglichkeiten eröffnen wird", berichtet Tom Davenport, Research Director der IIA und Gastprofessor an der Harvard Business School. "Gleichzeitig haben sie alle betont, dass sie akademische Übungen rund um Big Data nicht gebrauchen können. Sie benötigen messbaren Business-Nutzen - und zwar lieber heute als morgen."

Die Befragten halten es für einen großen Vorteil, wenn Reporting, Analytics und Exploration sowie Datensicherheits- und Wiederherstellungsfunktionen innerhalb einer Plattform laufen. Zudem kommt die Studie zu dem Ergebnis, dass Big-Data-Umgebungen in der Regel zusätzlich zu bestehenden Data-Warehouse- und Business-Intelligence-Infrastrukturen aufgebaut werden und diese nicht ersetzen. Weitere Erkenntnis: Big-Data-Projekte sind dann besonders effektiv und bringen Erfolg, wenn Fachabteilungen und IT gut und eng zusammenarbeiten.

Big Data stellt Unternehmen auch vor organisatorische Aufgaben, wie der Report betont: Wer erfolgreich mit Big Data sein will, braucht neue Skills, neue Führungsstrukturen, neue Technologien und Architekturen. Aus diesem Grund stellen die meisten befragten Unternehmen derzeit zusätzliche Data Scientists mit IT-Know-how ein, die mit Big-Data-Technologie umgehen können. Eine solide Wissensbasis zu Datenarchitekturen, Datenqualität und Master Data Management Hubs gehört zur Basisausstattung von Unternehmen, die sich mithilfe von Analytics gegenüber dem Wettbewerb behaupten.

"Zu Beginn meiner Laufbahn wusste in unserer Organisation kaum jemand, was Big Data an Chancen bedeutet", kommentiert Kerem Tomak, Vice President im Bereich Marketing Analytics bei "Angesichts der vorhandenen Datenmengen und der jährlichen Wachstumsrate von 50 Prozent steht für mich fest, dass die Nachfrage nach Big-Data-Lösungen bei weiter steigen wird." (Quelle: SAS)

Der Report "Big Data in Big Companies" (in englischer Sprache) steht hier kostenlos zum Download zur Verfügung.

 

Leave a Reply

Your email address will not be published. Required fields are marked *