Big Data Analytics

Heutzutage steht eine Fülle neuer Daten zur Verfügung, die unter anderem durch Sensoren, das Internet der Dinge und die Nutzung sozialer Plattformen entstehen. Im Zuge des immer schnelleren Anstiegs des Datenaufkommens werden immer häufiger Big-Data-Analysen angewandt, weil sich damit bisher nicht dagewesene Potenziale in vielen Bereichen der Wirtschaft ausschöpfen lassen. Doch um diese Daten zu generieren und sinnvoll zu verwerten, bedarf es spezieller Technologien, Ansätze und Systeme. Die Forschungsgruppe Big Data Analytics beschäftigt sich mit den verschiedenen Aspekten von Big Data mit einem Fokus auf volkswirtschaftliche Fragen.

Schwerpunkte

Verarbeitung strukturierter und unstrukturierter Daten, die mit neuen Methoden und Technologien generiert werden – hierzu gehören Internetsuchanfragen, Inhalte von Webseiten (Stellen- und Auftragsausschreibungen, Zeitungen, Preise) sowie Informationen aus Social Media

Anwendung von Big-Data-Methoden wie Machine Learning mit Deep Learning, Data Mining, Natural Language Processing, Zeitreihenanalyse etc. vor dem Hintergrund volkswirtschaftlicher Fragestellungen

Anwendung von Big Data in der Konjunkturforschung

Ergänzung der amtlichen Statistik, beispielsweise in Bezug auf den Arbeitsmarkt

Datenökonomie inklusive der kontextabhängigen ökonomischen Analyse des Rechts

Beispiel aktueller Forschungsarbeiten

Die Forschungsgruppe nutzt verschiedene Analysemethoden und -ansätze. Big Data Methoden können prinzipiell bei allen relevanten ökonomischen Fragestellungen zum Einsatz kommen. Ein Beispiel stellt die auf Textanalyse basierende Netzwerkanalyse, hier exemplarisch mit Blick auf die deutschen Akteure in der Covid-19-Forschung, dar.

Big Data Analytics: Was Sie darüber wissen sollten

Maschinelles Lernen. Beim maschinellen Lernen, einem bestimmten Teilbereich der KI, wird eine Maschine trainiert und lernt. Mit dieser Technik lassen sich schnell und automatisch Modelle generieren, die größere Mengen komplexer Daten analysieren und schneller genauere Ergebnisse erbringen können – und das auch in sehr großem Maßstab. Mithilfe präziser Modelle verschafft sich eine Organisation bessere Chancen, lukrative Geschäftsmöglichkeiten zu erkennen – oder unbekannte Risiken zu vermeiden.

Datenmanagement. Daten müssen von hoher Qualität sein und sachgemäß aufbereitet vorliegen, bevor sie zuverlässig analysiert werden können. Angesichts der ständigen ein- und ausgehenden Datenströme muss eine Organisation allerdings unbedingt wiederholbare Prozesse zur Sicherstellung und Aufrechterhaltung von Datenqualitätsstandards einrichten. Liegen die Daten in zuverlässiger Qualität vor, sollte die Organisation ein übergeordnetes Datenmanagementprogramm auflegen, das das gesamte Unternehmen auf den gleichen Stand bringt.

Data Mining. Data Mining dient zur Untersuchung großer Datenmengen mit dem Ziel, Muster in diesen Daten zu erkennen. Die so gewonnenen Informationen lassen sich für weitere Analysen zur Beantwortung komplexer geschäftlicher Fragen nutzen. Mit Data Mining-Software wird es möglich, die relevanten Elemente aus all dem chaotischen und repetitiven „Datenrauschen“ herauszuarbeiten und anhand der so gewonnenen Informationen mögliche Ergebnisse zu bewerten. Auf diese Weise gelangen Organisationen rascher zu informierten Entscheidungen.

Hadoop. Hadoop ist ein Open Source Framework für die Speicherung großer Datenmengen und die Ausführung von Anwendungen auf Standard-Hardware-Clustern. Hadoop hat sich aufgrund der ständig zunehmenden Datenvolumina und Datenvarianten zu einer Schlüsseltechnologie für Unternehmen entwickelt und eignet sich dank des zugrunde liegenden verteilten Computing-Modells für eine schnelle Verarbeitung von Big Data. Ein weiterer Vorzug von Hadoop ist das kostenlose Open Source Framework, mit dem Standardhardware zur Speicherung großer Datenmengen genutzt werden kann.

In-Memory Analytics. Die Analyse von Daten im Arbeitsspeicher (statt auf der Festplatte) ermöglicht die sofortige Ableitung von Erkenntnissen aus Daten, sodass rasch gehandelt werden kann. Dank dieser Technologie erübrigt sich der Zeitaufwand für die Aufbereitung und analytische Verarbeitung der Daten vor dem Test neuer Szenarien und der Erstellung neuer Modelle. Damit öffnet sich ein unkomplizierter Weg für Organisationen, agil zu bleiben und bessere Geschäftsentscheidungen zu treffen. Darüber hinaus kann die Technologie für iterative und interaktive Analyseszenarien eingesetzt werden.

Predictive Analytics. Predictive Analytics ist eine Technologie zur Ermittlung der Wahrscheinlichkeit künftiger Ergebnisse auf der Basis historischer Daten mithilfe von Daten, statistischen Algorithmen und Techniken des maschinellen Lernens. Ziel ist die bestmögliche Prognose künftiger Ereignisse, sodass Organisationen stärker darauf vertrauen können, die bestmögliche Geschäftsentscheidung getroffen zu haben. Am häufigsten wird Predictive Analytics in der Betrugserkennung, der Risikobewertung sowie im operativen Betrieb und im Marketing eingesetzt.

Text Mining. Text Mining ist eine Technologie zur Analyse von Textdaten aus dem Internet, aus Kommentarfeldern, Büchern und sonstigen Textquellen mit dem Ziel, zu Erkenntnissen zu gelangen, die zuvor übersehen wurden. Text Mining nutzt maschinelles Lernen bzw. Sprachtechnologien, um Dokumente – E-Mails, Blogs, Twitter-Feeds, Umfragen, Wettbewerbsinformationen usw. – zu durchforsten, große Datenmengen zu analysieren und neue Themen oder Zusammenhänge aufzudecken.

Top 15: Die besten Predictive Analytics Tools

Im Laufe der letzten Jahrzehnte haben sich Computer von Aktenschränken für Daten zu technologischen Kristallkugeln gewandelt, die versprechen, durch die Analyse von Daten die Zukunft vorhersagen zu können. Die Tools, die das bewerkstelligen, fallen unter den Begriff Predictive Analytics und erfüllen im Wesentlichen zwei Funktionen:

die Analyse von Datenbanken, beziehungsweise -beständen, um Handlungsempfehlungen für die Zukunft abzuleiten

sowie die Vorbereitung der Analysedaten, die in den seltensten Fällen die geforderte Konsistenz aufweisen.

Letztgenannte Funktion umfasst sowohl unkomplizierte Tasks wie die Vereinheitlichung von Formatierungen, als auch die oft zeitintensive Beseitigung von Fehlern. Eine echte Herausforderung besteht dabei oft auch darin, die Datenintegrität zu wahren. Ausgereifte Predictive Analytics Tools meistern beide Anforderungen aus dem FF. Wir haben 15 der beliebtesten Predictive Analytics Tools(ets) für Sie zusammengestellt.

Alteryx

Alteryx hat sich in den vergangenen Jahren darauf konzentriert, seine Reporting- und Workflow-Management-Plattform mit prädiktiven Algorithmen auszustatten. Das Tool verfügt über eine breit angelegte Bibliothek sowie zahlreiche Schnittstellen zum Datenimport und unterstützt eine Vielzahl von gängigen und weniger gängigen Datenquellen.

Das Alteryx Tool ist vielfältig anpassbar und eher auf Manager mit Daten-Knowhow ausgelegt, als auf Entwickler, die tiefer in die Predictive-Analytics-Materie eintauchen und auf breiter Ebene mit Reporting und Business Intelligence verknüpfen wollen. Darüber hinaus bietet Alteryx auch spezifische Lösungen für Fachabteilungen an, etwa für den Marketing- oder Research-Bereich.

Amazon Web Services

Das AWS Toolset, um Datenströme auf Signale oder Muster hin zu untersuchen, wächst immer weiter an. Dabei werden die Angebote traditionell nach Produktlinien getrennt. Amazon Forecast fokussiert beispielsweise darauf, ökonomische Zeitreihen zu erweitern, um vorherzusagen, mit welchen Verkaufszahlen für das nächste Quartal zu rechnen ist und wie viele Ressourcen nötig sein werden, um die Nachfrage zu bedienen. Amazon Code Guru sucht hingegen nach Unwägbarkeiten innerhalb von Quellcode, um die Abläufe zu verbessern.

Einige AWS Tools wie Fraud Detector oder Personalize unterstützen vor allem das Business von Amazon selbst - werden mittlerweile aber auch an andere Unternehmen weiterverkauft, die ihr eigenes E-Commerce-Reich erschaffen wollen.

Board

Unternehmen, die auch in Zukunft auf Dashboards setzen wollen, um Datentrends zusammenfassend zu visualisieren, sollten sich das Angebot von Board näher ansehen. Das Tool ermöglicht es, eine Vielzahl von Datensilos (ERP, SQL, etc.) anzuzapfen, die dort abgelegten Informationen zu analysieren und die Ergebnisse in Form eines Reportings auszugeben, das sowohl Auskunft über die geschäftliche Vergangenheit als auch die Zukunft (Predictive) gibt.

Der Schwerpunkt liegt dabei darauf, Daten aus so vielen Quellen wie möglich zusammenzufassen und in eine standardisierte Form zu "pressen", die dann wiederum direkt in die Visualisierung oder Predictive Analytics einfließen können.

Dash

Das Toolset von Dash liegt in einer kostenlosen, quelloffenen Version und einer Enterprise-Variante vor und ermöglicht das cloudbasierte Management von Predictive-Analytics-Modellen, die entweder bereits zum Einsatz kommen oder gerade entwickelt werden.

Die Open-Source-Version bringt Python-Bibliotheken für Datenanalyse und -visualisierungen mit, die Enterprise-Variante kommt mit zusätzlichen Tools, beispielsweise für Kubernetes, Authentifizierung oder die Integration von GPUs bei Deployments für große Nutzergruppen. Die kostenpflichtige Version bietet Anwendern außerdem mehr Low-Code-Erweiterungen, um Dashboards und andere Interfaces zu erstellen.

Databricks

Das Toolset von Databricks baut auf den vier maßgeblichen Open Source Frameworks Apache Spark, Delta Lake, TensorFlow und ML Flow auf und eignet sich für Unternehmen mit großen Datenbeständen. Um Predictive Analytics bestmöglich in Workflows zu integrieren, entält das Paket auch kollaborative Notebooks und Data Processing Pipelines. Databricks hat zudem bereits integrierte Versionen seines Toolsets für AWS und Azure auf die Beine gestellt.

DataRobot

Unternehmen, die Wert auf die Option legen, ihre Predictive-Analytics-Modelle in lokaler Hardware, der Cloud oder einer Hybrid-Lösung unterzubringen, können ihre Daten und Modelle mit DataRobot managen. Die Tools kombinieren automatisiertes Machine Learning mit einer Reihe von auf bestimmte Branchen fokussierte Routinen.

IBM

IBMs Predictive Analytics Toolset entstammt zwei verschiedenen Zweigen: SPSS wurde bereits in den 1960er Jahren gegründet und hat sich für viele Unternehmen, die mit Hilfe von Statistiken ihre Produktionslinien optimieren wollten, zur Grundlage entwickelt. Die Lochkarten-Ära hat das Tool dabei längst hinter sich gelassen: Inzwischen können auch Nicht-Programmierer Daten per Drag & Drop in ein grafisches User Interface überführen, um ausführliche Reportings zu generieren. IBM hatte SPSS im Sommer 2019 für rund 1,2 Milliarden Dollar übernommen.

Unter dem Dach des Watson-Brands versammelt IBM ein weiteres Analytics Toolset, das laufend weiter ausgebaut wird. Die Watson Tools für Predictive Analytics basieren in weiten Teilen auf iterativen Machine-Learning-Algorithmen, die sowohl Daten trainieren als auch Datenmodelle ausbilden können. Die Werkzeuge sind dabei in der Lage, Zahlen, Bilder oder unstrukturierten Text zu verarbeiten.

Lars Schwabe (Associate Director bei Lufthansa Industry Solutions

„Die Erfolgsquote von Predictive-Analytics-Projekten ist gestiegen, da die Firmen endlich die notwendigen Vorarbeiten geleistet haben, beispielsweise die Schaffung von modernen Datenarchitekturen. Außerdem sind inzwischen sowohl das Personal fachkundiger und die Tools besser geworden." Daniel Eiduzzis (Solution Architect Analytics bei Datavard)

„Technisch müssen sich die Unternehmen öffnen und sollten sich nicht sklavisch einem Hersteller verpflichten. Heute geht es vielmehr darum, in Abhängigkeit vom jeweiligen Use Case das ideale Instrument zu identifizieren, mit dem die Fragestellungen bestmöglich bedient werden. Daher kann ein Best-of-Breed Ansatz hier sinnvoll sein.“ Jan Henrik Fischer (Bereichsleiter Business Intelligence & Big Data bei Seven Principles)

„Mit Methoden der Predictive Analytics und der parallel weiter steigenden Digitalisierung werden wir Prozesse besser verstehen. Dies wird ausnahmslos alle Bereiche eines Unternehmens betreffen. Das größte Potenzial liegt dabei sicherlich in der Optimierung der Kundenprozesse. Durch ein tieferes Verständnis für seine Bedürfnisse werden wir in der Lage sein, den Kunden effizienter und besser zu bedienen sowie seine Loyalität zu steigern.“ Vladislav Malicevic (Vice President Development & Support bei Jedox)

„Viele Unternehmen experimentieren bereits seit längerem mit Predictive Analytics. Bislang mangelte es oft an konkreten Anwendungsfällen mit einem klaren Mehrwert, dem sogenannten Business Case. Aber die nächste Phase im Technologie-Lebenszyklus hat bereits begonnen, und Firmen führen nicht mehr nur rein innovationsgetriebene Experimente durch. Sie verknüpfen Predictive-Analytics- und KI-Projekte zunehmend mit einem bereits im Vorfeld klar definierten Mehrwert für bestimmte Fachbereiche oder Geschäftsprozesse, inklusive der erwarteten Ergebnisse und den möglichen Auswirkungen auf bisherige Prozesse.“

Information Builders

Die Datenplattform von Information Builders ermöglicht Data Architects, eine visuelle Pipeline aufzusetzen, die Daten sammelt, bereinigt und anschließend in die Analytics Engine "wirft". Werden dabei Informationen verarbeitet, die nicht für jeden sichtbar sein dürfen, gibt es die Option auf "Full Data Governance Models", darüber hinaus stehen auch spezifische Templates für einzelne Branchen wie die Industrie zur Verfügung, die Nutzern besonders schnelle Einblicke in die Datengeheimnisse gewähren soll.

MathWorks

Mit seiner MATLAB-Lösung wollte MathWorks ursprünglich Wissenschaftler bei der Forschung mit großen Datenmengen unterstützen. Inzwischen beherrscht MATLAB allerdings viel mehr als bloß die numerische Analyse von Daten: Die Produktlinie fokussiert mittlerweile auf Optimierung statistischer Analysen, während die SIMULINK-Produktgruppe für Simulations- und Modeling-Zwecke zum Einsatz kommt. Darüber hinaus bietet das Unternehmen auch spezielle Toolboxes für viele einzelne Märkte an, zum Beispiel autonome Mobilität oder Bildverarbeitung.

Python

Python ist inzwischen eine der beliebtesten Programmiersprachen - aber eben auch eine der populärsten Sprachen für Datenanalyse im Bereich der Wissenschaft. Viele Forschungseinrichtungen bringen Python-Code zum Einsatz, um ihre Daten zu analysieren. Datenwissenschaftler haben inzwischen die Daten und den analytischen Code in der App Jupyter Notebook gebündelt. Python Tools wie PyCharm, Spyder oder IDLE bringen neue, innovative Ansätze ins Spiel, die allerdings oft noch etwas Feinschliff benötigen und daher in erster Linie für Datenwissenschaftler und Softwareentwickler geeignet sind.

R

Technisch gesehen handelt es sich bei R lediglich um eine Open-Source-Programmiersprache für die Datenanalyse, die zu großen Teilen der akademischen Community entstammt. Die integrierten Tools R Studio, Radiant oder Visual Studio sind zwar qualitativ gut, aber eher etwas für Hardcore-Datenwissenschaftler und Programmierer. Wer aktuelle Community-Ideen zum Experimentieren sucht, wird hier sicher fündig. Viele der in diesem Artikel aufgeführten Tools erlauben die Einbindung von R-Code in Form von Modulen.

Rapid Miner

Rapid Miner ist so konzipiert, dass sich prädiktive Datenmodelle ohne Hilfestellung in möglichst kurzer Zeit automatisiert erstellen lassen. Die Entwickler bieten auch Jupyter Notebooks mit "automated selection" und "guided data preparation" an. Die verfügbaren Modelle basieren dabei auf Prinzipien wie dem klassischen Machine Learning, Bayescher Statistik oder diversen Formen des Clustering. Erklärungen zu den einzelnen Modellen geben darüber Aufschluss, wie genau die Modelle ihre Resultate ableiten.

SAP

Viele Unternehmen verlassen sich beim Management ihrer Lieferketten auf SAP. Da trifft es sich gut, dass die Reporting Tools der Walldorfer inzwischen auch Predictive Analytics unterstützen. So können beispielsweise Vorhersagen über Machine-Learning-Modelle getroffen werden, die auf "alten" Daten beruhen. KI-Fähigkeiten bringt die Software, die entweder lokal On-Premises oder in der Cloud laufen kann, ebenfalls mit. Spezifische User Interfaces mit fachbereichsübergreifender Konsistenz und die ausgeprägten Möglichkeiten auf mobilen Devices runden das Predictive-Analytics-Paket von SAP ab.

SAS Advanced Analytics

Das Predictive Analytics Toolset von SAS bündelt knapp zwei Dutzend verschiedene Pakete auf einer Plattform, die Daten sowohl in Insights als auch in Predictions verwandelt. Der Fokus des SAS Toolsets liegt dabei auf der Analyse von unstrukturierten Texten.

Tableau

Tableau hat sich mit seiner fast schon kunstvollen Aufbereitung von Reporting-Informationen einen Namen gemacht und wurde im vergangenen Jahr von Salesforce aufgekauft. Dashboards können bei Tableau nun mit Hilfe eines Embedded Analytics Models dazu genutzt werden, sich interaktiv über die Ergebnisse der Datenanalyse aufklären zu lassen. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation

 

Leave a Reply

Your email address will not be published. Required fields are marked *