SQL Server 2019 – das bieten Big Data-Cluster-Big-Data-Enzyklopädie

Was ist eine Instance beim Cloud Computing? – Cloud-Instances – AWS

Eine Cloud-Instance ermöglicht es Softwareentwicklern, über traditionelle physische Grenzen hinaus zu skalieren. Im Gegensatz zu physischen Servern müssen sich Entwickler bei der Bereitstellung von Workloads in einer Cloud-Instance keine Gedanken über die zugrunde liegende Hardware machen. Cloud-Instances bieten zwei Hauptvorteile.

Skalierbarkeit

Entwickler skalieren Rechenressourcen in einer Cloud-Instance entsprechend ihren Workload-Anforderungen. Softwareentwickler stellen beispielsweise eine Anwendung auf einer Instance bereit. Da die App mehr Benutzer gewinnt, kommt es zu einem enormen Datenverkehr, der die Reaktionszeit verlangsamt. Entwickler können Cloud-Ressourcen horizontal skalieren, indem sie die CPU-, Arbeitsspeicher-, Speicher- und Netzwerkressourcen für die jeweilige Instance erhöhen.

Fehlertoleranz

Unternehmen schaffen Redundanz, indem sie mehrere doppelte Instances als Backup verwenden. Sie sind besonders nützlich für die Verwaltung von speicherintensiven Workloads wie der Datenverarbeitung. Beispielsweise kann eine Anwendung weiterhin auf anderen Instances in den USA und Asien ausgeführt werden, wenn eine in Europa gehostete Cloud-Instance ausfällt.

Die flexible Lösung von IONOS Cloud

Unabhängig von der Datenstruktur und -menge: Wenn Sie heterogene, aus unterschiedlichen Quellen stammende Rohdaten in sehr großen Datenspeichern (Data Lake) ablegen und in Echtzeit oder in Batch-Prozessen verarbeiten wollen, bieten Ihnen Big Data Technologien von IONOS Cloud die perfekte Möglichkeit dazu.

Ob Event-Streaming Dienste oder Business Intelligence Anwendungen: IONOS Cloud stellt eine vielseitige und performante Big Data Plattform zur Verfügung, die sichere, souveräne Datennutzung ermöglicht.

SQL Server 2019 – das bieten Big Data-Cluster

SQL Server Big Data-Cluster – das sollten Sie wissen

Zu den mit besonderer Spannung erwarteten Features von SQL Server 2019 gehörte die Einführung von SQL Server Big Data-Clusters (BDCs), die heutzutage von vielen Unternehmen aktiv genutzt werden. Doch was sind Big Data Clusters und was sind die wichtigsten Anwendungsfälle? In diesem Blogbeitrag erfahren Sie mehr.

Big Data-Cluster – dies Eigenschaften zeichnen das Feature aus

Big Data-Cluster nutzen Erweiterungen von PolyBase in SQL Server 2019, um die Virtualisierung von Daten aus einer Vielzahl von Quellen über externe Tabellen zu ermöglichen. Über externe Tabellen können Daten, die sich nicht physisch auf der lokalen SQL Server-Instanz befinden, so abgefragt werden, als ob sie lokal vorhanden wären. Eine Verknüpfung mit lokalen Tabellen ist möglich und hilft eine nahtlose Ergebnismenge zu erzeugen.

Auf Daten aus Remote-SQL Server-Instanzen, Azure SQL-Datenbank, Azure Cosmos DB, MySQL, PostgreSQL, MongoDB, Oracle und vielen anderen Quellen kann über externe PolyBase-Tabellen zugegriffen werden. In einem Big Data-Cluster bietet die SQL Server-Engine auch integrierte Unterstützung für das Hadoop Distributed File System (HDFS) und kann alle diese Datensätze zusammenführen, was eine einfache Integration von relationalen und nicht relationalen Daten ermöglicht.

Mittels Big Data-Cluster können Datenwissenschaftler und Ingenieure auf Daten in einer skalierbaren, verteilten In-Memory-Rechenschicht zugreifen und diese bearbeiten. Die Daten können für maschinelles Lernen, KI und andere Analyseaufgaben verwendet werden.

Wie funktioniert ein Big-Data-Cluster?

Aus architektonischer Sicht sind Big-Data-Cluster (BDC) Cluster von Containern (zum Beispiel Docker-Containern). Diese skalierbaren Cluster führen SQL Server, Spark, HDFS und andere Dienste aus. Jeder Aspekt eines BDC wird in einem Container ausgeführt, und alle diese Container werden von Kubernetes verwaltet, einem Container-Orchestrierungsdienst. Gruppierungen von Containern, bekannt als Pods, werden in Pools gruppiert, die die Hauptkomponenten eines Big Data-Clusters bilden.

Zu den Komponenten eines Big Data-Clusters zählt die Masterinstanz. Hierbei handelt es sich um eine SQL Server 2019-Instanz, die als Hauptverbindungsendpunkt für SQL-Abfragen dient und Metadaten sowie Benutzerdatenbanken mit Lese-/Schreibzugriff im BDC speichert.

Bei einem SQL-Datenpool handelt es sich um eine Sammlung von SQL Server-Instanzen, über die Datensätze verteilt werden können, wodurch horizontal skalierte Abfragefunktionen für häufig aufgerufene Daten ermöglicht werden. Dies kann sehr nützlich sein, um große Tabellen zu speichern, die sich sonst auf der Masterinstanz befinden würden. Ergebnisse komplexer Abfragen können in einem SQL-Datenpool zwischengespeichert werden.

Als weitere Komponente ist der Speicherpool zu nennen. Hierbei handelt es sich um eine skalierbare Speicherebene, die HDFS, Spark und SQL Server hostet. Unstrukturierte und halbstrukturierte Datendateien wie Text mit Trennzeichen können hier gespeichert und über externe SQL Server-Tabellen oder jedes andere Tool, das eine Verbindung zu HDFS herstellen kann, aufgerufen werden.

Bei einem Compute-Pool handelt es sich um eine Sammlung von SQL Server-Compute-Knoten, die eine Scale-out-Verarbeitung ermöglichen, indem Abfragen von der Masterinstanz erleichtert werden. Endbenutzer haben keinen direkten Zugriff auf den Compute-Pool. Der Anwendungspool besteht aus einer Reihe von Schnittstellen, die es Anwendungen ermöglichen, die R-, Python-, SSIS- und MLeap-Laufzeiten auf dem BDC auszuführen. BDCs enthalten noch mehrere andere Komponenten wie Webdienste für die Überwachung und Verwaltung des Clusters.

Für diejenigen, die lieber eine GUI verwenden, kann Azure Data Studio eine wichtige Rolle bei der Verwaltung von Big Data-Clustern spielen. Zusätzlich zu SQL Server-Aufgaben können Sie mit Azure Data Studio einen BDC erstellen und verwalten,

Was sind einige der wichtigsten Anwendungsfälle für Big Data-Cluster?

Stellen Sie sich vor, ein Data Warehouse (zu deutsch „Datenlager“) für einen großen Einzelhändler zu verwalten, in dem regelmäßig Transaktionsdaten von den Filialen und der Website eingehen. Bei einem Data Warehouse handelt es sich um eine für Analysezwecke optimierte zentrale Datenbank. Während einige Daten im Warehouse definitiv relational sind und als solche gespeichert werden sollten, ist dies bei den Millionen von täglichen Transaktionen, die über Textdateien mit Trennzeichen geliefert werden, nicht der Fall.

Während ein ETL-Prozess verwendet werden könnte, um all diese Daten in eine relationale Datenbank zu laden, würde dies eine zusätzliche Komplexitätsebene hinzufügen, einen weiteren zu wartenden Prozess erstellen und Zeit für die Ausführung benötigen.

Big Data-Cluster ermöglichen es, die großen Datenbestände in ihrem nativen Format zu speichern und ohne weitere Verarbeitung zu analysieren. Darüber hinaus können sowohl relationale als auch Big Data kombiniert werden, indem physische und virtuelle Tabellen wie jede andere SQL-Abfrage verknüpft werden. Zusätzlich stehen die großen Datenbestände für die Analyse mit Spark oder R zur Verfügung.

Die Flexibilität, die ein SQL Server Big Data-Cluster bietet, eröffnen viele Anwendungsfälle. Wenn eine Kombination von relationalen Daten, nicht relationalen Daten und/oder Big Data gefragt ist, sollte ein SQL Server Big Data-Cluster in Erwägung gezogen werden. Auch wenn ein sofortiger Zugriff auf Daten durch Datenvirtualisierung gewünscht ist, stellt das SQL Server 2019 Feature eine denkbare Lösung dar. Ohne Duplizierung können dieselben Daten sowohl über SQL Server als auch über Spark abgefragt werden. Wer eine konsistente Lösung einsetzen mochte, die innerhalb von Azure, in anderen öffentlichen Clouds oder lokal bereitgestellt werden kann, ist mit einem SQL Server Big Data-Cluster gut beraten.

Zusammenfassend lässt sich sagen, dass SQL Server Big Data-Cluster eine sehr willkommene und innovative Ergänzung der Microsoft Data Platform sind. Wenn Sie SQL Server 2019 günstig kaufen möchten, werden Sie bei BestSoftware fündig. Wir bieten Ihnen die effiziente Serversoftware zu einem herausragenden Preis-Leistungs-Verhältnis an

SQL Server 2019 – das bieten Big Data-Cluster

Was ist eine Instance beim Cloud Computing? – Cloud-Instances – AWS

Die flexible Lösung von IONOS Cloud

SQL Server 2019 – das bieten Big Data-Cluster

Leave a Reply Cancel reply