Cloudera fügt seiner Datenplattform Data Engineering und Visualisierung hinzu

Eine Mapbox-Heatmap in der Cloudera-Datenvisualisierung

Bildnachweis: Cloudera

In Verbindung mit dem zweiten Tag seiner virtuellen Cloudera Now-Veranstaltung kündigt Cloudera neue “Erfahrungen” im Bereich Data Engineering und Datenvisualisierung innerhalb seiner Cloudera Data Platform (CDP) an. Diese ergänzen eine neue operative Datenbank, die ebenfalls heute angekündigt und von Tony Baer in einem separaten Beitrag ausführlich behandelt wird.

Muss lesen:

  • Cloudera fügt dem Cloud-Service eine operative Datenbank hinzu
  • Cloudera Data Platform startet mit Multi-/Hybrid-Cloud-Kenntnissen und geringerer Hadoop-Komplexität
  • Cloudera Data Platform Private Cloud angekündigt

CDP bot unter anderem bereits Data Hub-, Data Warehouse- und Machine Learning-Komponenten an. Jetzt fügen die neuen Komponenten Cloudera Data Engineering und Cloudera Data Visualization ETL- und BI-Chops hinzu. Ein Kontingent von Cloudera, darunter Senior Product Marketing Manager Santiago Giraldo, informierte ZDNet über die Details.

Data Engineering als Teamsport

Cloudera Data Engineering (CDE) scheint das strategischere der beiden Angebote zu sein. Cloudera bringt CDE auf den Markt, weil sich das Data Engineering von einer Aufgabe, die von ein oder zwei Personen in einer bestimmten Geschäftseinheit erledigt wird, zu projektorientierter Arbeit entwickelt, die von autonomen Data-Engineering-Teams bearbeitet wird, die möglicherweise mehrere Kunden/Kunden betreuen. In diesem Szenario reicht die manuelle Ausführung von Data Engineering-Code in einem Notebook nicht aus. Stattdessen sind Bereitstellung, Versionierung, Planung und Verwaltung im Unternehmen erforderlich.

image-3-cdp-data-engineering.png

Untersuchen von Arbeitsleistungsmetriken in Cloudera Data Engineering

Bildnachweis: Cloudera

Daher liegt der Schwerpunkt von CDE auf den operativen Aspekten von Data Engineering-Aufträgen und nicht auf der Erstellung dieser Jobs. Für Letzteres können Dateningenieure Skripte in den verschiedenen Sprachen erstellen, die von Apache Spark (der CDEs zugrunde liegenden Ausführungs-Engine) unterstützt werden, und diese in CDE bereitstellen. Cloudera sagt jedoch auch, dass Pipelines, die in ETL- und Datenvorbereitungsplattformen bestimmter Drittanbieter (mit spezieller Erwähnung von Informatica und Trifacta) erstellt wurden, auch für CDE bereitgestellt werden können.

Sobald die Skripte oder Pipelines bereitgestellt sind, können Kunden CDE innerhalb der Shared Data Experience (SDX) von CDP verwenden, um die Jobs zu planen, zu überwachen und zu verwalten (Cloudera bietet jedoch auch eine Befehlszeilenschnittstelle). CDE verwendet Apache Airflow, um die Jobausführungen zu planen und als Kubernetes-Container bereitzustellen. Außerdem werden REST-Endpunkte für die Bereitstellungen erstellt, sodass sie beispielsweise von Code ausgelöst werden können, der in Amazon Web Services (AWS) Lambda ausgeführt wird, möglicherweise als Reaktion auf den Eingang einer Datendatei in S3.

Datenvisualisierung in der Datenplattform

Cloudera Data Visualization (gerenderte Ausgabe, die in der Abbildung oben in diesem Beitrag gezeigt wird) bietet visuelle Dashboard-, Berichts- und Diagrammfunktionen in Cloudera Data Warehouse und Cloudera Machine Learning von CDP. Die Technologie kam durch die Übernahme von Arcadia Data im Jahr 2019 zu Cloudera und bietet die natürlichen Sprachabfragefunktionen von Arcadia als eigenständiges Produkt.

Lesen Sie auch:

  • Cloudera erwirbt Arcadia Data und zeigt eine Verbesserung im zweiten Quartal
  • Arcadia Data bringt natürlichsprachliche Abfragen in den Data Lake

Cloudera-Datenvisualisierung soll nicht mit Banner-BI-Angeboten wie Tableau oder Microsofts Power BI konkurrieren, sondern bietet vielmehr In-Situ-Datenvisualisierungsfunktionen, die Analysten und Datenwissenschaftler nutzen können, ohne CDP verlassen zu müssen. Die Visualisierungsressourcen können als Anwendungen verpackt und ausgeführt werden und übertreffen damit bei weitem die rudimentäreren Datenvisualisierungsfunktionen, die in Jupyter-Notebooks und dergleichen integriert sind.

Cloudera Data Engineering ist innerhalb von CDP auf AWS allgemein verfügbar (GA). Die Cloudera-Datenvisualisierung befindet sich in der technischen Vorschau; Cloudera erwartet, dass es später in diesem Kalenderjahr GA erreichen wird.

Cloudera ist Kunde von Brusts Beratungsunternehmen Blue Badge Insights.

Leave a Comment