Reverse ETL: Bedeutung und Anwendungsbereiche

Reverse ETL (Extract, Transform, Load) ist die neuste Technologie, um Rohdaten in ausgezeichnete Customer Experience oder erfolgreiche Marketingkampagnen zu verwandeln. Unternehmen benötigen eine Datenplattform, um Daten über mehrere Orte hinweg zu bewegen und sie für Analysten, Business- und Marketing-Teams bereitzustellen. Damit einher gehen komplexe Workflows, die eine Reihe von Technologien umfassen. Erfahren Sie, wie Reverse ETL diese Herausforderungen meistert und wie es einzusetzen ist.

Was ist Reverse ETL?

Reverse ETL ist eine Technologie zur Übertragung von bereinigten und analysierten Daten aus dem Data Warehouse zurück in Geschäftsanwendungen wie Salesforce. Dort lassen sich die Daten für Geschäftsabläufe und Prognosen heranziehen. Als Bestandteil des sogenannten Modern Data Stack ermöglicht die Technologie Unternehmen komplexere betriebliche Analysen, als dies mit BI-Tools allein möglich wäre.

Reverse ETL gibt es seit 2018, so richtig in Mode gekommen ist es allerdings erst 2021. Die Idee klingt einfach und überzeugend – damit ist aber noch nicht geklärt, ob Sie Reverse ETL wirklich brauchen. Wie Sie das herausfinden, welche spezifischen Herausforderungen die Technologie löst und welche Unternehmen am meisten davon profitieren, erfahren Sie im Folgenden.

Reverse ETL besser verstehen: Ein Blick in die Geschichte des Datenmanagements

Für ein besseres Verständnis der Rolle von Reverse ETL hilft es, die systemeigenen Unterschiede zwischen ausgereiften Datenmanagement-Plattformen und dem modularen oder "modernen" Daten-Stack zu kennen.

Seit Jahrzehnten haben Unternehmen den Wert von Daten für Markteinblicke und Geschäftsentscheidungen erkannt. Bereits in den 1980er Jahren setzten Technologieunternehmen Data Warehouses als zentralen Datenspeicher ein. Damals wie heute waren diese Lager eine Single Source of Truth, die Experten und Ingenieuren im gesamten Unternehmen saubere, standardisierte Daten zur Verfügung stellte.

Traditionelles Datenmanagement mit hohem Ressourcenaufwand

Die ersten Datenlager waren jedoch in physischen Servern vor Ort untergebracht. Nicht nur die Hardware selbst erforderte eine enorme Vorabinvestition. Auch der Betrieb dieser Server war teuer und benötigte hochtechnisierte Datenteams mit lokalem Zugriff auf die physische Hardware. Um nur eine einfache SQL-Abfrage ausführen zu können, mussten die Dateningenieure …

  1. die Daten manuell extrahieren,
  2. sie mit Hilfe von Technologien außerhalb der Server transformieren
  3. und schließlich wieder in das Warehouse laden.

Bekannt ist dieser Prozess als "ETL" – Extrahieren, Transformieren, Laden.

Traditionelle Datenmanagement-Plattformen entwickelten sich basierend auf diesem Muster. Unter der Voraussetzung hochtechnisierter Benutzer, boten sie Unternehmen alles, was sie für die durchgängige Verwaltung des gesamten Datenlebenszyklus benötigten. Erste Weiterentwicklungen der Plattformen präsentierten zwar diverse Low-Code-Optionen – als Prämisse der Betreiber galt allerdings weiterhin, dass Anwender Zugang zu Experten haben. Unternehmen mit den nötigen Ressourcen für den Betrieb einer On-Premise-Datenbank waren grundsätzlich auch in der Lage waren, sich entsprechende Dateningenieure für die Datenverarbeitung zu leisten. Diese Form des Datenmanagements funktionierte also gut – zumindest eine Zeit lang.

Paradigmenwechsel durch Cloud-Computing

Alles änderte sich, als dieses „Datenlager“ in die Cloud wanderte. Mit geteilten Servern und Fernzugriff wurden sowohl die Datenspeicherung als auch die -verarbeitung deutlich billiger. Innerhalb weniger Jahre konnten es sich so kleinere Unternehmen und Start-ups leisten, ihre Daten in ein cloudbasiertes Warehouse zu verlagern. Sie nutzten nun ebenso die Vorteile der Verfügbarkeit einer Remote-Source of Truth. Allerdings gab es nach wie vor Hindernisse: In kleinen, unstrukturierteren Unternehmen sind selten genügend technische Ressourcen und Fähigkeiten vorhanden, um eigenständig Pipelines oder Modelle für das Verschieben und Verarbeiten von Daten zu bauen.

Die Rolle von Reverse ETL im Modern Data Stack

Mit der Cloud-Technologie ist nach und nach ein ganzes Ökosystem von Einzellösungen entstanden. Diese verschaffen auch kleineren Unternehmen Zugang zu den Vorteilen einer groß angelegten Automatisierung und Datenverarbeitung. Diese Lösungen sind oft Low-Code und vergleichsweise kostengünstig. Sie ermöglichen es jüngeren Unternehmen, eine modulare Infrastruktur Stück für Stück und mit wenig technologischen Know-how aufzubauen.

Die Rede ist dann vom sogenannten Modern Data Stack – ein System an Tools für die cloudbasierte Datenverarbeitung. Dieses System erlaubt es, sich auf vorhandenen Ressourcen zu stützen, anstatt eine massive Vorabinvestition in eine vollständige Dateninfrastruktur zu tätigen. Im Folgenden werden die einzelnen Komponenten genauer beleuchtet.

Data Warehouses

Seit den Anfängen des Datenmanagements ist das Data Warehouse die Grundlage der Dateninfrastruktur eines jeden Unternehmens. Das Datenlager oder sein enger Verwandter, der Data Lake, bietet ein zentrales Repository. Hier lassen sich Daten verwalten, bereinigen und für Business Intelligence bereitstellen.

Ein Cloud-Data-Warehouse wie Snowflake oder BigQuery kann auch über einige native Verarbeitungsfunktionen verfügen. Diese ermöglichen es Geschäftsanwendern, SQL-Abfragen direkt im Warehouse auszuführen.

Data Loaders

Die im Warehouse gespeicherten Daten müssen jedoch irgendwoher kommen. An dieser Stelle kommen Data Loader ins Spiel: Ein Data Loader zieht Rohdaten aus einer Vielzahl von Datenquellen, Systemen und SaaS-Anwendungen, um diese Daten anschließend in die für Analysezwecke optmierte zentrale Datenbank aufzunehmen. Dieser Prozess geschieht in Echtzeit oder nahezu in Echtzeit.

Der klassische Ansatz für diesen Prozess wird als „ELT“ bezeichnet, was für Extrahieren (extract), Laden (load) und Transformieren (transform) steht. Es gibt zwar viele verschiedene Nuancen zwischen ELT und ETL, am einfachsten lässt sich der Unterschied jedoch wie folgt erklären:

  • ETL verwendet eine ausgereifte Datenmanagement-Plattform, um Daten zu transformieren, bevor sie in das Data Warehouse gelangen.
  • ELT – als eine Komponente des Modern Data Stack – lädt Rohdaten direkt in das Datenlager, wo andere Module die Datentransformation übernehmen und dabei die Verarbeitungsleistung des Warehouses nutzen.

Moderne Data Loader sind für eine andere Zielgruppe als klassische ETLs konzipiert. Im Vordergrund stehen Teams, die einen hohen Bedarf an Flexibilität und direktem Zugriff auf Datenquellen haben, aber nicht über das gleiche Maß an technischem Know-how verfügen. Um diesen Markt besser zu bedienen, bieten Data Loader eine Vielzahl vorgefertigter Konnektoren an, die sich oft auf kleinere, vertikal spezialisierte und „self-service“ SaaS-Apps konzentrieren.

Stitch ist ein beliebter Data Loader, der es auch technisch nicht versierten Benutzern leicht macht, Daten aus einer Reihe von Anwendungen zu extrahieren und in ihr Data Warehouse zu laden.

Datentransformation

Data Loader liefern Mehrwert, indem sie einfach und schnell auf Datenquellen zugreifen und entsprechende Daten im Warehouse verfügbar machen. Dabei kopieren und fügen sie Rohdaten jedoch lediglich ein – ohne sie zu verändern. Doch Rohdaten sind erst brauchbar für Analysen oder Business Intelligence, wenn sie bereinigt und angereichert sind.

Im Modern Data Stack lassen sich viele einfache Transformationen mit der nativen Verarbeitungsleistung des Warehouse durchführen. Allerdings ist diese Verarbeitung in der Regel auf SQL-Abfragen beschränkt. Zusätzliche Technologien, von denen das Entwicklungsframework dbt die populärste ist, erweitern die nativen Modellierungsmöglichkeiten des Warehouse. Innovationen wie diese ermöglichen es den Benutzern, komplexere Datenmodelle mit Java oder Python direkt im Warehouse zu erstellen, ohne die Daten extrahieren und neu laden zu müssen.

Reporting

Der Zweck all dieser Technologien und Prozesse besteht letztendlich darin, sicherzustellen, dass die Unternehmensteams relevante und nützliche Erkenntnisse aus den Daten gewinnen. Dazu ist ein Business Intelligence (BI)- oder Reporting-Tool wie beispielsweise Looker erforderlich.

Mit Reporting-Tools können Benutzer Analysen durchführen und hilfreiche Reporting-Dashboards erstellen, indem sie aktuelle Daten des Unternehmens direkt aus dem Datenspeicher verwenden. Oft handelt es sich dabei um Low-Code-Technologie – somit wird auch technisch nicht versierten Benutzern ermöglicht, visuelle und informative Dashboards für Marketing, Finanzen und andere Abteilungen zu erstellen.

Reverse ETL – der Kreislauf schließt sich

Aber was passiert, wenn das Dashboard nicht ausreicht? Denn manchmal profitieren gleichermaßen die im operativen Geschäft verwickelten Akteure von den aktuellen konsolidierten und transformierten Daten aus dem Warehouse. Die Lösung hierfür: Reverse ETL.

Ein Reverse-ETL-Tool extrahiert aktuelle Daten aus dem Data Warehouse, wandelt sie um und lädt sie in ein operatives System oder eine Anwendung. Dieser Prozess kommt in einer Vielzahl von Anwendungsfällen zum Tragen – und zwar immer dann, wenn Business User transformierte Daten oder die Ergebnisse der Datenmodellierung in ihren bevorzugten Anwendungen verwenden möchten. Insbesondere Schlüsselmetriken, wie z. B. CLV (Customer Lifetime Value), sind hierfür von besonderer Relevanz. In einem Looker-Dashboard bieten diese Daten dem Vertriebsteam keinen Mehrwert. Wird die Metrik dagegen in Salesforce (oder einem anderen CRM) zur Verfügung gestellt, ist das Vertriebsteam in der Lage, sein Reporting und Prognosen zu verbessern.

Mit einem modernen Tech-Stack sind verschiedene Methoden für Reverse-ETL möglich:

1. Reverse ETL mit individueller Programmierung

Mit genügend verfügbaren Fachkräfte lassen sich individuelle Schnittstellen programmieren. Zudem ist der Rückgriff auf APIs möglich, um Daten aus dem Data Warehouse in die einzelnen Geschäftsanwendungen zu übertragen. In einem kleinen Unternehmen ist dies jedoch weitaus unwahrscheinlicher, da dort jeder verfügbare Entwickler bereits anderweitig eingeplant ist.

2. Reverse ETL mit nativen Integrationen

Alternativ sind oft native Integrationen vorhanden, die Tools miteinander verbinden - zum Beispiel Salesforce und Slack. Allerdings gibt es hierbei Einschränkungen: Nicht jedes SaaS-Tool verfügt über die benötigten nativen Integrationen.

3. Spezielle Reverse-ETL-Lösungen

Schließlich ist die Verwendung speziell entwickelter Reverse-ETL-Lösungen wie Hightouch oder Census eine weitere Option. Vergleichbar mit ELT-Lösungen wie Stitch sind sie mit Konnektoren ausgestattet, die allerdings der umgekehrten Datenübertragung dienen: Anstatt Daten aus einer Reihe von Geschäftsanwendungen in das Warehouse zu übernehmen, lädt das Tool die Daten aus dem Warehouse zurück in Geschäftsanwendungen – komplizierte Einstellungen oder zusätzlichen Code braucht es dafür nicht.

Für wen ist Reverse ETL sinnvoll?

Braucht Ihr Unternehmen Reverse ETL? Die Antwort lautet: Möglicherweise, aber nicht zwangsläufig.

Der „moderne" Data Stack ist modern in dem Sinne, dass er sich die aktuellen Technologietrends zunutze macht – z. B. die Möglichkeit, zwischen verschiedenen Best-of-Breed-Lösungen zu wählen. Aber modern bedeutet eben nicht zwangsläufig, dass dies in jeder Situation der beste Ansatz ist.

Größere Firmen bevorzugen das Altbewährte

Die meisten größeren Firmen bevorzugen nach wie vor einen ausgereiften Tech-Stack für das Datenmanagement. Das hat folgende Gründe:

  • ihre Leistungsstärke
  • ihr Umfang
  • ihre Anpassbarkeit
  • Sie operieren in einer On-Premis- oder Hybrid-Cloud-Umgebung, in der sie mit lokalen Servern für die Datenspeicherung und -verarbeitung arbeiten.
  • Ein Unternehmen mit den nötigen Ressourcen neigt dazu, eine besser regulierte, robuste API-Strategie einzuführen, die gleiche Funktionen wie Reverse ETL erfüllt.

In einem ausgereiften Daten-Stack besteht also keine Notwendigkeit für Reverse ETL. Aus dem einfachen Grund, dass es in der Praxis keinen Unterschied zwischen dem Aufbau einer Pipeline zum Verschieben von Daten aus Salesforce in Snowflake oder eben aus Snowflake in Salesforce gibt. Solange die Ressourcen und das Fachwissen vorhanden sind, bleibt das Prinzip das gleiche. Zudem sind die fortschrittlichen, ausgereiften Datenmanagement-Plattformen, einschließlich Talend Data Fabric, zunehmend benutzerfreundlich und bieten Low-Code-Optionen. Diese erlauben es in gleicher Weise Nutzern mit geringen technischen Kenntnissen, bidirektionale Datenpipelines zu erstellen.

Kleine Unternehmen und Start-Ups stehen vor der Wahl

Am anderen Ende des Spektrums gibt es viele kleinere Unternehmen und Start-ups, die ebenso keinen Bedarf an Reverse-ETL haben. Da sie mit einem kleineren Team und begrenzteren Anforderungen arbeiten, sind sie möglicherweise in der Lage, alle benötigten Erkenntnisse aus Dashboards und Reports zu gewinnen. Auch wenn sie mit einem Modern Data Stack arbeiten, kann es Monate oder sogar Jahre dauern, bis sie eine spezifische, agile Lösung benötigen, um Daten für das gesamte System bereitzustellen.

Letztlich gibt es keine Einheitslösung für das Datenmanagement. Reverse ETL bietet eine effiziente Lösung für Unternehmen, die ihren Modern Data Stack mit mehreren Datenpipelines ausstatten wollen. So finden Daten auf direktem Weg zurück in Geschäftsanwendungen.

Die Zukunft des Modern Data Stack

Reverse ETL ist noch eine junge Technologie. Sie ist aber ein starkes Indiz für das, was noch kommen wird. Der Hauptvorteil des Modern Data Stack ist seine Agilität. Ein Unternehmen hat alle Freiheiten, zunächst nur die Lösungen mit dem größten unmittelbaren Nutzen zu implementieren. Wenn sich die Anforderungen und Ressourcen ändern, lässt sich der Stack jederzeit ausbauen. Das Ergebnis ist eine effiziente, kostengünstige und reaktionsschnelle Lösung.

Allerdings zeigt einem diese Auslegung des Datenmanagements auch schnell Grenzen auf. Durch den modularen Aufbau sind bestimmte Funktionen eben nur mit entsprechendem Modul vorhanden – es gibt Lücken. Obwohl sich die Landschaft ständig verändert, verfügt der Modern Data Stack aktuell noch über keine ausgereiften Module für Datenqualität, Datenkatalogisierung oder Data Governance.

Somit lässt sich festhalten: Der Modern Data Stack hat seine Grenzen – jedoch ist er mit der Ergänzung von Reverse ETL einen Schritt näher an die Funktionalität der ausgereiften Tech-Stacks von Großunternehmen herangerückt.

Sind Sie bereit, mit Talend durchzustarten?