Extract Load Transform (ELT) – Definition, Ablauf und Vorteile
Mit dem Extract-Load-Transform-Prozess bietet sich Unternehmen eine Möglichkeit, ihren Zeit- und Kostenaufwand für Datenintegrationen nachhaltig zu reduzieren. Denn in einer datengetriebenen Welt stellt ein bewährter Prozess zum Verschieben und Transformieren von Analysedaten einen wichtigen Faktor dar, um das Firmenwachstum zu fördern.
Das Verfahren des Extrahierens, Ladens und Transformierens (ELT) von Rohdaten erleichtert Data-Warehousing-Aufgaben sowie das Management von Big Data. Dadurch ergibt sich für Unternehmen die Chance, den Fokus auf bereits verarbeitete, verwertbare Daten zu legen und daraus gehaltvolle Erkenntnisse abzuleiten.
Was ist ELT?
Extract Load Transform (ELT) bezeichnet einen Datenverarbeitungsprozess, bei dem Daten zunächst aus einer oder mehreren Quellen extrahiert (Extract) werden. Anschließend werden sie auf den Zielserver, in ein Data Warehouse geladen (Load) und in diesem transformiert (Transform). Der ELT-Prozess erfordert lediglich Rohdaten und weniger Remote-Quellen als andere Verfahren, womit er eine bewährte Alternative zum klassischen ETL-Prozess (Extract Transform Load) darstellt.
ELT wird bereits seit einiger Zeit von Unternehmen angewendet, um Rohdaten zu verarbeiten bzw. zu integrieren. Das Verfahren erweist sich vor allem dann als vorteilhaft, wenn große Datenmengen für Business Intelligence (BI) oder Datenanalysen aufbereitet und strukturiert werden müssen. Mit der zunehmenden Verbreitung von Tools wie Apache Hadoop sowie cloudnativen Data Lakes gewinnt ELT weiter an Popularität.
ELT-Prozess – Schritt für Schritt erklärt
Immer häufiger werden Rohdaten aus verschiedenen Quellen extrahiert und in ein Data Warehouse(Zielspeicherort) geladen, um sie dort in aussagekräftige Informationen zu transformieren. Die drei Schritte des ELT-Prozesses werden im Folgenden näher erläutert:
- Extract (Extrahieren): Aus der gesamten virtuellen Infrastruktur, aus Anwendungen sowie aus der Software eines Unternehmens werden zunächst die zu verarbeitenden Rohdatensätze gewonnen. Diese werden in ihrem vollen Umfang oder gemäß vordefinierten Regeln integriert.
- Load (Laden): Bei diesem Schritt zeigt sich der erste Unterschied zwischen dem ELT- und dem ETL-Prozess. Anstatt die Rohdaten auf einen Zwischenverarbeitungsserver zu laden, um sie dort zu transformieren, werden sie direkt an ihren Zielspeicherort geliefert. Dadurch reduziert sich die Zeit zwischen Extraktion und Lieferung.
- Transform (Transformieren): Das Data Warehouse strukturiert und vereinheitlicht die Rohdaten, die vollständig bzw. zum Teil erhalten bleiben und für kundenspezifische Reports zugänglich gemacht werden. Die Speicherung derart großer Datenmengen ist zwar aufwendiger, bietet jedoch die Möglichkeit, die Daten u. a. für Business-Intelligence-Zwecke in nahezu Echtzeit abzurufen.
ETL vs. ELT: Gegenüberstellung der Datenintegrationsverfahren
Sowohl ELT (Extract Load Transform) als auch ETL (Extract Transform Load) sind als Prozesse der Datenintegration weit verbreitet. Obwohl ihre ähnlichen Bezeichnungen das Gegenteil vermuten lassen, unterscheiden sich die beiden Verfahren in einigen Aspekten. Die zwei wohl wichtigsten Unterschiede zwischen ELT und ETL bestehen dabei hinsichtlich …
- … der Phase im Prozess, in der die Daten transformiert werden.
- … der Datenmengen, die in Data Warehouses gespeichert werden.
Anders als im ELT-Prozess erfolgt die Transformation der Rohdaten im ETL-Verfahren bevor diese in ein Data Warehouse geladen werden. Dadurch können Anwender schneller auf die benötigten Daten zugreifen, ohne komplexe Transformationen vornehmen zu müssen. ELT hingegen erleichtert die Konfiguration von Jobs, da lediglich ein Ursprung und ein Ziel (Datenquelle(n) und Zielserver) erforderlich sind.
Weiterhin können bei ELT die Rohdatensätze, die transformiert werden sollen, aus vielen unterschiedlichen Remote-Quellen extrahiert werden. Es bestehen keine Beschränkungen.
ELT: Unterschiede zu ETL im Überblick
Auch hinsichtlich der folgenden Aspekte bestehen Unterschiede in den Ansätzen zur Datenintegration:
- Ladezeit: Mit dem Extract-Load-Transform-Verfahren lassen sich Daten aus den Quellsystemen wesentlich schneller an das Zielsystem übermitteln als mit ETL.
- Transformationszeit: Bei ELT gilt das On-Demand-Prinzip – Datentransformationen erfolgen nach Bedarf und nutzen die Rechenleistung des Zielsystems. Dadurch verkürzt sich die Wartezeit vor Transformationen.
- Komplexität: ETL-Lösungen verfügen i. d. R. über eine einfach zu bedienende grafische Benutzeroberfläche (GUI). ELT hingegen setzt fundierte Kenntnisse in BI-Tools, Rohdaten in großen Mengen und eine Datenbank voraus, die diese effektiv transformieren kann.
- Data Warehouse Support: Während ETL sich besser für ältere On-Premises Data Warehouses und strukturierte Daten eignet, ist ELT für die Skalierbarkeit in der Cloud ausgelegt.
- Wartung: ETL bedeutet einen erheblichen Wartungsaufwand, um Daten im Data Warehouse aktualisieren zu können. Anders ist das mit ELT, womit die Daten stets in nahezu Echtzeit verfügbar sind.
Es wird ersichtlich, dass sowohl der ELT- als auch der ETL-Prozess jeweils seine Vor- und Nachteile mit sich bringt und dementsprechend beide ihre Daseinsberechtigung in der Wettbewerbslandschaft haben. Welcher Prozess sich tatsächlich besser eignet und zu brauchbaren Ergebnissen führt, hängt stets von den individuellen Anforderungen und Zielen des jeweiligen Unternehmens ab.
Extract Load Transform – Vorteile des Verfahrens
In Unternehmen gibt es immer mehr verschiedene Datentypen zu verwerten – und auch das generelle Datenvolumen steigt geradezu explosionsartig an. Derart große Mengen an Daten zu verarbeiten, bedeutet eine enorme Belastung für herkömmliche Data Warehouses. Eine Möglichkeit, die umfangreichen Datensätze – bestehend aus verschiedenen Datentypen – aufzubereiten, bietet das ELT-Verfahren. Es bringt u. a. die folgenden Vorteile mit sich:
- Vereinfachte Verwaltung: Im Prozess Extract Load Transform werden die Schritte des Ladens und des Transformierens getrennt voneinander ausgeführt. Risiken, die durch eine gegenseitige Abhängigkeit dieser beiden Aufgaben entstehen könnten, werden so vermieden. Zudem lässt sich durch ELT das Projektmanagement vereinheitlichen.
- Zukunftssichere Datensätze: ELT-Implementierungen können direkt für Data-Warehouse-Systeme genutzt werden. Oftmals wird es aber im Rahmen des Data-Lake-Ansatzes verwendet, wobei Daten aus verschiedenen Quellen gesammelt werden. Neben der Trennung des Transformationsprozesses erleichtert dies die Durchführung zukünftiger Änderungen in der Warehouse-Struktur.
- Moderne Technologien: ELT-Tools machen Gebrauch von den Möglichkeiten neuer Technologien, um die Sicherheit und Compliance im gesamten Unternehmen zu verbessern bzw. voranzutreiben. Zudem werden im Rahmen von ELT systemeigene Fähigkeiten moderner Cloud Data Warehouses und großer Data Processing Frameworks genutzt.
- Kosteneinsparung: Aufgrund der hohen Verarbeitungsgeschwindigkeit der Data Warehouses verringert sich die Zeit, die die Daten in Transit verbringen, was die Kosten insgesamt senkt. Zudem kommen für cloudbasierte ELT-Tools vergleichsweise niedrige Betriebskosten zustande, da keine Vorabinvestition in Hardware nötig ist.
- Flexibilität: Das ELT-Verfahren ist anpassungsfähig und flexibel, sodass es sich für eine Vielzahl von Unternehmen, Anwendungen und Zielen eignet.
- Skalierbarkeit: Die Skalierbarkeit einer ELT-Cloud-Infrastruktur und gehosteter Dienste wie Integration Platform-as-a-Service (iPaaS) und Software-as-a-Service (SaaS) geben Unternehmen die Möglichkeit, ihre Ressourcen im laufenden Betrieb zu erweitern. Sie können die Rechenleistung und den Speicherplatz in dem Umfang hinzubuchen, den sie für große Datentransformationsaufgaben benötigen.
ELT und Data Lakes – die Zukunft der Datenintegration?
Moderne, cloudbasierte Infrastrukturen bieten äußerst umfangreiche Datenspeicher sowie eine skalierbare Rechenleistung zu geringen Kosten. Dies ermöglicht es Unternehmen, Petabytes an Daten in großen, erweiterbaren Data Lakes aufzubewahren und sie bei Bedarf schnell zu verarbeiten. Die Verbreitung jener Data Lakes hat es einigen Unternehmen ermöglicht, vom ETL- auf das ELT-Verfahren umzusteigen.
Für Organisationen, die Big Data von On-Premises in die Cloud migrieren möchten, haben Data Lakes in Verbindung mit ELT viele Vorteile. Dadurch ist es möglich, Daten in einem flexibleren Format für die zukünftige Verwendung aufzubewahren – zusammen mit Identifikatoren und Metadaten-Tags für einen schnelleren Zugriff. Der Prozess bietet insgesamt viele Vorteile gegenüber dem älteren und langsameren ETL, wie z. B. geringere Wartezeiten. Werden all diese Aspekte berücksichtigt, ist das Extract-Load-Transform-Verfahren als Zukunft der Datenintegration zu verstehen ist.
ELT Tool von Talend zur effizienten Datenintegration
Daten spielen heutzutage in Geschäftsbetrieben aller Art eine entscheidende Rolle. Damit sie für ein Unternehmen verwertbar und nutzbar sind, müssen sie zunächst bewegt und für ihren Zweck aufbereitet werden. Der ELT-Prozess bietet dabei als wesentlicher Bestandteil der Datenintegration eine effiziente Alternative zum traditionellen ETL-Verfahren.
Bei „Open Studio for Big Data“ von Talend handelt es sich um eine kostenlose, weltweit abrufbare Plattform, die es Unternehmen ermöglicht, selbst umfangreiche ELT-Aufträge kompetent abzuwickeln.
Talend stattet einige der größten Unternehmen weltweit mit intelligenten Tools im Bereich Datenintegration aus. Entdecken Sie, wie Talend auch Ihrem Unternehmen zum Erfolg verhelfen kann.
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- Reverse ETL: Bedeutung und Anwendungsbereiche
- Data Wrangling: So funktioniert gute Datenaufbereitung
- ETL in der Cloud: was die Veränderungen für Sie bedeuten
- ETL-Tools: Evaluierung von Tools für Cloud-basierte ETL-Prozesse
- ETL-Tests: Ein Überblick
- ELT vs. ETL: der Unterschied
- Der ETL-Prozess – Daten effektiv zentralisieren