ELT vs. ETL: der Unterschied
Der Unterschied zwischen ETL und ELT liegt zum einen am Ort, an dem die Daten in Geschäftsinformationen umgewandelt werden, und an der Menge der Daten, die in Data-Warehouses gehalten wird.
Extraktion/Transformation/Laden (ETL) ist ein Integrationsansatz, bei dem Informationen aus Remote-Quellen extrahiert, in vorgegebene Formate und Styles transformiert und anschließend in Datenbanken, Datenquellen oder Data-Warehouses geladen werden.
Ähnlich geht es beim Prozess Extraktion/Laden/Transformation (ELT) darum, Daten aus einer oder mehreren Remote-Quellen zu extrahieren, doch anschließend werden diese Daten in das Ziel-Data-Warehouse ohne weitere Formatierung geladen. Beim ELT-Prozess erfolgt die Transformation der Daten innerhalb der Zieldatenbank. Das Einzige, was ELT von den Remote-Quellen benötigt, sind die Rohdaten und unaufbereitete Informationen.
Generell haben beide Ansätze ihre Vorteile. IT-Entscheider sollten beim Design einer Datenarchitektur interne Kapazitäten und die zunehmenden Auswirkungen von Cloud-Technologien berücksichtigen.
Die Entwicklung von ELT
ELT gibt es schon seit einiger Zeit, hat allerdings durch Tools wie Apache Hadoop – ein Framework zur Verteilung und Verarbeitung großer Workloads über einige (oder viele Tausende) Work-Nodes für die parallele Verarbeitung hinweg – erneut an Bedeutung gewonnen. Eine umfangreiche Aufgabe wie die Transformation von mehreren Petabyte an Rohdaten wurde in kleine Jobs aufgeteilt, remote verarbeitet und anschließend wieder in die Datenbank geladen.
Angesichts der gesteigerten Rechenleistung (insbesondere beim virtuellen Clustering) verfügen lokale Serverressourcen über eine immer höhere Leistungsfähigkeit. Somit ist es nicht mehr nötig, Jobs aufzuteilen. Big-Data-Aufgaben, die früher in der Cloud verteilt, verarbeitet und dann wieder zurückgespielt wurden, lassen sich jetzt an einem einzigen Ort ausführen.
Wie ELT funktioniert und in welchen Situationen der Einsatz sinnvoll ist
Im Gegensatz zu ETL geht es bei ELT darum, Informationen aus einer unbegrenzten Anzahl von Quellen zu erfassen, an einen Ort zur weiteren Verarbeitung zu laden und in aussagekräftige Geschäftsinformationen zu transformieren.
- Extraktion: Der erste Schritt, die Extraktion, funktioniert in beiden Datenmanagementansätzen ähnlich. Rohdaten aus virtuellen Infrastrukturen, Software und Anwendungen werden entweder vollständig oder gemäß vordefinierter Regeln aufgenommen.
- Laden: An dieser Stelle unterscheidet sich ELT von der verwandten ETL-Methode. Anstatt diese Masse an Rohdaten in einen dazwischen geschalteten Verarbeitungsserver zur Transformation zu laden, werden die Daten beim ELT-Prozess vollständig an den endgültigen Zielort übertragen. Dies verkürzt den Zyklus zwischen Extraktion und Bereitstellung, bedeutet allerdings auch, dass um einiges mehr Arbeit erforderlich ist, bevor die Daten von Nutzen sind.
- Transformation: In der Datenbank oder im Data-Warehouse werden die Daten sortiert und normalisiert, wobei die gesamten Daten oder nur ein Teil davon für das personalisierte Reporting bereitgehalten werden. Der Aufwand für die Speicherung einer solchen Datenmenge ist zwar größer, doch es bieten sich mehr Möglichkeiten, die Daten nahezu in Echtzeit für relevante Business-Intelligence-Erkenntnisse auf benutzerdefinierte Weise auszuwerten.
Ist ELT also die richtige Wahl? Nicht immer – das hängt insbesondere von der bestehenden Netzwerkarchitektur, dem verfügbaren Budget und den bereits genutzten Cloud- und Big-Data-Technologien des Unternehmens ab. Doch wenn es um einen oder alle der folgenden drei Fokusbereiche geht, lautet die Antwort möglicherweise ja.
- Wenn die Aufnahmegeschwindigkeit eine entscheidende Rolle spielt. Weil man beim ELT-Prozess nicht darauf warten muss, dass die Daten extern verarbeitet und dann hochgeladen werden (das Laden und die Transformation der Daten können parallel erfolgen), ist der Aufnahmeprozess wesentlich schneller, wobei die Rohdaten viel zügiger bereitgestellt werden als bei der ETL-Methode.
- Wenn es auf die Menge der Informationen ankommt. Die Umwandlung von Daten in Geschäftsinformationen hat den Vorteil, dass verborgene Muster in wertvolle Erkenntnisse transformiert werden. Indem sie alle historischen Daten bereithalten, können Organisationen Auswertungen nach Zeitraum, Verkaufsmuster, saisonalen Trends oder beliebigen anderen neuen Kennzahlen durchführen, die für die Organisation wichtig sind. Da die Daten vor dem Laden nicht transformiert wurden, haben Sie Zugriff auf alle Rohdaten. In der Regel haben Cloud-Datenseen einen Rohdatenspeicher und anschließend einen verfeinerten (oder transformierten) Datenspeicher. Data-Scientists zum Beispiel arbeiten lieber mit den Rohdaten, während Business-User eher die normalisierten Daten für Business-Intelligence nutzen würden.
- Wenn Sie wissen, dass eine Skalierung nötig ist. Wenn Sie High-End-Datenverarbeitungs-Engines wie Hadoop oder Cloud-Data-Warehouses verwenden, kann ELT sich die native Rechenleistung für eine höhere Skalierbarkeit zunutze machen.
Sowohl bei ETL als auch bei ELT handelt es sich um traditionelle Methoden, um Geschäftsinformationen aus Rohdaten zu gewinnen. Doch wie es nun mal bei praktisch allen Technologien der Fall ist, ändert die Cloud die Art und Weise, wie Unternehmen mit ELT-Herausforderungen umgehen.
Vorteile von ELT in der Cloud
Die Cloud bietet eine Vielzahl von Funktionen, die – da sind sich viele Branchenexperten einig – das lokale Datencenter irgendwann überflüssig machen werden. Dank folgender Eigenschaften überwindet die Cloud natürliche ELT-Hürden:
- Skalierbarkeit: ELT-Funktionen in älteren, vor Ort befindlichen Datencentern können die lokale Rechen- und Speicherleistung schnell überfordern. Dann sind kostspielige Hardware-Upgrades sowie geplante Ausfallzeiten nötig, um Fehler zu beheben. Die hohe Skalierbarkeit virtueller Cloud-Infrastrukturen und gehosteter Services – wie Integration Platform as a Service (iPaaS) und Software as a Service (SaaS) – bietet Organisationen die Möglichkeit, Ressourcen on the fly zu erweitern. Sie sorgen für die nötige Rechenzeit und Speicherkapazität, um selbst umfangreichste Datentransformationsaufgaben auszuführen.
- (Fast) nahtlose Integration. Da Cloud-basierte ELT-Prozesse direkt mit anderen Services und Geräten über die ganze Cloud-Plattform hinweg interagieren, werden zuvor komplexe Aufgaben wie das kontinuierliche Data-Mapping drastisch vereinfacht. Was früher eine enorme Herausforderung war, lässt sich jetzt mit einfachen, interaktiven grafischen Oberflächen lösen, die alle kritischen Informationen auf einen Blick vereint.
- Open Source: Die besten ELT-Lösungen nutzen die Vorteile aktiver Open-Source-Cloud-Plattformen, in denen alle an Verbesserungen, Sicherheitsfunktionen und Compliance-Features für das gesamte Unternehmen arbeiten können. Im Rahmen eines Open-Source-basierten ELT-Ansatzes arbeiten globale, professionelle Communitys daran, Datenherausforderungen, die in Ihrem Netzwerk entstehen, zu lösen – im besten Fall noch bevor sie überhaupt entstehen.
- Geringere Betriebskosten: Als ETL noch Standard war, bedeutete eine höhere Leistungsfähigkeit auch höhere Kosten. Die Erweiterung von Rechen- und Speicherressourcen stellte eine einmalige Ausgabe dar und erforderte große Hardware-Investitionen. Der Nachteil war, dass Organisationen im Voraus für das Maximum an voraussichtlich benötigter Leistungsfähigkeit zahlen mussten, obwohl die täglichen Prozesse in der Regel nur einen Bruchteil davon beanspruchten.
Wie die meisten Cloud-Services funktionieren auch Cloud-basierte ELT-Lösungen als Pay-as-you-use-Modell. Dies bedeutet, dass Computing- und Speicherkosten höher sind, wenn große ETL-Jobs verarbeitet werden, aber nahezu auf null fallen, wenn die Umgebung nur minimal ausgelastet ist. Im Jahresdurchschnitt können Unternehmen mit deutlich niedrigeren Total Cost of Ownership rechnen – insbesondere wenn man bedenkt, dass keine Vorabinvestitionen anfallen.
In dieser und manch anderer Hinsicht ist die Cloud gerade dabei, neu zu definieren, wann, wie und wo Unternehmen Business-Intelligence generieren.
Typische ELT-Herausforderungen überwinden
Für eine erfolgreiche Ausführung von Jobs braucht jede Organisation die passenden Tools und das entsprechende Know-how. Wie bei allen Aufgaben wirken sich anfängliche Fehler, die in einer frühen Phase des Produktionsprozesses auftreten, im weiteren Verlauf des Projekts verstärkt aus. Darüber hinaus gibt es ein paar typische Probleme, die für jede ELT-Architektur fatal sind.
- Sicherheitslücken: Der Transport von mehreren Petabyte an Daten und die Bereitstellung für sämtliche Anwendungen und Benutzer birgt einige Sicherheitsrisiken. Ein sicherer Designansatz integriert Sicherheitselemente auf allen Unternehmensebenen und sorgt so dafür, dass Data-Warehouses nicht von manipulierten oder kompromittierten Datensätzen in Mitleidenschaft gezogen werden.
- Besonderes Augenmerk auf Compliance: Immer strengere Compliance-Richtlinien wie HIPAA, PCI und die DSGVO setzen Organisationen zunehmend unter Druck, Audits durchzuführen und die Einhaltung von Standards nachzuweisen. Daher sollte jeder ELT-Ansatz mit besonderem Augenmerk auf die Compliance konzipiert werden, um Verstöße gegen nationale und internationale Vorschriften zu vermeiden.
- Übermaß an Ressourcen: Der Betrieb von Data-Warehouses, mit denen man Daten für BI-Zwecke auswerten kann, hat zwar viele Vorzüge, doch ein Nachteil ist ganz besonders offensichtlich: Diese vielen Daten müssen auch gepflegt werden. Cloud-Anbieter und Pay-as-you-use-Preismodelle machen die Nutzung von Big Data erschwinglicher denn je, doch selbst gestaffelte Speicherpreise können ohne eine durchdachte Strategie zur Verwaltung bzw. Vermeidung ständig wachsender Datensätze ganz schnell ins Geld gehen.
- Fehlende Data-Governance: Genauso wichtig wie die Sicherheit der Daten, die im Rahmen eines ELT-Prozesses übertragen werden, sind die fünf W der Data-Governance: Wer kontrolliert das Stammdatenmanagement in der Organisation? Welche Daten werden erfasst/gehalten? Wann werden allgemeine Prüfungen und Audits durchgeführt? Wo werden die Daten gespeichert? Warum wirken sich ELT-Prozesse positiv auf die Geschäftsperformance aus?
Nur Unternehmen, die wichtige Fragestellungen im Voraus beantworten, können nachhaltige ELT-Praktiken schaffen und wertvolle Erkenntnisse gewinnen, die sich täglich positiv auf ihr Geschäft auswirken.
Zusammenfassung: ELT vs. ETL
Seit über 15 Jahren stellt Talend seinen Partnern rund um den Globus die Tools bereit, die sie benötigen, um ihr Unternehmen zu transformieren. Mit Open Studio for Big Data, der kostenlosen, global unterstützten Plattform, auf die einige der weltweit größten Organisationen setzen, können Sie selbst umfangreichste ELT-Jobs ganz einfach in Angriff nehmen.
Mit den Big-Data-Tools von Talend finden Sie spielend leicht einen Einstieg in die ELT- oder ETL-Welt. Erfahren Sie mehr darüber, wie Talend Organisationen bei ihren Dateninitiativen hilft, und laden Sie die Big Data Sandbox herunter, um noch heute eine leistungsstarke Entwicklungs- und Testumgebung einzurichten.
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- Reverse ETL: Bedeutung und Anwendungsbereiche
- Data Wrangling: So funktioniert gute Datenaufbereitung
- ETL in der Cloud: was die Veränderungen für Sie bedeuten
- ETL-Tools: Evaluierung von Tools für Cloud-basierte ETL-Prozesse
- ETL-Tests: Ein Überblick
- Extract Load Transform (ELT) – Definition, Ablauf und Vorteile
- Der ETL-Prozess – Daten effektiv zentralisieren