ETL in der Cloud: was die Veränderungen für Sie bedeuten
Seit dem Aufkommen von Big Data ist der ETL-Prozess (ETL = Extraktion, Transformation, Laden) quasi das Herz, das Informationen durch moderne Unternehmensnetzwerke pumpt. Cloudbasierte ETL-Prozesse sind heute extrem wichtig, um massive Datensätze zu verwalten, und werden auch künftig eine zunehmend größere Rolle in Unternehmen spielen. Der Grund ist einfach: Im heutigen Wettbewerbsumfeld sind Daten wie Blut – hat man nicht genug davon, war’s das.
ETL – eine kurze Einführung
ETL ist der weltweite Standard für die Verarbeitung großer Datenmengen. Der Prozess wird auf eine Reihe vernetzter Prozessoren aufgeteilt, die über ein gemeinsames Framework (wie Apache Hadoop) arbeiten. Der ETL-Prozess besteht aus drei Schritten:
- Extraktion: Während der Extraktion werden Rohdaten aus einer Reihe von Quellen wie etwa Datenbanken, Netzwerk-Appliances, Sicherheitshardware und Softwareanwendungen extrahiert. Diese Streaming-Daten fließen mit hoher Geschwindigkeit durch digitale Netzwerke und werden nahezu in Echtzeit erfasst.
- Transformation: In der Transformationsphase des ETL-Prozesses werden die Unmengen an Informationen an das Schema der Zieldatenbank angepasst und so für das Unternehmen nutzbar gemacht. Gleichzeitig reduziert die ETL-Engine die Datenmenge, indem sie Duplikate erkennt und entfernt. Die Daten werden anschließend standardisiert und für die spätere Nutzung und/oder Analyse formatiert. Abschließend werden sie sortiert und geprüft, bevor die nächste Phase startet.
- Laden: Beim letzten Schritt des ETL-Prozesses werden die Daten in den gewünschten Zielort geladen. Das können Analysetools, Datenbanken oder Data Lakes, kalte Netzwerk-Repositorys oder andere Use-Cases sein.
Relativ gesehen, gibt es ETL schon seit Ewigkeiten. Dieser Prozess zur Verwandlung von Rohdaten in wertvolle Geschäftsinformationen hat sich über viele Jahre entwickelt und dabei gleichzeitig den Weg für Cloud-Technologien geebnet.
Traditionelles, lokales ETL
Bevor es Glasfasern und global verteilte Cloud-Ressourcen gab, fanden ETL-Prozesse in lokalen Systemen statt. Stellen Sie sich einfach einen großen, lauten Computerraum vor, in dem ein oder zwei Techniker zwischen den ganzen Computern und Netzwerkschränken hin- und herlaufen und Verbindungen prüfen.
In den späten 1970er-Jahren, als Tools für die Standardisierung (oder Transformation) von Daten in gängige Formate einem breiten Publikum zugänglich gemacht wurden, explodierte der Wert von Datenbanken förmlich. Hier einige der wichtigsten ETL-Projekte dieser Ära:
- Forschungseinrichtungen, die große Mengen wissenschaftlicher Daten austauschten
- Frühe Kooperationen im Bereich des World Wide Web, einem Dienst des modernen Internets
- Standardisierung eines Kommunikationsprotokolls (TCP/IP), aus dem sich die meisten modernen Daten- und Telekommunikationstechnologien entwickelten
- Vorläufer moderner digitaler Marketingtechnologien, die Verbraucherdaten aggregieren und Werbung auf bestimmte demografische Gruppen zuschneiden
Früher wurde der ETL-Prozess meist lokal oder physisch in der Nähe der Wissenschaftler und Analysten durchgeführt, die ihn nutzten. Daten wurden über ein Kabelsystem in sichere Einrichtungen übertragen und über einfache Algorithmen extrahiert. Anschließend wurden sie in ein standardisiertes bzw. „sauberes“ Format transformiert und in Datenbanken geladen, wo Nutzer sie ändern und Erkenntnisse daraus gewinnen konnten.
Dieser Ansatz bildete die Grundlage für viele Technologien und Kommunikationsmöglichkeiten, die wir heute kennen. Trotz seiner großen Bedeutung hatte der traditionelle ETL-Prozess allerdings ein paar gravierende Nachteile. Vor der Miniaturisierung waren die Kosten des ETL-Prozesses zu hoch. Außerdem waren riesige Mengen an Speicher nötig, die für viele Unternehmen nicht erschwinglich waren. Weil außerdem diese ganzen wertvollen Daten an einem einzigen Ort gespeichert waren, bestand das zusätzliche Risiko, sie durch Naturkatastrophen, Diebstahl oder technische Fehler zu verlieren.
Im Jahr 2019 lassen sich angesichts günstiger Datenspeicher, Glasfasernetze und immer schnellerer Prozessoren drei Prognosen aufstellen:
- Die Menge der Daten, die durch moderne Unternehmen fließen, wird weiterhin exponentiell wachsen.
- Der Wert dieser Daten wird auch künftig steigen.
- Die Rechenleistung, die zur Verarbeitung all dieser Daten nötig ist – und die Herausforderung, sie auf die richtige Art und Weise zu nutzen –, bedeutet, dass cloudbasiertes ETL eine wichtige Rolle für künftige Big-Data-Szenarien spielen wird.
Der Umstieg auf die Cloud
Da heimische und globale Netzwerke immer schneller und leistungsstärker wurden, war es mit der Zeit nicht mehr so nötig, Unmengen an Daten lokal zu speichern.
Der Technologe Brian Patrick Eha hat sich mit der Evolution der Internetgeschwindigkeit und den Auswirkungen der Cloud auf die Datenübertragung beschäftigt. Eha zufolge konnte eine relativ schnelle dedizierte Datenleitung 1984 Übertragungsgeschwindigkeiten von 50 Kilobit pro Sekunde (kbit/s) erreichen. Bereits 2013 waren kommerziell verfügbare Glasfaserverbindungen in der Lage, diese Zahl auf 1 Gigabyte pro Sekunde zu erhöhen. Mit dieser drastischen Steigerung und dem Siegeszug billiger, austauschbarer Speicher wurde aus dem lokalen, teuren und mühseligen ETL-Vorgang der cloudbasierte ETL-Prozess, den wir heute kennen.
Einem IDG-Bericht aus dem Jahr 2018 zufolge arbeiten jetzt knapp drei Viertel der Unternehmen teilweise oder vollständig in der Cloud. Diese Zahl soll Schätzungen zufolge bis 2020 auf über 90 Prozent steigen.
Cloud-ETL
Inzwischen wurden ETL-Prozesse neben Technologien wie Anwendungsentwicklung, E-Commerce und IT-Sicherheit in die Cloud verlagert. Cloudnative ETL-Prozesse basieren auf dem bekannten dreistufigen Ansatz, wobei die einzelnen Schritte in einer anderen Reihenfolge ausgeführt werden.
Das Apache Hadoop-Framework war die Basis, auf der sich cloudbasierte ETL-Prozesse weiterentwickeln konnten. Hadoop verteilt die Rechenprozesse, sodass Daten aus unterschiedlichen Quellen remote extrahiert, über ein Netzwerk von Rechenressourcen transformiert und dann für die lokale Analyse in ein Zielsystem geladen werden können.
Cloudnative ETL-Prozesse erfordern gemeinsame Computing-Cluster. Diese können zwar geografisch auf der ganzen Welt verteilt sein – durch Hadoop können sie aber als individuelle logistische Einheiten agieren, die massive Rechenaufgaben gemeinsam bewältigen. Die ETL-Aufgaben, die früher nebenan oder im Keller stattfanden, werden jetzt in verteilten Clustern über Cloud-Schnittstellen verarbeitet.
Besonders bemerkenswert ist, dass all dies um ein Vielfaches schneller geschieht als bei traditionellen lokalen ETL-Prozessen. Unternehmen, die ETL immer noch in lokalen oder hybriden Umgebungen nutzen, hinken bereits in einer wichtigen Kategorie hinterher: Schnelligkeit.
Dieser Cloud-Prozess ermöglicht Analysenansichten, die „alten“ ETL-Experten oft bekannt sind. Mit verlässlichen Tools können diese genauso wie früher Daten durchsuchen und auswerten. Die Apache Software Foundation ist die weltweit größte Open-Source-Community für die Entwicklung und Unterstützung von ETL sowie der Tools, die ETL für Menschen nutzbar machen.
Die schiere Menge an Datensätzen und ihre schnelle Zunahme stellen Organisationen allerdings vor neue Herausforderungen, wenn es darum geht, nützliche, hoch personalisierte Geschäftsinformationen aus traditionellen ETL-Tools zu gewinnen. Immer mehr Unternehmen setzen auf Datenmanagementplattformen, um ihre individuellen ETL-Anforderungen zu erfüllen.
Dieser Cloud-Prozess ermöglicht Analysenansichten, die „alten“ ETL-Experten oft bekannt sind. Mit verlässlichen Tools können diese genauso wie früher Daten durchsuchen und auswerten. Die Apache Software Foundation ist die weltweit größte Open-Source-Community für die Entwicklung und Unterstützung von ETL sowie der Tools, die ETL für Menschen nutzbar machen.
Die schiere Menge an Datensätzen und ihre schnelle Zunahme stellen Organisationen allerdings vor neue Herausforderungen, wenn es darum geht, nützliche, hoch personalisierte Geschäftsinformationen aus traditionellen ETL-Tools zu gewinnen. Immer mehr Unternehmen setzen auf Datenmanagementplattformen, um ihre individuellen ETL-Anforderungen zu erfüllen.
Talend: die verwaltete Lösung für Cloud-ETL
Seit 2005 hilft Talend führenden Organisationen mit gehosteten, benutzerfreundlichen Lösungen dabei, ihre Herausforderungen rund um ETL und andere Datenintegrationsprojekte zu lösen. Dank Talend Open Studio for Data Integration und Talend Data Management Platform können Entwickler und Analysten mit unbegrenzt vielen Datensätzen in allen gängigen Formaten arbeiten und so die Vorteile von ETL und anderen Technologien nutzen, auf denen moderne cloudbasierte Geschäftsprozesse basieren.
Talend eignet sich aber nicht nur für Technikexperten. Auch Nutzer, die topaktuelle, verlässliche Geschäftsinformationen benötigen, um intelligente Entscheidungen zu treffen, können echtzeitbasierte ETL- und ähnliche Aufgaben einsetzen. Ob im Vertrieb, im Versand oder im Kundenservice – moderne Geschäftsinteraktionen müssen schnell, effizient und kosteneffektiv sein. Talend stellt den richtigen Mitarbeitern die nötigen Daten zur Verfügung und ist somit für jede Organisation eine enorme Bereicherung.
Die Talend-Suite an Big-Data-Lösungen entschärft ein häufiges Problem, das viele Organisationen teilen: den Mangel an qualifizierten Entwicklern. Talend ermöglicht automatisierte, GUI-basierte Prozesse und reduziert somit (in bestimmten Instanzen) den Bedarf an Handcodierung, was die ETL-Verwaltung und das Data-Mining schneller und effizienter macht.
Besonders wichtig: Die Open-Source-Plattform von Talend wächst mit der Geschwindigkeit von Big Data mit. Auf diese Weise lassen sich auch die anspruchsvollsten und speziellsten Datenanforderungen relativ leicht erfüllen.
Starten Sie heute noch Ihre kostenlose Testversion und finden Sie heraus, wie einige der weltweit erfolgreichsten Organisationen ihre Daten dank Talend aus veralteten Infrastrukturen befreien – mit einer ETL-Integrationsplattform, die speziell für die Cloud konzipiert wurde.ta from legacy infrastructures with an ETL integration platform built for the cloud.
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- Reverse ETL: Bedeutung und Anwendungsbereiche
- Data Wrangling: So funktioniert gute Datenaufbereitung
- ETL-Tools: Evaluierung von Tools für Cloud-basierte ETL-Prozesse
- ETL-Tests: Ein Überblick
- ELT vs. ETL: der Unterschied
- Extract Load Transform (ELT) – Definition, Ablauf und Vorteile
- Der ETL-Prozess – Daten effektiv zentralisieren