Data Lake vs. Data Warehouse
Sowohl Data Lakes als auch Data Warehouses sind etablierte Begriffe, wenn es um das Speichern von Big Data geht, doch beide Begriffe sind nicht gleichzusetzen. Ein Data Lake ist ein großer Pool mit Rohdaten, für die noch keine Verwendung festgelegt wurde. Bei einem Data Warehouse dagegen handelt es sich um ein Repository für strukturierte, gefilterte Daten, die bereits für einen bestimmten Zweck verarbeitet sind.
Diese beiden Arten von Speicher werden oft verwechselt, doch sie haben viel mehr Unterschiede als Gemeinsamkeiten. Die einzige wirkliche Ähnlichkeit besteht eigentlich nur darin, dass Daten gespeichert werden.
Daher ist es wichtig, sie auseinanderzuhalten, denn sie dienen beide unterschiedlichen Zwecken und brauchen unterschiedliche Spezialisten, um sie richtig einzusetzen. Für manche Unternehmen eignet sich eher ein Data Lake, für andere dagegen passt ein Data Warehouse besser.
4 wichtige Unterschiede zwischen einem Data Lake und einem Data Warehouse
Es gibt einige Unterschiede zwischen einem Data Lake und einem Data Warehouse. Zu den wichtigsten gehören die Datenstruktur, die richtigen Benutzer, Verarbeitungsmethoden und die beabsichtigte Verwendung der Daten.
Data Lake | Data Warehousse | |
---|---|---|
Datenstruktur | Roh | Verarbeitet |
Zweck der Daten | Noch nicht festgelegt | Aktuell in Gebrauch |
Benutzer | Data Scientists | Business-Anwender |
Zugänglichkeit | Gut zugänglich und schnell zu aktualisieren | Komplizierter und teuer, Änderungen vorzunehmen |
Datenstruktur: Roh vs. verarbeitet
Rohdaten sind Daten, die noch nicht für einen bestimmten Zweck verarbeitet wurden. Der wahrscheinlich größte Unterschied zwischen Data Lakes und Data Warehouses ist die unterschiedliche Struktur von Roh- bzw. verarbeiteten Daten. In Data Lakes werden hauptsächlich rohe, unverarbeitete Daten und in Data Warehouses verarbeitete und verfeinerte Daten gespeichert.
Daher benötigen Data Lakes normalerweise viel mehr Speicherkapazität als Data Warehouses. Darüber hinaus sind unverarbeitete Rohdaten formbar, lassen sich schnell für die unterschiedlichsten Zwecke analysieren und sind ideal für maschinelles Lernen. Allerdings besteht das Risiko, dass sich Data Lakes zu Datensümpfen verwandeln, wenn keine angemessenen Datenqualitäts- und Data Governance-Maßnahmen durchgeführt werden.
Da Data Warehouses nur verarbeitete Daten enthalten, verschwenden sie keinen teuren Speicherplatz für Daten, die vielleicht nie gebraucht werden. Hinzu kommt, dass verarbeitete Daten von einem größeren Personenkreis genutzt werden können.
Zweck: Nicht festgelegt vs. in Gebrauch
Der Zweck der einzelnen Datensätze ist in einem Data Lake nicht festgelegt. Rohdaten, die in einen Data Lake fließen, sind manchmal für eine konkrete spätere Verwendung gedacht. Häufig werden sie aber einfach nur abgelegt, um sie zur Hand zu haben. Das heißt, dass es bei Data Lakes weniger Organisation und Filterung gibt als bei ihrem Pendant.
Verarbeitete Daten sind Rohdaten, die für einen bestimmten Zweck verwendet werden. Da Data Warehouses nur verarbeitete Daten enthalten, werden alle Daten für einen bestimmten Zweck in der Organisation eingesetzt. Somit wird kein Speicherplatz für Daten verschwendet, die vielleicht nie gebraucht werden.
Benutzer: Data Scientists vs. Business-Anwender
Benutzer, die sich nicht mit unverarbeiteten Daten auskennen, tun sich häufig schwer mit Data Lakes. Um Rohdaten zu verstehen, sind häufig Data Scientists und spezielle Tools gefragt, die das vorhandene Material für bestimmte Einsatzszenarien im Unternehmen übersetzen.
Alternativ werden immer häufiger Datenaufbereitungstools eingesetzt, die einen Selfservice-Zugriff auf die in Data Lakes gespeicherten Informationen ermöglichen.
Weitere Informationen erhalten Sie unter „Was ist Datenaufbereitung?“ →
Verarbeitete Daten werden in Diagrammen, Spreadsheets, Tabellen etc. eingesetzt, damit der größte Teil der Mitarbeiter in einem Unternehmen – wenn nicht alle – sie lesen können. Bei verarbeiteten Daten wie sie in einem Warehouse gespeichert sind, muss der Benutzer nur inhaltlich mit dem Thema vertraut sein und braucht kein spezielles datentechnisches Know-how.
Zugänglichkeit: Flexibel vs. sicher
Zugänglichkeit und Benutzerfreundlichkeit beziehen sich auf das Data Repository insgesamt, nicht auf die darin enthaltenen Daten. Data Lakes haben keine Struktur und sind daher leicht zugänglich und leicht zu modifizieren. Darüber hinaus lassen sich alle Änderungen an den Daten schnell durchführen, da es bei Data Lakes nur sehr wenige Einschränkungen gibt.
Data Warehouses sind per Definition strukturierter. Ihr großer Vorteil liegt darin, dass die enthaltenen Daten aufgrund ihrer Verarbeitung und Struktur leichter zu erschließen sind. Gleichzeit führen die Einschränkungen dieser Struktur dazu, dass Data Warehouses schwer und kostspielig zu handhaben sind.
Data Lake vs. Data Warehouse: Was passt am besten für meine Anforderungen?
Organisationen brauchen häufig beides. Data Lakes sind aus der Notwendigkeit heraus entstanden, massive Daten wie Big Data zu nutzen und die rohen, granular strukturierten und unstrukturierten Daten für maschinelles Lernen einzusetzen. Trotzdem brauchen Unternehmen noch Data Warehouses, damit Business-Benutzer Analysen durchführen können.
Gesundheitswesen: Data Lakes speichern unstrukturierte Informationen
Data Warehouses sind seit vielen Jahren im Gesundheitswesen im Einsatz – allerdings nicht mit besonders großem Erfolg. Da ein Großteil der Daten im Gesundheitswesen unstrukturiert ist (Arztbriefe, klinische Daten, etc.) und Einblicke in Echtzeit gebraucht werden, sind Data Warehouses nicht ideal.
Data Lakes erlauben eine Kombination aus strukturierten und unstrukturierten Daten, was sich eher für Gesundheitsorganisationen eignet.
Erfahren Sie, wie Talend AstraZeneca beim Aufbau eines globalen Data Lake unterstützt hat. →
Bildungswesen: Data Lakes bieten flexible Lösungen
In den letzten Jahren hat sich deutlich gezeigt, wie wertvoll Big Data für Bildungsreformen ist. Daten zu Noten, Anwesenheit, etc. können nicht nur Schülern und Studenten mit schlechten Noten helfen, wieder Anschluss zu finden, sondern tragen auch dazu bei, Probleme vorwegzunehmen, bevor sie auftreten. Flexible Big Data-Lösungen unterstützen Bildungseinrichtungen auch dabei, ihre Abrechnungsprozesse zu optimieren, Spendenaktionen zu verbessern und mehr.
Oft handelt es sich um sehr umfangreiche, kaum verarbeitete Rohdaten. Daher profitieren Bildungsinstitutionen häufig am meisten von flexiblen Data Lakes.
Finanzwesen: Data Warehouses eignen sich für alle Benutzer
Im Finanzsektor und anderen Unternehmensumgebungen ist ein Data Warehouse häufig die beste Alternative, da es so strukturiert werden kann, dass nicht nur Data Scientists, sondern das gesamte Unternehmen darauf zugreifen kann.
Dank Big Data hat sich in der Finanzdienstleistungsbranche sehr viel getan und Data Warehouses haben enorm zu diesem Erfolg beigetragen. Der einzige Grund, warum sich Finanzdienstleister von diesem Modell abwenden könnten, ist der, dass Data Warehouses zwar kosteneffektiver, aber für andere Zwecke weniger geeignet sind.
Transportwesen: Data Lakes unterstützen Prognosen
Ein großer Vorteil von Data Lake-Einblicken ist die Möglichkeit, Vorhersagen treffen zu können.
In der Transportindustrie, besonders im Supply Chain Management, bietet die auf flexible Daten in einem Data Lake basierende Prognosefunktion enorme Vorteile wie z. B. Kostenersparnisse, die sich durch die Prüfung von Formulardaten aus der Transportpipeline realisieren lassen.
Warum die Wahl eines Data Lake oder Data Warehouse so wichtig ist
Die Diskussion, ob Data Lakes oder Data Warehouses besser sind, wird uns wahrscheinlich noch lange begleiten. Was man dabei nicht vergessen sollte ist, dass Schlüsselfaktoren wie Struktur, Prozesse, Benutzer und Agilität jedes Modell zu etwas Einzigartigem machen. Eines kann man aber mit Sicherheit sagen: Je nachdem, welche Anforderungen Sie haben, wird die Entwicklung eines geeigneten Data Lake oder Data Warehouse entscheidend für das Wachstum Ihres Unternehmens sein.
Erfahren Sie mehr über Cloud-Data Lakes oder laden Sie eine kostenlose Testversion der Talend Big Data Sandbox herunter und entdecken Sie, wie einfach Big Data sein kann.