Data Lake – Anwendungsbeispiele und Vorteile für Ihr Unternehmen
Die digitale Welt verdoppelt ihre Größe jährlich und wird voraussichtlich bis 2020 44 Billionen Gigabytes erreichen. Bis zu 90 Prozent dieser Daten sind unstrukturiert oder semistrukturiert. Dies bringt eine zweifache Herausforderung mit sich: Organisationen müssen (1.) eine Möglichkeit finden, all diese Daten zu speichern, und (2.) die Kapazitäten bereitstellen, um diese schnell zu verarbeiten. Und genau dabei kommen Data Lakes ins Spiel.
Was ist Data Lake?
Ein Data Lake ist ein zentrales Repository, das Big Data aus unterschiedlichen Quellen in einem rohen, granularen Format speichert. Es kann strukturierte, semistrukturierte oder unstrukturierte Daten aufnehmen. D. h. die Daten können in einem flexibleren Format zur späteren Nutzung aufbewahrt werden. Ein Data Lake verbindet beim Speichervorgang Daten mit Identifiern und Metadaten-Tags, um einen schnelleren Zugriff zu gewährleisten.
Der Begriff „Data Lake“ wurde von James Dixon, CTO von Pentaho, geprägt. Der Begriff Data Lake bedeutet auf Deutsch wortwörtlich „Datensee“. Alle Unternehmensdaten können an einem Ort gespeichert werden, anstatt in verschiedenen, kleinen Datenordnern. Neue Daten können hinzugefügt werden und Nutzer haben jederzeit Zugriff auf aktuelle Informationen. Der Unterschied zu traditionellen Data Warehouse-Systemen liegt darin, dass Data-Lake-Daten im Rohformat und unstrukturiert vorliegen.
Data Lakes werden normalerweise auf einem Cluster aus preiswerter und skalierbarer Commodity-Hardware konfiguriert. So können die Daten für den späteren Gebrauch in den Lake geladen werden, ohne dass Sie sich Gedanken über die Speicherkapazität machen müssen. Die Cluster können entweder lokal oder in der Cloud sein.
Data Lakes werden leicht mit Data Warehouses verwechselt, aber es gibt einige wesentliche Unterschiede, die manchen Organisationen große Vorteile bieten können. Dies gilt umso mehr, da Big Data und Big-Data-Prozesse mehr und mehr von lokalen Standorten in die Cloud verlagert werden.
Vorteile von Data Lakes
Data Lakes liegt ein Schema-on-Read genanntes Prinzip zugrunde. Das bedeutet, dass es kein vordefiniertes Schema gibt, in das die Daten vor dem Speichern gebracht werden müssen. Nur wenn die Daten während der Verarbeitung gelesen werden, können sie geparst und je nach Bedarf einem Schema angepasst werden. Dieses Feature spart viel Zeit, da kein Schema definiert werden muss. Auf diese Weise lassen sich Daten speichern, wie sie sind. Das Format spielt dabei keine Rolle.
Data Scientists können schneller und mit einer höheren Genauigkeit Daten abrufen, vorbereiten und analysieren. Analyse-Experten bietet dieser riesige Pool an Daten die einzigartige Chance, auf Daten in unterschiedlichen, weniger verbreiteten Formaten zuzugreifen und diese für verschiedene Use Cases wie Sentimentanalysen oder Betrugserkennung zu nutzen.
Data Lake vs. Data Warehouse – Gemeinsamkeiten und Unterschiede
Data Lakes und Data Warehouses ähneln sich grundsätzlich, was Einsatzzweck und Ziel betrifft, weswegen sie leicht verwechselt werden.
Beide haben folgende Punkte gemeinsam:
- Sie sind Speicherrepositories, die unterschiedliche Datenspeicher in einer Organisation konsolidieren.
- Sie fungieren als zentralisierter Speicher, der Daten an unterschiedliche Anwendungen weitergibt.
Es gibt aber auch fundamentale Unterschiede, weswegen beide Modelle für unterschiedliche Szenarien geeignet sind.
- Schema-on-Read vs. Schema-on-Write – das Schema eines Data Warehouses wird vor dem Speichern definiert und strukturiert – die Anwendung erfolgt beim Schreiben der Daten. Ein Data Lake dagegen hat kein vordefiniertes Schema, sodass Sie Daten in ihrem nativen Format speichern können. In einem Data Warehouse findet die Datenaufbereitung normalerweise zum größten Teil vor der Verarbeitung statt. In einem Data Lake werden Daten erst aufbereitet, wenn sie tatsächlich benötigt werden.
- Komplexe vs. einfache Zugänglichkeit für Benutzer – bei Data Lakes sind die Daten vor dem Speichern nicht in einer vereinfachten Form organisiert. Daher können häufig nur Experten, die sich mit den unterschiedlichen Datenarten und ihren Beziehungen auskennen, die enthaltenen Daten lesen. Data Warehouses dagegen sind aufgrund ihres gut definierten und dokumentierten Schema-Systems sowohl für technisch versierte Benutzer als auch für Anwender ohne spezifische technische Kenntnisse leicht zugänglich. Selbst neue Teammitglieder können schnell mit einem Warehouse arbeiten.
- Flexibilität vs. Rigidität – bei Data Warehouses dauert es nicht nur lange, zuerst das Schema zu definieren, sondern es sind auch beträchtliche Ressourcen nötig, um es später an veränderte Anforderungen anzupassen. Data Lakes dagegen lassen sich schnell an Veränderungen anpassen. Zudem sinkt der Speicherbedarf, da es einfacher ist, die Server in einem Data Lake Cluster zu skalieren.
Data Lake vs. Data Warehouse – Datenstruktur, Nutzung und Zugänglichkei
Data Lake | Data Warehouse | |
---|---|---|
Datenstruktur | Roh | Verarbeitet |
Zweck der Daten | Noch nicht festgelegt | Aktuell in Gebrauch |
Benutzer | Data Scientists | Business-Anwender |
Zugänglichkeit | Gut zugänglich und schnell aktualisierbar | Kompliziert und teuer, Änderungen vorzunehmen |
Data Lakes – in der Cloud oder lokal?
Traditionell werden Data Lakes lokal auf Hadoop-Clustern implementiert. Hadoop ist skalierbar sowie preiswert und bietet dank seiner Datenlokalität (die Verarbeitung findet dort statt, wo die Daten liegen) eine gute Performance.
Doch mit dem Aufbau einer lokalen Infrastruktur sind einige Herausforderungen verbunden:
- Platzbedarf – sperrige Server nehmen Platz in Anspruch, was zu höheren Kosten führt.
- Setup – Hardware zu erwerben und Datencenter einzurichten, ist nicht unbedingt einfach und kann sich über Wochen oder Monate hinziehen.
- Skalierbarkeit – wenn die Speicherkapazität hochgefahren werden muss, kostet das aufgrund der erhöhten Platzanforderungen und der erforderlichen Kostenfreigaben durch Vorgesetzte Zeit und bindet Ressourcen.
- Bedarfseinschätzung – da sich Skalierbarkeit lokal nicht so leicht realisieren lässt, ist es wichtig, die Hardware-Anforderungen zu Beginn des Projekts korrekt abzuschätzen. Da Daten jeden Tag auf unsystematische Weise wachsen, ist dies keine einfache Aufgabe.
- Kosten – Kostenschätzungen fallen erwiesenermaßen lokal höher aus als mit Cloud-Alternativen.
Mit Cloud-Data-Lakes dagegen lassen sich diese Herausforderungen bewältigen. Data Lakes in der Cloud sind:
- Einfacher und schneller zu starten. Statt eines von Anfang an groß angelegten Projekts können Nutzer mit der Cloud inkrementell starten.
- Kosteneffektiv – dank einem Pay-as-you-use-Modell.
- Einfacher zu skalieren, wenn der Bedarf zunimmt. Damit entfällt der Stress, Anforderungen abzuschätzen und Genehmigungen einzuholenPlatzeinsparungen stellen weitere Kostenvorteile dar.
Platzeinsparungen stellen weitere Kostenvorteile dar.
Erfahren Sie, wie BeachBody die Skalierbarkeit seiner Datenarchitektur sowie seines Personals verbesserte:
Herausforderungen mit Cloud-Data Lakes
Natürlich gibt es auch Herausforderungen beim Einsatz in der Cloud. Einige Organisationen möchten aufgrund von Sicherheitsrisiken keine vertraulichen und sensiblen Informationen in der Cloud speichern. Auch wenn die meisten Anbieter cloudbasierter Services für Sicherheit einstehen und über die Jahre immer mehr Sicherheitsschichten implementiert haben, bleibt eine gewisse Restunsicherheit aufgrund der Risiken durch Datendiebstahl.
Eine weitere praktische Herausforderung ist die Tatsache, dass einige Organisationen bereits ein Data-Warehousing-System zum Speichern ihrer strukturierten Daten implementiert haben. Für sie wäre es sinnvoll, all diese Daten in die Cloud zu verlagern oder eine hybride Lösung mit einer gemeinsamen Verarbeitungsengine einzusetzen, die strukturierte Daten vom Warehouse und unstrukturierte Daten von der Cloud abruft.
Data Governance ist ein weiterer wichtiger Faktor. Ein Data Lake sollte nicht zu einem Datensumpf werden, durch den Sie sich mühevoll kämpfen müssen. Die Plattform von Talend sorgt dafür, dass Ihre Daten sauber und zugänglich bleiben.
Data-Lake-Architektur: Hadoop, AWS und Azure
Es ist wichtig, sich vor Augen zu führen, dass Data Lakes zwei Komponenten beinhalten: Speicher und Verarbeitung. Beides kann lokal oder in der Cloud untergebracht sein. Dies führt zu mehreren möglichen Kombinationen bei der Konzeption einer geeigneten Datenarchitektur.
Organisationen haben verschieden Optionen bei der Umsetzung. Sie können:
- Ganz bei ihrer lokalen Infrastruktur bleiben
- Die gesamte Architektur in die Cloud verlagern
- Mehrere Clouds in Betracht ziehen
- Auf ein hybrides Modell aus diesen Optionen setzen
Es gibt hier keine Patentlösung, denn je nach Anforderungen sind mehrere Optionen denkbar
Data Lakes auf Hadoop
Hadoop wird am häufigsten mit Data Lakes in Verbindung gebracht.
Ein Hadoop-Cluster aus verteilten Servern löst das Problem, große Datenmengen zu speichern. Das Herzstück von Hadoop ist seine Speicherebene namens HDFS (Hadoop Distributed File System), die Daten über mehrere Server hinweg speichert und repliziert. YARN (Yet Another Resource Negotiator) stellt den Resource Manager bereit, der entscheidet, wie die Ressourcen auf jedem Knoten eingeteilt werden. MapReduce ist das von Hadoop verwendete Programmiermodell, um Daten in kleinere Untereinheiten aufzuteilen und diese in seinen Server-Clustern zu verarbeiten.
Abgesehen von diesen drei Kernkomponenten umfasst das Hadoop-Ökosystem weitere Tools wie Hive, Pig, Flume, Sqoop und Kafka, die bei der Aufnahme, Aufbereitung und Extraktion von Daten Unterstützung bieten. Hadoop-Data-Lakes können Sie lokal und in der Cloud mit Enterprise-Plattformen wie Cloudera und HortonWorks einrichten. Weitere Cloud-Lösungen wie Azure bieten Funktionen, die auf die Hadoop-Architektur abgestimmt sind.
Stärken:
- Bekannt bei den meisten IT-Experten
- Günstiger dank Open Source
- Verfügbarkeit zahlreicher ETL-Tools für die Integration mit Hadoop
- Einfach zu skalieren
- Schnellere Verarbeitung dank Datenlokalität
Data Lakes auf AWS
AWS verfügt über ein umfassendes Produktangebot. Amazon Simple Storage Service (Amazon S3) ist das Herzstück der Lösung und stellt die Speicherfunktion bereit. Mit den Datenaufnahmetools Kinesis Streams, Kinesis Firehose, Snowball und Direct Connect lassen sich massive Datenmengen in S3 übertragen. Es gibt auch einen Datenbankmigrationsservice, der die Migration der bestehenden lokalen Daten in die Cloud unterstützt.
Neben S3 gibt es noch DynamoDB, eine latenzarme No-SQL-Datenbank sowie den Service Elastic Search, der einen vereinfachten Mechanismus zur Abfrage des Data Lakes bereitstellt. Die Cognito-Benutzerpools definieren die Benutzerauthentifizierung und den Zugriff auf den Data Lake. Services wie Security Token Service, Key Management Service, CloudWatch und CloudTrail gewährleisten die Sicherheit der Daten. Zur Verarbeitung und für Analysen sind Tools wie RedShift, QuickSight, EMR sowie maschinelles Lernen verfügbar.
Die zahlreichen Produktangebote von AWS gehen mit einer steilen Lernkurve einher. Trotzdem kommt die umfassende Funktionalität der Lösung sehr häufig in Business-Intelligence-Anwendungen zum Einsatz.
Stärken:
- Umfassende und funktionsreiche Produktsuite
- Flexible Auswahl von Produkten entsprechend individueller Anforderungen
- Niedrige Kosten
- Strenge Sicherheits- und Compliance-Standards
- Trennung von Verarbeitung und Speicher zur bedarfsgerechten Skalierung
- Kollaboration mit APN(AWS Partner Network)-Firmen wie Talend sorgt für nahtloses AWS-Onboarding
Data Lakes auf Azure
Azure ist ein Data Lake von Microsoft mit einer Speicher- und Analyseebene; die Speicher-Ebene heißt Azure Data Lake Store (ADLS) und die Analyseebene besteht aus zwei Komponenten: Azure Data Lake Analytics und HDInsight.
ADLS basiert auf dem HDFS-Standard und verfügt über unbegrenzte Speicherkapazität. Damit lassen sich Billionen von Dateien speichern, die jeweils größer als ein Petabyte sein können. Der Azure Data Lake Store ist sicher und skalierbar. Er ermöglicht es, Daten in jedem beliebigen Format zu speichern, und unterstützt alle Anwendungen, die den HDFS-Standard nutzen. Dies erleichtert die Migration bestehender Daten sowie den einfachen Plug-and-play-Einsatz anderer Datenverarbeitungsengines.
HDInsight ist ein cloudbasierter Data-Lake-Analyseservice. Aufgesetzt auf Hadoop YARN ermöglicht HDInsight den Zugriff auf Daten mit Tools wie Spark, Hive, Kafka und Storm. Dank seiner Integration mit Azure Active Directory unterstützt der Service Enterprise-Class-Sicherheit.
Azure Data Lake Analytics ist ebenfalls ein Analyseservice, allerdings mit einem anderen Ansatz. Statt mit Tools wie Hive zu arbeiten, verwendet der Service die Sprache U-SQL, eine Kombination aus SQL und C#, um auf Daten zuzugreifen. Er ist ideal für die Batch-Verarbeitung großer Datenmengen, da er eine höhere Geschwindigkeit zu geringeren Kosten bietet (es fallen lediglich Kosten für die verwendeten Jobs an).
Stärken:
- Einfachere Verwaltung dank Unterbringung von Speicher und Berechnung in der Cloud
- Starke Analyseservices mit leistungsfähigen Funktionen
- Einfache Migration von einem bestehendem Hadoop-Cluster aus
- Bekanntheit von Hadoop und seinen Tools bei vielen Big-Data-Experten à schnelles und einfaches Finden von qualifizierten Fachkräften
- Keine separate Sicherheitsverwaltung erforderlich dank der Integration mit Active Directory.
Erste Schritte mit Data Lakes
Mit ihrer hohen Geschwindigkeit (Velocity) und großen Vielfalt (Variety) begeistern Data Lakes BI-Nutzer auf der ganzen Welt. Jetzt gibt es die Möglichkeit, verarbeitete Daten mit subjektiven Informationen aus dem Internet zu kombinieren.
Mit Data Lakes ist es möglich, maschinelle Daten wie Röntgenaufnahmen und Kernspintomografien auf kausale Krankheitsmuster hin zu durchsuchen. In IoT-Anwendungen können riesige Mengen an Sensordaten unfassbar schnell verarbeitet werden. nd beispielsweise Einzelhändler können eine Fülle von Daten über den User nutzen, um durchgängige Omnichannel-Erfahrungen zu bieten.
Data Lakes sind nicht nur in erweiterten prädiktiven Analyseanwendungen nützlich, sondern auch bei der normalen Berichterstattung in Organisationen – besonders dann, wenn unterschiedliche Datenformate vorliegen.
Die Frage ist nicht mehr, ob Sie überhaupt einen Data Lake benötigen, sondern, auf welche Lösung Ihr Unternehmen setzt und wie Sie diese implementieren. Laden Sie Talend Big Data Integration herunter und starten Sie noch heute.