Was ist ein Data Mart?
In einem kontinuierlich wachsenden, von Big Data geprägten Markt, leisten Data Marts einen wichtigen Beitrag, um Informationen auf effiziente Weise in wertvolle Erkenntnisse zu verwandeln. Data Warehouses enthalten normalerweise große Datensätze. Datenanalysen müssen jedoch flexibel sein. Mit Data Marts können clevere Organisationen beides haben.
Ein Data Mart ist eine subjektorientierte Datenbank, die für die Anforderungen einer bestimmten Benutzergruppe konzipiert ist. Häufig handelt es sich dabei um ein Teilsegment eines Enterprise Data Warehouse, aber nicht immer. Data Marts bieten Zugriff auf Informationen in einem Data Warehouse oder operativen Datenspeicher innerhalb von Tagen statt Monaten oder Jahren und beschleunigen so die Geschäftsprozesse. Es ist eine kosteneffektive Art, um schnell wertvolle Erkenntnisse zu gewinnen.
Data Mart vs. Data Warehouse
Data Marts und Data Warehouses sind Repositories, in denen Daten bis zur Verwendung gespeichert und verwaltet werden. Während Data Warehouses sämtliche Informationen eines Unternehmens enthalten, erfüllen Data Marts nur die Anforderungen bestimmter Abteilungen oder Geschäftsfunktionen. Sie sind hauptsächlich dazu gedacht, einen kleineren Teildatensatz vom gesamten Datensatz zu isolieren bzw. zu partitionieren.
Ein Data Mart kann auf der Grundlage eines bestehenden Data Warehouse (Top-Down-Ansatz) oder aus anderen Quellen wie internen operativen Systemen oder externen Daten erstellt werden. Ähnlich wie bei einem Data Warehouse handelt es sich um eine relationale Datenbank, die Transaktionsdaten (Zeitwert, numerische Reihenfolge, Verweis auf ein oder mehrere Objekte) in Spalten und Reihen speichert und so das Organisieren und Abrufen der Daten erleichtert.
Falls aus geschäftlichen Gründen erforderlich, können mehrere Data Marts zu einem einzigen Data Warehouse zusammengeführt werden (Bottom-up-Entwicklungsansatz).
Data Mart | Data Warehouse | |
---|---|---|
Größe | Weniger als 100 GB | Mehr als 100 GB |
Subjekt | Ein Subjekt | Mehrere Subjekte |
Umfang | Unternehmensbereich | Gesamtes Unternehmen |
Datenquellen | Wenige Quellen | Viele Quellsysteme |
Datenintegration | Ein Themenbereich | Alle Geschäftsdaten |
Entwicklungszeit | Minuten, Wochen, Monate | Viele Monate bis Jahre |
3 Arten von Data Marts
Es gibt drei Arten von Data Marts: abhängige, unabhängige und hybride. Sie unterscheiden sich je nach ihrer Beziehung zu einem Data Warehouse und der Datenquelle, die zur Erstellung des Systems verwendet wurde.
1. Abhängige Data Marts
Ein abhängiger Data Mart wird auf Basis eines bestehenden Enterprise Data Warehouse nach dem Top-Down-Ansatz erstellt. Hierbei werden zuerst alle Geschäftsdaten an einem zentralen Ort gespeichert und anschließend klar definierte Teile der Daten extrahiert, sobald dies für Analysen erforderlich ist.
Um auf Basis eines Data Warehouse einen Data Mart zu erstellen, wird ein bestimmter Datensatz vom Warehouse aggregiert (zu einem Cluster geformt), neu strukturiert und anschließend in den Data Mart geladen, von wo aus er abgerufen werden kann. Dies kann eine logische Ansicht oder ein physischer Teilsatz des Data Warehouse sein.
- Logische Ansicht – Eine virtuelle Tabelle, die nicht zum physischen Datenbankschema gehört.
- Physischer Teilsatz – Extrahierte Daten, die zum Datenbankschema gehören.
Granulare Daten – das niedrigste Datenlevel im Zieldatensatz – dienen im Data Warehouse als einziger Referenzpunkt für alle abhängigen Data Marts, die erstellt wurden.
2. Unabhängige Data Marts
Ein unabhängiger Data Mart ist ein alleinstehendes – ohne ein Data Warehouse erstelltes – System, das auf einen Themenbereich oder eine Geschäftsfunktion fokussiert ist. Die Daten werden aus internen oder externen Datenquellen (oder beidem) extrahiert, verarbeitet und dann ins Data Mart Repository geladen. Dort bleiben sie gespeichert, bis sie für Geschäftsanalysen benötigt werden.
[resource-download resource_sync_code="10944"]
Unabhängige Data Marts sind einfach zu konzipieren und zu entwickeln – und eignen sich besonders für kurzfristige Ziele. Wenn die Geschäftsanforderungen wachsen und komplexer werden, kann ihre Verwaltung – mit jeweils einem eigenen ETL-Tool und eigener Logik – allerdings umständlich werden.
3. Hybride Data Marts
Ein hybrider Data Mart kombiniert Daten aus einem bestehenden Data Warehouse und anderen operativen Quellsystemen. Er vereint die Geschwindigkeit und den Endbenutzer-Fokus eines Top-Down-Ansatzes mit den Vorteilen einer unternehmensweit integrierten Bottom-up-Methode.
Struktur eines Data Mart
Ein Data Mart kann in Form eines Stern-, Schneeflocken-, Vault- oder anderer Schemata organisiert werden. IT-Teams verwenden normalerweise ein Sternschema, das aus einer oder mehreren Faktentabellen (Metriken zu bestimmten Geschäftsprozessen oder Ereignissen) besteht und Dimensionstabellen (mit Faktentabelle verknüpfter Primärschlüssel) in einer relationalen Datenbank referenziert.
Der Vorteil eines Sternschemas besteht darin, dass es keine Abhängigkeit zwischen Dimensionen gibt und somit weniger Verknüpfungen beim Schreiben von Abfragen erforderlich sind. Das vereinfacht den ETL-Abfrageprozess und erleichtert Analysten den Zugriff und die Navigation.
In einem Sternflockenschema sind die Dimensionen nicht klar definiert. Sie sind normalisiert, um die Datenredundanz zu reduzieren und die Datenintegrität zu schützen. Dabei wird weniger Speicherplatz für Dimensionstabellen gebraucht, aber die Struktur ist komplizierter (es sind mehrere Tabellen zu befüllen und zu synchronisieren), sodass die Pflege schwierig sein kann.
Vorteile eines Data Mart
Die Verwaltung von Big Data und die Gewinnung wertvoller Erkenntnisse ist eine Herausforderung, vor der alle Unternehmen stehen. Um sie zu lösen, greifen die meisten Organisationen auf Data Marts zurück.
- Effizienter Zugriff – ein Data Mart ist eine zeitsparende Lösung, um für BI-Analysen auf bestimmte Datensätze zuzugreifen.
- Preiswerte Alternative zum Data Warehouse – Data Marts können eine preiswerte Alternative zur Entwicklung eines Enterprise Data Warehouse darstellen, bei der die erforderlichen Datensätze kleiner sind. Ein unabhängiger Data Mart kann innerhalb einer Woche oder kürzer einsatzbereit sein.
- Verbesserte Data Warehouse-Performance – Abhängige und hybride Data Marts können die Performance eines Data Warehouse steigern, indem sie die Verarbeitung übernehmen, um die Anforderungen von Analysten zu erfüllen. Werden abhängige Data Marts in einer separaten Verarbeitungseinheit ausgelagert, sorgen sie außerdem für eine deutliche Reduzierung der Verarbeitungskosten für Analysen.
Weitere Vorteile von Data Marts:
- Datenpflege – Unterschiedliche Abteilungen können die Verantwortung für ihre Daten übernehmen und sie kontrollieren.
- Einfaches Setup – Das einfache Design erfordert weniger technische Kenntnisse für die Implementierung.
- Analysen – Key Performance Indicators (KPIs) lassen sich leicht nachverfolgen.
- Einfache Eingabe – Data Marts können als Grundlage für ein zukünftiges Enterprise Data Warehouse-Projekt dienen.
Die Zukunft von Data Marts liegt in der Cloud.
Trotz der verbesserten Flexibilität und Effizienz, die Data Marts bieten, ist Big Data – und Big Business – immer noch zu umfangreich für viele lokalen Lösungen. Daher migrieren nicht nur Data Warehouses und 1 sondern auch immer mehr Data Marts in die Cloud.
Mit einer gemeinsamen Cloud-basierten Plattform zum Erstellen und Speichern von Daten werden Zugriff und Analysen viel effizienter. Temporäre Datencluster können für kurzfristige Analysen erstellt und langfristige Cluster für nachhaltigeres Arbeiten zusammengeführt werden.
Weitere Vorteile Cloud-basierter abhängiger und hybrider Data Marts:
- Flexible Architektur mit Cloud-nativen Anwendungen.
- Ein einziges Depot mit allen Data Marts.
- Ressourcen werden bedarfsgerecht genutzt.
- Unmittelbarer Echtzeit-Zugriff auf Informationen.
- Mehr Effizienz.
- Niedrigere Kosten dank Konsolidierung von Ressourcen.
- Interaktive Analysen in Echtzeit.
Darüber hinaus ermöglichen es Analyseengines wie Apache Spark und Hadoop Hive Data Marts innerhalb von Minuten zu entwickeln und zu implementieren. Erweiterte Echtzeit-Analysen, maschinelles Lernen und andere Funktionen sind in der Plattform integriert, sodass keine proprietären Systeme entwickelt werden müssen.
Erste Schritte mit Data Marts
Von Data Warehouses heißt es, dass sie „eine einzige Version der Wahrheit“ aller Unternehmensdaten bieten. Einen Data Mart kann man sich als eine Art Ausschnitt dieser Wahrheit vorstellen, um eine bestimmte Geschäftsanforderung zu erfüllen.
Unternehmen müssen mit der wachsenden Flut an Daten und dem ständig wechselnden Bedarf an überschaubaren Informationspaketen fertig werden, die sich für die Analyse und die Gewinnung wertvoller Erkenntnisse eignen. Data Marts in der Cloud bieten hier eine langfristige, skalierbare Lösung. Mit seiner offenen, skalierbaren Architektur und seinen einfachen, grafischen Tools, unterstützt Talend Data Management Platform die Teams dabei, intelligenter zu arbeiten, um komplette Integrationsjobs schneller zu implementieren.
Mit Talend Open Studio for Big Data können Sie innerhalb weniger Minuten Hive-Data Marts erstellen. Erfahren Sie, wie Sie schon heute ETL-Projekte für Big Data-Analysen mit der Power und Skalierbarkeit von Hadoop- und NoSQL-Datenbanken vereinfachen können.
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- MySQL: Definition, Eigenschaften und Anwendung
- Was ist Middleware? Der Vermittler zwischen Ihren Systemen
- Schatten-IT – Definition, Risiken und Chancen
- ERP-System: Bedeutung, Vorteile und Herausforderungen
- Master Data Management – Datenaustausch effektiv optimieren
- Legacy-System: Definition, Probleme und deren Bewältigung
- Data-as-a-Service: So nutzen Sie Daten zu Ihrem Vorteil
- Was ist Datenverarbeitung?
- Data Mining: Definition, Vorteile und Beispiele
- Apache Hive: Definition, Funktion und Vorteile
- Data Munging mit Python: erste Schritte
- Was ist eine Datenquelle?
- Die Definition von Datentransformation
- SQL vs. NoSQL: Unterschiede, Datenbanken und Lösungen
- So wird eine Datenarchitektur zum Motor Ihres Geschäftserfolgs
- Datenkonvertierung: Optimierung der Datenbank-Genauigkeit