Change Data Capture: Informationen und Anwendungsmöglichkeiten
Change Data Capture, kurz CDC, ist eine hoch entwickelte Technologie für das Replizieren und Aufnehmen von Daten aus Quellanwendungen auf ein beliebiges Ziel. Darüber hinaus bringt Change Data Capture folgende Vorteile:
- CDC ermöglicht, Änderungen in einer Datenbank oder Quellanwendung schnell zu erfassen.
- Mit ihr lassen sich zeitliche und finanzielle Ressourcen von Data-Warehouse-Systemen einsparen und eine unternehmensweite Datenintegration in Echtzeit umsetzen.
- Change Data Capture erkennt nicht nur veränderte Datensätze in Datenquellen, sondern gibt diese Änderungen direkt an ein ETL-Data-Warehouse weiter.
- Es ist eine Lösung, mit der sich Änderungen in einer Datenbank einfach nachverfolgen lassen. Auf diese Weise ist sichergestellt, dass Unternehmen immer auf die neuesten und aktuellen Daten zugreifen können.
Zusätzlich kann Change Data Capture Datenintegrationsprozesse in Echtzeit auslösen.
Beispiel: Ein neuer Eintrag in einer Datenbank zur Produktbestellung geht automatisch an zugehörige Anwendungen wie Versand und Rechnungsstellung.
Beispiel: Ein neuer Eintrag in einer Datenbank zur Produktbestellung geht automatisch an zugehörige Anwendungen wie Versand und Rechnungsstellung.
Warum ist die Datenreplikation wichtig?
Die Replikation von Daten beinhaltet das Kopieren und Speichern ganzer Datensätze an verschiedenen Speicherorten. Dies verbessert die Verfügbarkeit und Zugänglichkeit dieser Daten und sorgt dafür, dass bei einem Hardware- oder Systemausfall eine oder mehrere Sicherungskopien existieren. Zudem verringern sich so Latenzzeiten und Verzögerungen, wenn globale Teams mit denselben Datenquellen arbeiten, z. B. in Asien und Nordamerika.
Auf der anderen Seite hat das einfache Replizieren von Daten auch Nachteile: Bei einer Aktualisierung der Daten muss diese an allen Speicherorten der Daten erfolgen, um Verwirrungen zu vermeiden. Das führt zu einem erhöhten Arbeits- und Zeitaufwand für die Datenverwaltung. Denn es gilt, die Datensysteme und –banken zu überwachen und bei einer Aktualisierung alle neuen Daten an allen Speicherorten ebenfalls zu aktualisieren.
Hier kann Change Data Capture eine große Hilfe sein, denn es repliziert nur neue oder kürzlich geänderte Daten – nicht die gesamte Datenbank. So wird der Arbeits- und Zeitaufwand erheblich reduziert.
Ihre Vorteile mit Change Data Capture (CDC)
Mithilfe des CDC-Ansatzes lassen sich große Datenmengen einfach verteilen und bestimmte Anwendungen effizient ausführen. Hier sehen Sie die wichtigsten Vorteile einer Komplettlösung inklusive Change Data Capture im Überblick:
- Kontinuierliches Streaming, Aufnehmen und Replizieren von Daten aus Betriebssystemen mit minimalem Overhead
- Eliminierung langer Stapelfenster
- Echtzeitansicht der Daten für Analytics-Initiativen
- Keine Änderung an der Datenquelle erforderlich
- Schnelle Konfiguration der richtigen CDC-Strategie
- Skalierung umfangreicher Datenmengen
- Datensynchronität und Datenintegration in Echtzeit
- Zügige Weitergabe von neuen Einträgen an zugehörige Anwendungen
Wie funktioniert Change Data Capture (CDC)?
Mithilfe der Change Data Capture-Technologie können Benutzer die zu überwachenden Felder auswählen und dann automatisch Datenbankeinträge, Aktualisierungen und Löschungen erfassen. Die Datensätze sind in einfachen relationalen Tabellen („Änderungstabellen“) verfügbar und zeigen, was sich wo und wann geändert hat. Die darin enthaltenen Metadaten helfen dabei, die Änderungen im richtigen Kontext zu verstehen und letztendlich bessere Unternehmensentscheidungen zu treffen.
Script-basiertes CDC
Hier überwacht ein Skript auf SQL-Ebene nur die Schlüsselfelder einer Datenbank. Ändert sich das Feld oder die Felder in der Quelltabelle, ist dies ein Zeichen dafür, dass sich die Zeile geändert hat. Diese Änderungen können dann in Echtzeit oder asynchron während eines geplanten Massen-Uploads an das Ziel repliziert werden. Diese Methode der Change Data Capture ist zwar recht einfach, doch das Erstellen und Pflegen des Scripts kann gerade in einer schnelllebigen oder sich ständig ändernden Datenumgebung eine Herausforderung sein. Zudem könnte es Probleme mit der Datenintegrität geben, da das Skript nur ausgewählte Felder betrachtet. Darüber hinaus kann skriptbasiertes CDC durch den Abruf von Daten aus der Quelldatenbank das System zusätzlich belasten.
Trigger-basiertes CDC
Bei dieser Art des Change Data Capture lassen sich Trigger (Datenbank-Operatoren) entweder vor oder nach einem DML (Data Manipulation Language) Statement wie z. B. Insert, Update oder Delete ausführen. Durch sie ist es möglich, Datenänderungen in Echtzeit zu erfassen. Nachteilig bei dieser Methode ist, dass es nötig ist, die Trigger für jede Tabelle zu definieren. Dadurch kann es bei der Replikation von Tabellen zu nachgelagerten Problemen kommen. Zudem können Benutzer die Trigger deaktivieren, beispielsweise um eine bestimmte Handlung durchzuführen. Außerdem wird bei jeder Transaktion eine Aufzeichnung der Änderung in einer separaten Tabelle sowie im Transaktionsprotokoll der Datenbank erstellt. Das belastet das System zusätzlich und beeinflusst die Latenz negativ.
Log-basiertes CDC
Zusätzlich zu Triggern gibt es ein weiteres Verfahren, das sogenannte Log Based CDC. Dabei ist ein Transaktionslog (Write Ahead Log / WAL) zu nutzen, der jedes ausgeführte DML enthält. Im Falle eines Systemabsturzes können die Daten durch Verweis auf diese Transaktionsprotokolle rekonstruiert werden. Eine protokollbasierte CDC-Lösung überwacht das Transaktionsprotokoll auf Änderungen und überträgt diese in Echtzeit in das Ziel-Data-Warehouse. Diese Methode der CDC ist äußerst zuverlässig. Da die Transaktionsprotokolle getrennt von den Datenbankeinträgen existieren, wird das System nicht zusätzlich belastet.
Change Data Capture (CDC) vs. Slowly Changing Dimension (SDC)
Bei der Entwicklung von Data-Warehouse-Systemen ist es entscheidend, dass die gespeicherten Daten aktuell und nachvollziehbar sind. Das Slowly Changing Dimension (SDC) Verfahren des Typ 2 erfüllt diese Anforderungen in vollem Maß und hat daher bei der Implementierung der Datenänderungsprozesse die Nase vorn. Die referenzielle Integrität der Datensätze gehen bei SDC durch eine Änderung oder Aktualisierung nicht verloren. Zudem lassen sich mit diesem Verfahren historische (rückwirkende) Daten auswerten. Change-Data-Capture-Ansätze können diese Funktion nicht immer erfüllen. Daher ist bei der Implementierung eines Change-Data-Capture-Verfahrens besonders wichtig, einen Ablauf zur Änderungserkennung und -behandlung zu programmieren. Dies gilt vor allem spezifisch für das jeweilige Datenmodell und die hinterlegten Integritätsregeln.
Wo kommt die CDC-Technologie zum Einsatz?
Change Data Capture minimiert die Anforderungen für ETL–Prozesse, da diese Technologie nur auf Updates angewiesen ist. Unternehmen mit zentralen Datenbanken und operativen Business-Intelligence-Geschäft nutzen meist das CDC-Verfahren. Ein Beispiel sind Callcenter, deren Mitarbeiter auf die neuesten Kundendaten zugreifen müssen.
ETL bezeichnet das Extrahieren, Transformieren und Laden von Daten. Mit dieser Technologie lassen sich Daten aus mehreren verschiedenen Datenquellen an einem zentralen Ort zusammenführen. Dafür werden die Daten aus der Quelle entnommen, umgewandelt und schließlich in ein Data-Warehouse geladen. Geht dies mit dem Laden der gesamten Datenbank in das Zielsystem einher, wird das System stark belastet.
Hier kommt Change Data Capture ins Spiel: Da es nur die neuesten und zuletzt geänderten Daten aufnimmt, entlastet es das ETL-System erheblich. Das ETL-System wiederum kann Daten aus jeder beliebigen Quelle replizieren – auch aus solchen, die sich nicht durch protokollbasierte CDC replizieren lassen.
Kurz gesagt: CDC macht ETL effizienter, und ETL fängt alle Datenquellen ab, die die protokollbasierte CDC nicht erfassen kann.
Change Data Capture für eine bessere Datenzugänglichkeit
CDC erleichtert das Erstellen, Verwalten und Pflegen von Datenbanken und -systemen für die Nutzung im gesamten Unternehmen. Alle Nutzer haben so Zugriff auf die aktuellen und korrekten Daten für Business Intelligence, Berichte und die direkte Verwendung in Analysen und Anwendungen.
Höhere Datengenauigkeit, -qualität und -zuverlässigkeit
Change Data Capture ermöglicht die Datenreplikation in Echtzeit. Das sorgt dafür, dass das Data Warehouse immer über die aktuellen und relevantesten Daten verfügt. Dadurch steigt die Datengenauigkeit, -qualität und -zuverlässigkeit, sodass sich die Nutzer für ihre Analysen und Entscheidungen auf diese Daten verlassen können.
Einhaltung von gesetzlichen Vorschriften und Datenschutzstandards
Wenn ein Unternehmen eine Anfrage erhält, personenbezogene Daten aus seinen Datenbanken zu entfernen, gilt es zunächst, diese Daten zu lokalisieren. Wenn der Antragsteller über mehrere zusammenhängenden Protokolle in verschiedenen Anwendungen verfügt – z. B. Webformulare, CRM und produktinterne Aktivitätsaufzeichnungen – kann die Einhaltung der Vorschriften und Standards eine Herausforderung darstellen.
Dank der stetigen Datenaktualisierung durch Change Data Capture ist es einfacher, diese Aufzeichnungen zu finden und zu verwalten. Das schützt sowohl das Unternehmen als auch den Verbraucher.
Change Data Capture (CDC): Best Practices
Mit diesen hilfreichen Tipps optimieren Sie die Leistung Ihrer CDC-Prozesse:
- Es ist ratsam, die Anzahl der virtuellen Kerne zu erhöhen oder zu einer höheren Datenbankebene zu wechseln, um dieselbe Leistung vor der Aktivierung des CDC-Features von Ihrer Azure SQL-Datenbank zu gewährleisten.
- Dazu empfiehlt sich, die Speicherplatznutzung genau zu überwachen und den Workload gründlich zu testen, bevor der CDC für Datenbanken in der Produktion aktiviert wird.
- Das Scannen bzw. Bereinigen als Teil des Benutzer-Workloads wirken sich nicht nur auf die CDC-Leistung aus, sondern kosten auch Ressourcen. Hierbei also effizient vorgehen.
- Die Anzahl der CDC-fähigen Datenbanken sollte die Anzahl der virtuellen Kerne des Pools nicht überschreiten. Somit lässt sich eine Erhöhung der Latenz vermeiden.
- Je nach Kunden-Workload ist es ratsam, den Aufbewahrungszeitraum kürzer als den Standardwert von drei Tagen zu halten. So lässt sich sicherzustellen, dass die Bereinigung alle Änderungen in der Änderungstabelle berücksichtigt.
- Im Allgemeinen empfiehlt es sich, die Aufbewahrungszeit gering zu halten und die Größe der Datenbank nachzuverfolgen.
Ist Change Data Capture im SQL-Server verfügbar?
Change Data Capture ist im Microsoft SQL-Server und in der Azure SQL-Datenbank grundsätzlich verfügbar. Für die Azure SQL-Datenbank befindet sich CDC jedoch aktuell nur in der Vorschau.
Das passende Change-Data-Capture-Tool mit dem Talend Open Studio
Bei Change Data Capture, kurz CDC, handelt es sich um eine Software, die zur Datenintegration zwischen einer Datenbank und deren Datenquellen zum Einsatz kommt. Sie suchen das richtige Change-Data-Capture-Tool? Dann vertrauen Sie auf Talend und seine langjährige CDS-Expertise. Unsere Datenintegrationslösung mit integriertem Change Data Capture Feature von Talend ist mit vielen Datenbanken, unter anderem Oracle, MSSQL- Server, Sybase, DB2, MySQL und PostgreSQL, kompatibel.
Wir bieten Ihnen mit Talend Open Studio eine vertrauenswürdige Software, um Ihre Datenintegration sicherzustellen. Zudem zeichnet sich die Technologie mit exzellenten Features wie Workflow-Tools aus. Bei Verwendung von Frameworks wie Hadoop stehen wir Ihnen beratend zu Seite.
Profitieren Sie von zahlreichen Vorteilen:
- Äußerste Flexibilität bei der Datenintegration
- Daten in Echtzeit erhalten
- ETL-Tests
- 360°-Kundenanalyse
- Datenverwaltung in einer Cloud
- Benutzerfreundliche Oberfläche
- Integration neuester Datenquellen, Analytics-Technologien und flexible Ressourcen von AWS oder Azure möglich
- Professionellen technischen Support von erfahrenen Datenintegrationsexperten
Erfahren Sie mehr zu unseren erstklassigen Datenintegrationslösungen oder laden Sie sich Talend Open Studio noch heute herunter und überzeugen Sie sich vom führenden Open-Source-Tool für Datenintegration.
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- Was sind Datensilos?
- Datenextraktion – Eine Definition
- Talend „Job Design Patterns“ und Best Practices: Teil 4
- Talend „Job Design Patterns“ und Best Practices: Teil 3
- Was ist Datenmigration?
- Was ist Daten-Mapping?
- Datenbankintegration: Vorteile, Arten und Instrumente
- Was ist Datenintegration?
- Datenmigration verstehen: Strategie und Best Practices
- Talend Job Design Modelle und Best Practices: Teil 2
- Talend „Job Design Modelle“ und Best Practices: Teil 1
- 5 erfolgreiche Datenintegrationsstrategien
- Ein Talend Überblick für Informatica PowerCenter-Entwickler: Teil 1