Data Catalog – Definition, Funktionen und Tools
Data Catalogs bilden einen wichtigen Bestandteil des Datenmanagements – und gewinnen daher vor allem in Unternehmen mit großen Datensätzen immer mehr an Bedeutung. Diese Entwicklung wird auch in einem Bericht des US-amerikanischen Marktforschungsanbieters Gartner deutlich. Darin heißt es, dass Datenanalyse-Unternehmen, die agile, katalogisierte Datensätze bereitstellen, bis 2019 doppelt so hohe Gewinne erzielen werden wie jene, die darauf verzichten.
Die Datenverwaltung und -katalogisierung mithilfe eines Data Catalog stellt demnach einen entscheidenden Faktor für den wirtschaftlichen Erfolg dar und sollte in Unternehmen auf jeden Fall in Erwägung gezogen werden. Im Folgenden erfahren Sie, wie sich ein Data Catalog definiert, wo er zum Einsatz kommt und über welche Funktionen professionelle Cataloging Tools verfügen sollten.
Was ist ein Data Catalog?
GBei einem Data Catalog (dt.: Datenkatalog) handelt es sich um ein digitales Inventar bzw. eine Art von Verzeichnis, das als Single Source of Trust sämtliche Unternehmensdaten enthält. Ziel eines Data Catalog ist, die Qualität und die Geschwindigkeit der Datennutzung zu erhöhen. Damit Nutzer Daten suchen, abrufen, strukturieren, analysieren oder anreichern können, müssen diese zunächst mit Metadaten technischer und fachlicher Natur versehen werden.
Wofür wird ein Data Catalog benötigt? – Ziele und Gründe
Ein Datenkatalog bringt Ordnung in Unternehmensdaten und wirkt sich in vielerlei Hinsicht positiv auf die Datennutzung innerhalb der Organisation aus. Das übergeordnete Ziel eines Data Catalogs besteht darin, Kollaborationen innerhalb eines Unternehmens zu fördern, indem relevante Daten allen zugänglich gemacht und einheitlich katalogisiert werden.
Um dieses Ziel zu erreichen, stützen sich Data Catalogs vor allem auf zwei wichtige Faktoren:
- Automatisierung: Mit einem digitalen Datenkatalog können sich Unternehmen zeitaufwendige manuelle Prozesse sparen. Sind alle Daten einmal darin eingespeist, verwaltet und organisiert sich ein Data Catalog weitestgehend selbst, was sich positiv auf die Geschwindigkeit der Datennutzung auswirkt. Automatisch werden Daten gesammelt, klassifiziert und angereichert, indem Verknüpfungen zwischen verschiedenen Datensätzen hergestellt werden.
- Meta Data Management: Um einen Data Catalog mit all seinen Funktionen nutzen zu können, müssen in diesem zunächst sämtliche Unternehmensdaten erfasst werden. Das können Daten unterschiedlichen Typs sowie unterschiedlicher Größe sein. An dieser Stelle kommen Metadaten ins Spiel. Dabei handelt es sich um „Daten über Daten“. Sie liefern wichtige Informationen zu jeder einzelnen Datei, womit sich beispielsweise exaktere Suchergebnisse innerhalb des Data Catalog herbeiführen lassen. Metadaten verbessern demnach die Qualität der Datennutzung.
Data Catalog: Beispiele unterschiedlicher Arten von Datenkatalogen
Um ein erstes Verständnis dafür zu entwickeln, worum es sich bei einem Data Catalog handelt, eignet sich das Beispiel des Katalogs einer physischen Bibliothek. Ohne diese tatsächlich aufsuchen zu müssen, können Leser online im zugehörigen digitalen Katalog alle Informationen abrufen, die sie benötigen: Titel, Autor, Zusammenfassung, Standort bzw. Abteilung – ggf. auch Rezensionen und Empfehlungen anderer Leser. Dasselbe Prinzip liegt einem modernen Data Catalog zugrunde, wie er beispielsweise in großen Unternehmen zum Einsatz kommt.
Als weiteres Beispiel für die Bedeutung professioneller Datenverwaltung lässt sich der Amazon-Marktplatz anführen. Ein solcher ist i. d. R. mit einem beliebigen Geschäft, einem Einzelhändler und in manchen Fällen mit weiteren Onlinehändlern verknüpft und umfasst und generiert Unmengen von Daten, die es zu verwalten gilt. Im Gegensatz zu Amazon haben Sie die Möglichkeit, Daten gezielt einzukaufen und diese entsprechend der individuellen Anforderungen Ihres Unternehmens zu kuratieren. Sie können Ihre Mitarbeiter mit den passenden Werkzeugen ausstatten, mit denen sie die Inhalte des Datenkatalogs pflegen und fortlaufend erweitern. Denn umso dichter und besser sortiert ihre Datensätze sind, desto größer ist auch der Nutzen, den Sie daraus ziehen können.
Kernelemente eines Data Catalog: Tool-Funktionen im Überblick
Kein Data Catalog ist wie der andere – und jedes Unternehmen hat diesbezüglich andere Anforderungen. Bei der Wahl eines geeigneten Cataloging Tools ist es daher wichtig, sich genau mit den gebotenen Funktionen auseinanderzusetzen. Stellen Sie sich die Frage, womit Sie die Datenstrategie Ihres Unternehmens bestmöglich umsetzen und zum Erfolg führen können.
Einige der Schlüsselfunktionen, mit denen der „Talend Data Catalog“ aufwartet sowie die Vorteile, die dieser mit sich bringt, finden Sie im Folgenden:
- Konnektoren und Kurationstools zum Aufbau einer Single Source of Trust: Eine Vielzahl von Konnektoren ermöglicht es Ihnen, in Ihrem Data Catalog Datensätze unabhängig ihrer Art oder ihrer Quelle zu erfassen. Sie können darin Metdadaten aus Business Intelligence Tools, Datenintegrationstools, SQL Queries, Data Modelling Tools sowie Unternehmenstools wie Salesforce oder SAP zusammentragen. Dadurch haben Sie auch all jene Mitarbeiter an Bord, die mit diesen Datensätzen bereits gearbeitet haben bzw. regelmäßig arbeiten. Dementsprechend sind sie in der Lage, diese im Data Catalog für die weitere Verwendung (durch andere) zu validieren und zu zertifizieren. Grundsätzlich gilt: Um eine Single Source of Trust (alleinige verlässliche Datenquelle) aufzubauen, sollten Sie sich nicht nur auf Funktionen zur Verknüpfung von Datenquellen verlassen, sondern auch auf Validierungs- und Zertifizierungsfunktionen. So bleibt Ihre Data Governance lebendig.
- Automatisierungen für höhere Geschwindigkeit und Agilität: Mit hoch automatisierten Data Catalogs müssen Data Stewards keine Zeit mehr dafür aufbringen, Datenquellen manuell zu verknüpfen. Stattdessen können sie sich auf das konzentrieren, was wirklich wichtig ist: Daten kuratieren und anreichern sowie mögliche Probleme bezüglich der Qualität von Daten schnellstmöglich beheben.
- Leistungsstarke Suchfunktion für schnelle Suchergebnisse: Als wohl bedeutendste Komponente eines Data Catalog sollte die Suchfunktion „multi-faceted“ sein. Das bedeutet, dass eine detailliertere Suche als lediglich nach einem Stichwort möglich ist und mehrere Parameter angegeben werden können. Suchergebnisse lassen sich dadurch nach verschiedenen Faktoren filtern, wie z. B. nach dem Namen des Datenerstellers, dem Besitzer der Daten, der Datengröße oder dem Datentyp.
- Data Lineage für Ursachenanalysen: Die Data-Lineage-Funktion als Teil des Data Catalog ermöglicht es Ihnen, den Ursprung sowie die gesamte Abstammungslinie von Daten zurückzuverfolgen. So können Sie z. B. ein Dashboard mit jenen Daten verknüpfen, die es offenlegt. Auch um ein Verständnis für die Beziehungen zwischen verschiedenen Datentypen und -quellen zu entwickeln, empfiehlt es sich Abstammungslinien zu ermitteln. Zeigt Ihr Dashboard beispielsweise einmal inkonsistente Daten an, kann ein Data Steward anhand der Data Lineage erkennen, wo das Problem liegt. Dieser Ansatz eignet sich auch, um Anwendungen aufzudecken, die Elemente von Schatten-IT enthalten und sich einer Überwachung entziehen möchten. Ein Beispiel: Marktdatensätze, die Verbraucherdatenbanken mit personenbezogenen Daten nutzen.
- Glossar zur Kontextualisierung und Klassifizierung von Daten: Wie hoch der Nutzen eines Data Catalog für Ihr Unternehmen ist, hängt auch davon ab, wie sie diesen verwenden. Es ist wichtig, dass Sie mit Ihren Mitarbeitern zunächst ein gemeinsames Verständnis von unterschiedlichen Begriffen erarbeiten – ein interaktives Glossar. Sämtliche im Data Catalog enthaltenen Daten können Sie schließlich mit den intern festgelegten Definitionen und Schlagwörtern versehen, sodass sich eine Sortierung ergibt. Suchen Sie anschließend z. B. nach „PII“ (Personally Identifiable Information), werden Ihnen alle Datenquellen angezeigt, die solche enthalten. Diese Funktion erweist sich u. a. im Hinblick auf die DSGVO als vorteilhaft, wonach alle Datenquellen, die personenbezogene Daten enthalten, geschützt werden müssen.
- Data Profiling zur Vermeidung verschmutzter Data Lakes: Bei der Verknüpfung verschiedener Datenquellen ist Data Profiling unerlässlich, um Ihre Daten hinsichtlich Vollständigkeit, Genauigkeit, Aktualität und Einheitlichkeit zu bewerten. Bestehen Auffälligkeiten oder treten Probleme auf, wird dies sofort erkannt und Sie können Ihre Data Stewards direkt darauf aufmerksam machen. Dadurch vermeiden Sie langfristig die Verschmutzung Ihres Data Lakes durch Daten von schlechter Qualität.
So holen Sie das meiste aus Ihrem Datenkatalog heraus
Ihr Data Catalog arbeitet am effektivsten für Sie, wenn Sie ihn mit Self-Service Tools verknüpfen. Diese unterstützen Data Stewards sowie Businessanwender dabei, Datensätze vorzubereiten und im Laufe der Zeit weitere Daten zu kuratieren. Stellen Sie Ihren Mitarbeitern intelligente Tools zur Verfügung, mit denen Sie Verantwortung übernehmen und die Daten im Data Catalog nachhaltig pflegen können.
Mehr über Data Catalog Tools und weitere Software von Talend erfahren
Ein Data Catalog sollte den Eckpfeiler Ihrer Datenstrategie darstellen. Sie möchten stets die Kontrolle über Ihre Daten behalten, die Verschmutzung Ihres Data Lake vermeiden und eine Single Source of Trust für Ihr Unternehmen aufbauen? Setzen Sie auf intelligente Cataloging Tools, die Sie in diesen und vielen weiteren Punkten effektiv unterstützt.
Entdecken Sie „Talend Data Fabric“, eine einheitliche End-to-End-Plattform, die es Ihnen ermöglicht, alle Ihre Unternehmensdaten in einer geschlossenen Infrastruktur zu verwalten und automatisch zu katalogisieren.
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- Data Governance-Tools: Die besten Tools für Organisation, Zugriff und Schutz
- Data-Governance-Richtlinien – Definition & Beispiele
- Strukturierte vs. unstrukturierte Daten: ein Leitfaden
- Data Stewardship und die Einsatzbereiche von Data Stewards in Unternehmen
- Was ist Data Governance und warum brauchen Sie das?
- Data Lineage: Management, Definition und Vorteile
- Metadaten – der strukturierte Weg aus dem Datenlabyrinth
- Obfuskation: Anonymisierung von Daten für mehr Schutz