Datenextraktion – Eine Definition
Wir haben heute Zugriff auf mehr Daten denn je. Doch die Frage ist: Wie können wir den maximalen Nutzen daraus ziehen? Häufig besteht die größte Herausforderung darin, ein Datenintegrationstool zu finden, dass die unterschiedlichsten Arten von Daten aus einer ständig wachsenden Anzahl an Quellen verwalten und analysieren kann. Doch bevor wir diese Daten analysieren oder verwenden können, müssen sie extrahiert werden. In diesem Artikel erklären wir, was „Datenextraktion“ ist und warum sie eine so wichtige Rolle im ETL-Prozess und bei der Datenintegration spielt.
Was ist Datenextraktion?
Bei der Datenextraktion geht es darum, verschiedene Arten von Daten aus den unterschiedlichsten Quellen zu sammeln und abzurufen. Viele dieser Quellen sind dabei schlecht organisiert oder komplett unstrukturiert. Mit Datenextraktion ist es möglich, Daten so zu konsolidieren, zu verarbeiten und zu verfeinern, dass sie an einem zentralen Ort zur Transformation gespeichert werden können – egal, ob in einer lokalen, Cloud-basierten oder hybriden Umgebung.
Datenextraktion ist der erste Schritt im ETL(ETL = Extraktion, Transformation, Laden)- und ELT(ELT = Extraktion, Laden, Transformation)-Prozess. Dabei ist ETL/ELT selbst Teil einer umfassenden Datenintegrationsstrategie.
Datenextraktion und ETL
Um die Bedeutung der Datenextraktion im Kontext zu verstehen, ist ein kurzer Blick auf den ETL-Prozess als Ganzes hilfreich. Im Wesentlichen erlaubt ETL Unternehmen und Organisationen 1) Daten aus unterschiedlichen Quellen an einem zentralen Ort zu konsolidieren und 2) unterschiedliche Arten von Daten in ein gemeinsames Format zu bringen. Der ETL-Prozess umfasst drei Schritte:
- Extraktion: Daten werden aus einer oder mehreren Quellen oder Systemen entnommen. Bei der Extraktion werden relevante Daten gesucht und identifiziert und anschließend zur Bearbeitung oder Transformation aufbereitet. Die Extraktion erlaubt, dass viele unterschiedliche Arten von Daten kombiniert und schließlich für Business Intelligence gewonnen werden.
- Transformation: Nach der erfolgreichen Extraktion der Daten können sie verfeinert werden. In der Transformationsphase werden die Daten sortiert, organisiert und bereinigt. Doppelt vorhandene Einträge werden gelöscht und fehlende Werte entfernt oder vervollständigt. Zudem finden Audits statt, um zuverlässige, konsistente und nutzbare Daten zu generieren.
- Laden: Die transformierten, qualitativ hochwertigen Daten werden anschließend an einen zentralen, einheitlichen Zielort weitergeleitet, wo sie gespeichert und für Analysezwecke vorgehalten werden.
Der ETL-Prozess wird praktisch über alle Branchen hinweg von Unternehmen und Organisationen für die unterschiedlichsten Zwecke eingesetzt. GE Healthcare zum Beispiel musste viele unterschiedliche Arten von Daten aus diversen lokalen und Cloud-nativen Quellen extrahieren, um seine Prozesse zu optimieren und Compliance-Vorgaben einzuhalten. Mithilfe der Datenextraktion war das Unternehmen in der Lage, Versicherungsdaten sowie Daten zur Patientenversorgung und zu Gesundheitsanbietern zu konsolidieren und zu integrieren.
In ähnlicher Weise können Einzelhändler wie Office Depot Kundeninformationen in ihren Geschäften oder über mobile Apps und Websites sammeln. Allerdings müssen all diese Daten migriert und zusammengeführt werden, um ihr volles Potential ausschöpfen zu können.
Datenextraktion ohne ETL
Lassen sich Daten ohne ETL überhaupt extrahieren? Die kurze Antwort lautet ja. Allerdings sollte man bedenken, dass es bei der Datenextraktion ohne einen umfassenden Datenintegrationsprozess Einschränkungen gibt. Rohdaten, die extrahiert, aber nicht richtig transformiert oder geladen werden, lassen sich in der Regel nur schwer organisieren oder analysieren und sind möglicherweise nicht mit neueren Programmen oder Anwendungen kompatibel. Folglich kann es passieren, dass sich die Daten nur zur Archivierung eignen und nicht für sehr viel mehr. Wenn Sie vorhaben, Daten aus älteren Datenbanken in ein neueres oder Cloud-natives System zu migrieren, tun Sie gut daran, ein richtiges Datenintegrationstool für die Extraktion zu nutzen.
Wenn Sie aus der Datenextraktion einen isolierten Prozess machen, kann dies Effizienzeinbußen zur Folge haben, vor allem, wenn Sie die Extraktion manuell durchführen. Die Handcodierung kann extrem mühsam sein. Darüber hinaus ist sie fehleranfällig und schwierig zu replizieren, so dass der Code bei jeder Extraktion oft neu geschrieben werden muss.
Vorteile von Extraktionstools
Egal aus welcher Branche oder Industrie – fast jede Organisation muss irgendwann einmal Daten extrahieren. Für einige ist das der Fall, wenn sie ältere Datenbanken aufrüsten oder zu einem Cloud-nativen Speicher wechseln möchten. Für andere, wenn sie ihre Datenbanken nach einer Fusion oder Übernahme konsolidieren. Außerdem kommt es häufig vor, dass Unternehmen ihre internen Prozesse durch die Zusammenführung von Datenquellen aus unterschiedlichen Geschäftsbereichen und Abteilungen optimieren möchten.
Datenextraktion mag als schwierige Aufgabe erscheinen, doch das muss nicht sein. Tatsächlich nutzen die meisten Unternehmen und Organisationen heute Datenextraktionstools, um den Extraktionsprozess zu automatisieren und zu vereinfachen. Die dadurch freiwerdenden Ressourcen lassen sich für andere Aufgaben einsetzen. Zu den Vorteilen von Datenextraktionstools zählen:
- Mehr Kontrolle. Unternehmen können Daten aus externen Quellen in ihre eigenen Datenbanken migrieren. Somit sind Daten nicht mehr an veraltete Anwendungen oder Softwarelizenzen gebunden. Es sind Ihre Daten und dank Extraktion können Sie damit machen, was Sie möchten.
- Höhere Agilität. Wenn Unternehmen wachsen, nutzen sie häufig unterschiedliche Arten von Daten in separaten Systemen. Mit der Datenextraktion können Sie diese Informationen in einem zentralisierten System konsolidieren, um mehrere Datensätze zusammenzuführen.
- Vereinfachte Bereitstellung. Für Organisationen, die ausgewählte Informationen, aber nicht alle Daten mit externen Partnern teilen möchten, kann Datenextraktion eine einfache Möglichkeit sein, einen eingeschränkten Datenzugriff bereitzustellen. Extraktion erlaubt außerdem, Daten in einem gängigen, nutzbaren Format zu teilen.
- Hohe Genauigkeit. Manuelle Prozesse und Handcodierung erhöhen das Fehlerpotential. Da große Datenmengen per Hand eingegeben, bearbeitet und erneut eingegeben werden müssen, leidet die Datenintegrität. Datenextraktion dagegen automatisiert die Prozesse, reduziert Fehler und spart folglich Zeit für die Fehlerbehebung.
Arten der Datenextraktion
Datenextraktion ist ein effizienter und adaptierbarer Prozess, mit dem Sie viele Arten geschäftsrelevanter Informationen sammeln können. Um die Datenextraktion für Ihre Zwecke nutzen zu können, müssen Sie erst einmal herausfinden, welche Arten von Daten Sie benötigen. Zu den am häufigsten extrahierten Datentypen zählen:
- Kundendaten: Informationen dieser Art helfen Unternehmen und Organisationen dabei, ihre Kunden und Spender besser kennen zu lernen. Kundendaten umfassen Namen, Telefonnummern, E-Mail-Adressen, individuelle Identifizierungsnummern, Kaufhistorien, Aktivität in sozialen Medien und Websuchen, um nur einige zu nennen.
- Finanzdaten: Zu diesen Informationen gehören Vertriebszahlen, Anschaffungskosten, operative Margen und sogar die Preise von Mitbewerbern. Finanzdaten unterstützen Unternehmen dabei, ihre Performance nachzuverfolgen, die Effizienz zu verbessern und strategisch zu planen.
- Daten zu Nutzungs-, Aktivitäts- oder Prozessperformance: Diese weit gefasste Datenkategorie beinhaltet Informationen zu bestimmten Aufgaben oder operativen Bereichen. Bei einem Einzelhändler können das zum Beispiel Daten zu seiner Versandlogistik und bei einem Krankenhaus Informationen zu postoperativen Ergebnissen oder zum Patientenfeedback sein.
Sobald Sie sich entschieden haben, welche Art von Informationen Sie abrufen und analysieren möchten, sollten Sie im nächsten Schritt 1) herausfinden, woher Sie die Daten bekommen und 2) sich überlegen, wo Sie die Daten speichern möchten. In den meisten Fällen bedeutet das, Daten von einer Anwendung, einem Programm oder einem Server auf einen anderen zu bewegen.
Typische Migrationen umfassen Daten von Services wie SAP, Workday, Amazon Web Services, MySQL, SQL Server, JSON, SalesForce, Azure oder Google Cloud. Das sind einige Beispiele für weit verbreitete Anwendungen, aber es können Daten von nahezu allen Programmen, Anwendungen oder Servern migriert werden.
Datenextraktion während der Übertragung
Möchten Sie wissen, wie die Datenextraktion typische Probleme löst? Erfahren Sie hier, wie zwei Organisationen ihre Informationsbestände optimierten und umstrukturierten, um mehr aus ihren Daten herauszuholen.
Domino’s Big Data
Domino’s ist der größte Pizzalieferant der Welt. Dieser Erfolg erklärt sich u. a. dadurch, dass seine Kunden ihre Bestellungen über viele unterschiedliche Technologien wie Smartphones, Uhren, Fernseher und sogar soziale Medien aufgeben können. All diese Kanäle generieren riesige Datenmengen, die Domino’s integrieren muss, um aussagekräftige Erkenntnisse über seine globale Geschäftsaktivität und die Präferenzen seiner Kunden zu gewinnen.
Zur Konsolidierung all dieser Datenquellen nutzt Domino’s eine Datenmanagementplattform, die alle Informationen von der Extraktion bis zur Integration verwaltet. Das auf Domino's eigenen Cloud-nativen Servern betriebene System erfasst und sammelt Daten von POS-Systemen, 26 Supply Chain-Zentren sowie über vielfältige Kanäle wie Textnachrichten, Twitter, Amazon Echo und den United States Postal Service. Domino's Datenmanagementplattform bereinigt die Daten, reichert sie an und speichert sie, sodass sie einfach abgerufen und von unterschiedlichen Teams genutzt werden können.
Bessere Bildung dank Datenintegration
Pro Jahr besuchen über 17.000 Studenten die
Die Cloud, IoT und die Zukunft der Datenextraktion
Das Aufkommen von Cloud-Speicher und Cloud Computing hat die Art und Weise, wie Unternehmen und Organisationen ihre Daten verwalten, entscheidend beeinflusst. Neben den Veränderungen in den Bereichen Datensicherheit, Speicher und Verarbeitung hat die Cloud den ETL-Prozess effizienter und adaptierbarer denn je gemacht. Unternehmen können jetzt ohne eigene Server oder Dateninfrastrukturen rund um den Globus auf Daten zugreifen und diese in Echtzeit verarbeiten. Dank hybrider und Cloud-nativer Datenoptionen verabschieden sich immer mehr Unternehmen von ihren veralteten lokalen Systemen.
Das Internet der Dinge (Internet of Things, IoT) trägt ebenfalls zu einer Transformation der Datenlandschaft bei. Inzwischen werden Daten nicht mehr nur von Mobiltelefonen, Tablets und Computern generiert, sondern auch von Wearables wie FitBit, Autos, Haushaltsgeräten und sogar von medizinischen Geräten. Die daraus resultierende, ständig wachsende Datenmenge erlaubt es Unternehmen, sich einen Wettbewerbsvorteil zu verschaffen, sobald die Daten extrahiert und transformiert sind.
Datenextraktion nach Ihren Vorstellungen
Sie haben sich die Mühe gemacht, große Mengen an Daten zu sammeln und zu speichern. Wenn Sie diese Daten nicht in einem gängigen Format und an einem leicht zugänglichen Ort bereitstellen, laufen Sie Gefahr, wertvolle Erkenntnisse und Geschäftschancen zu verpassen. Angesichts der vielen neuen Datenquellen, die täglich hinzukommen, können Sie diese Situation nur mit der richtigen Strategie und den richtigen Tools in den Griff bekommen
Talend Data Management Platform bietet eine umfassende Palette an Datentools für ETL, Datenintegration, Datenqualität, durchgängige Überwachung und Sicherheit. Mit einer adaptierbaren und effizienten Datenmanagement-Lösung behalten Sie die volle Kontrolle über Ihren Integrationsprozess und überlassen nichts dem Zufall. Unsere Lösung hilft Ihnen, Ihre Daten zu extrahieren und geschäftliche Erkenntnisse zu gewinnen, wann immer Sie es möchten. Talend Data Management Platform können Sie überall implementieren, egal ob in lokalen, hybriden oder Cloud-nativen Umgebungen. Laden Sie noch heute eine kostenlose Testversion herunter und überzeugen Sie sich selbst davon, wie einfach eine effiziente Datenextraktion für Ihre Organisation sein kann.
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- Was sind Datensilos?
- Talend „Job Design Patterns“ und Best Practices: Teil 4
- Talend „Job Design Patterns“ und Best Practices: Teil 3
- Was ist Datenmigration?
- Was ist Daten-Mapping?
- Datenbankintegration: Vorteile, Arten und Instrumente
- Was ist Datenintegration?
- Datenmigration verstehen: Strategie und Best Practices
- Talend Job Design Modelle und Best Practices: Teil 2
- Talend „Job Design Modelle“ und Best Practices: Teil 1
- Change Data Capture: Informationen und Anwendungsmöglichkeiten
- 5 erfolgreiche Datenintegrationsstrategien
- Ein Talend Überblick für Informatica PowerCenter-Entwickler: Teil 1