Datenintegrität: Bedeutung, Arten & Risiken
Stellen Sie sich Folgendes vor: Ein Pharmaunternehmen preist die Sicherheit seines neuesten Wundermittels. Dann prüft die Aufsichtsbehörde den Offshore- Produktionsstandort des Herstellers und erteilt die sofortige Einstellung der Produktion, da wichtige Daten zur Qualitätskontrolle fehlen. Leider sind solche Beispiele für mangelhafte Datenintegrität alles andere als selten. Probleme mit der Korrektheit und Konsistenz von Daten finden sich in allen Branchen und können größte Probleme nach sich ziehen.
Im Zeitalter von Big Data, in dem mehr Daten verarbeitet und gespeichert werden als je zuvor, ist es enorm wichtig, Maßnahmen zum Schutz der Integrität der gesammelten Daten zu implementieren. Der erste Schritt, um Ihre Daten sicher zu halten ist es, die Grundlagen der Datenintegrität und ihre Funktionsweise zu verstehen. Lesen Sie weiter und erfahren Sie, was Datenintegrität ist, warum sie so wichtig ist und wie Sie Ihre Daten in Top-Form halten können.
Was ist Datenintegrität?
Der Begriff Datenintegrität bezieht sich auf die Korrektheit, Vollständigkeit und Konsistenz von Daten. Auch die Sicherheit von Daten mit Blick auf regulatorische Anforderungen, wie z. B. die Datenschutz, CCPA und DSGVO, und der Schutz der Daten fallen unter diesen Begriff. Um Datenintegrität zu gewährleisten, werden in der Designphase verschiedene Prozesse, Regeln und Standards implementiert. Ist die Integrität der Daten so erst einmal sichergestellt, bleiben die in einer Datenbank gespeicherten Informationen dauerhaft korrekt, vollständig und vertrauenswürdig, ganz gleich, wie oft auf sie zugegriffen wird. Zudem sorgt Datenintegrität dafür, dass Ihre Daten vor externen Einflüssen geschützt sind.
Arten der Datenintegrität
Man unterscheidet zwischen physikalischer und logischer Datenintegrität. Bei beiden kommen verschiedene Prozesse und Methoden zum Einsatz, die in hierarchischen und relationalen Datenbanken Datenintegrität sicherstellen.
Physikalische Integrität
Bei der physikalischen Datenintegrität geht es darum, die Korrektheit und Vollständigkeit der Daten während ihrer Speicherung und Nutzung zu gewährleisten. Kommt es zu Naturkatastrophen, Stromausfällen oder Hackerangriffen, die Datenbankfunktionen stören, beeinträchtigt das die physikalische Integrität. Auch Anwenderfehler, Speichererosion sowie zahlreiche andere Probleme können dazu führen, dass Datenverarbeiter, System- und Anwendungsprogrammierer und interne Auditoren nicht auf korrekte Daten zugreifen können.
Logische Integrität
Die logische Integrität stellt sicher, dass Daten während der Nutzung in einer relationalen Datenbank unverändert bleiben. Sie schützt Daten auch vor Hackern und Anwenderfehlern – allerdings auf ganz andere Art, als dies bei der physikalischen Integrität der Fall ist. Man unterscheidet vier Arten der logischen Integrität.
Entitätenintegrität
Entitätenintegrität basiert auf der Erstellung von Primärschlüsseln oder eindeutigen Werten, die bestimmte Datenkomponenten identifizieren, um sicherzustellen, dass Daten nicht mehr als einmal in der Datenbank vorhanden sind und dass kein Feld in der Tabelle den Wert Null hat. Es handelt sich hier um eine Funktion relationaler Systeme, die Daten in Tabellen speichern, die auf verschiedene Weise miteinander verknüpft und genutzt werden können.
Referentielle Integrität
Referentielle Integrität bezieht sich auf die Abfolge von Prozessen, die sicherstellen, dass Daten auf einheitliche Weise gespeichert und genutzt werden. In die Datenbankstruktur eingebettete Regeln für die Nutzung von Fremdschlüsseln sorgen dafür, dass nur zulässige Änderungen, Ergänzungen und Löschungen ausgeführt werden können. Solche Regeln können Einschränkungen (sogenannte Constraints) beinhalten, welche die Eingabe von Datendubletten verhindern, die Datenkorrektheit gewährleisten und/oder die Eingabe irrelevanter Daten blockieren.
Domainintegrität
Domainintegrität bezeichnet die Gesamtheit aller Prozesse, welche die Korrektheit jedes einzelnen Datenelements in einer Domain sicherstellen. In diesem Kontext versteht man unter einer Domain die Menge akzeptabler Werte, die eine Spalte enthalten darf. Auch hier können Constraints und andere Maßnahmen greifen, um Formate, Arten und Umfang der eingegebenen Daten zu begrenzen.
Anwenderdefinierte Integrität
Unter diesem Begriff versteht man die durch den Anwender für seine individuellen Anforderungen selbst definierten Regeln und Constraints. Manchmal reichen Entitäten-, Domain- und referentielle Integrität nicht aus, um Daten zu schützen. Dann müssen zudem spezifische Businessregeln definiert und in die Integritätsmaßnahmen integriert werden.
Was Datenintegrität nicht ist
Bei all den Aspekten der Datenintegrität verliert man die wahre Bedeutung des Begriffs schon mal aus den Augen. Oft wird er fälschlicherweise mit Datensicherheit und Datenqualität gleichgesetzt, diese haben aber beide ihre ganz eigene Bedeutung.
Datenintegrität ist etwas anderes als Datensicherheit.
Datensicherheit bezeichnet die Gesamtheit aller Maßnahmen, mit deren Hilfe die Unversehrtheit von Daten gewährleistet wird. Dazu zählt die Nutzung von Systemen, Prozessen und Abläufen, die einen unberechtigten oder potenziell schädlichen Datenzugriff durch Dritte verhindern. Verletzungen der Datensicherheit können geringfügiger Natur und entsprechend einfach einzudämmen sein, sie können aber auch sehr umfangreich sein und erheblichen Schaden anrichten.
Während es bei der Datenintegrität darum geht, Daten über deren gesamte Lebensdauer hinweg korrekt und nutzbar zu halten, zielt Datensicherheit darauf ab, Daten gegen Angriffe von außen zu schützen. Datensicherheit ist dabei eine der zahlreichen Facetten der Datenintegrität. Datensicherheit umfasst allerdings nicht die vielen Prozesse, die erforderlich sind, um Daten langfristig vor Manipulationen zu schützen.
Datenintegration ist etwas anderes als Datenqualität.
Erfüllen die in Ihrer Datenbank gespeicherten Daten Ihre Firmenstandards und die Anforderungen Ihres Unternehmens? Datenqualität beantwortet diese Fragen mithilfe verschiedener Prozesse, die Alter, Relevanz, Korrektheit, Vollständigkeit und Zuverlässigkeit Ihrer Daten messen.
Wie Datensicherheit ist auch Datenqualität lediglich ein Baustein der Datenintegrität, wenn auch ein sehr entscheidender. Datenintegrität umfasst alle Aspekte der Datenqualität, geht aber noch einen Schritt weiter: Sie steuert mithilfe verschiedener Regeln und Prozesse unter anderem, wie Daten eingegeben, gespeichert und weitergegeben werden.
Datenintegrität und DSGVO-Compliance
Datenintegrität ist der Schlüssel zur Einhaltung von Datenschutzbestimmungen wie der DSGVO. Bei Nichtbeachtung dieser Gesetze und Vorschriften drohen Unternehmen erhebliche Bußgelder. In manchen Fällen können Verstöße sogar noch über diese hinaus geahndet werden. Eine wiederholte Nichtbeachtung kann für Unternehmen zudem existenzgefährdend sein.
Zum Glück gibt es Mittel und Wege, um die für die DSGVO und andere Datenschutzvorschriften erforderliche Datenintegrität sicherzustellen.
Datenintegritätsrisiken
Daten sind verschiedenen Integritätsrisiken ausgesetzt. Hier einige Beispiele:
- Anwenderfehler: Eine fehlerhafte oder doppelte Eingabe von Daten, deren versehentliche Löschung, die Nichtbeachtung relevanter Protokolle oder Fehler bei der Implementierung von Datenschutzmechanismen können allesamt die Datenintegrität beeinträchtigen.
- Übertragungsfehler: Lassen sich Daten nicht problemlos von einem Speicherort in der Datenbank zu einem anderen übertragen, liegt ein Übertragungsfehler vor. Solche Fehler treten auf, wenn in relationalen Datenbanken ein Datenelement zwar in der Zieltabelle vorhanden ist, nicht aber in der Ursprungstabelle.
- Bugs und Viren: Spyware, Malware und Viren sind Softwarekomponenten, die in einen Computer eindringen können, um dort Daten zu ändern, zu löschen oder zu stehlen.
- Kompromittierte Hardware: Plötzliche Abstürze von Computern oder Servern und Probleme mit der Funktion von Rechnern und anderen Geräten deuten auf massive Fehler hin und könnten ein Anzeichen dafür sein, dass Ihre Hardware kompromittiert wurde. Kompromittierte Hardware kann Daten fehlerhaft oder unvollständig abbilden, den Datenzugriff einschränken oder verhindern bzw. die Nutzung von Daten erschweren.
Datenintegritätsrisiken lassen sich mithilfe der folgenden Schritte einfach minimieren oder sogar eliminieren:
- Schränken Sie den Datenzugriff ein und definieren Sie Regeln, die eine Änderung von Daten durch unberechtigte Parteien verhindern.
- Stellen Sie mithilfe von Validierung sicher, dass Ihre Daten bei der Erfassung und während der Nutzung korrekt sind.
- Sichern Sie Ihre Daten regelmäßig.
- Prüfen Sie mithilfe von Logs, wann Daten hinzugefügt, modifiziert oder gelöscht wurden.
- Führen Sie regelmäßig interne Audits durch.
- Nutzen Sie Fehlererkennungssoftware.
Datenintegration – die ersten Schritte
Die Integrität Ihrer Firmendaten mit herkömmlichen Methoden zu schützen, kann sich als enorme Herausforderung erweisen. Sichere, cloudbasierte Datenintegrationsplattformen bieten dazu eine moderne Alternative und ermöglichen Ihnen eine Echtzeitansicht all Ihrer Daten. Mithilfe modernster Cloud-Integrationstools lassen sich zahlreiche Quelldaten-Anwendungen verbinden, so dass Sie von einem zentralen Ort auf all Ihre Firmendaten zugreifen können.
Wie Sie optimale Rahmenbedingungen für Datenintegrität schaffen können, erfahren Sie in unserem Definitiven Leitfaden zur Data Governance.
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- Data-Profiling: Definition, Tools und Nutzen
- Durch hohe Datenqualität richtige Entscheidungen treffen
- Was ist Datenredundanz?
- Datensynchronisation: Definition, Methoden, Herausforderungen
- Leistungsstarkes Datenqualitätsmanagement mit Talend
- Data Quality Tools richtig auswählen und Datenqualität sichern
- Einsatz von maschinellem Lernen für Data Quality