データクオリティ(品質)とは? データの品質を高く保つアプローチ
データクオリティ(品質)とは
データクオリティ(品質)とは、ビジネスユーザーのそれぞれのニーズに合わせてデータを調整・管理するプロセスを指します。データは組織にとって最も価値のある資産であり、欠陥のあるデータに基づく意思決定はビジネスに悪影響を及ぼす可能性があります。そのため、データを必要とする人々と共有する前にデータクオリティ、つまりデータの品質を確保・向上し、管理する必要があります。
この記事では、データクオリティ(品質)の課題、具体的なモデル、最善のアプローチなどを紹介します。
データクオリティ(品質)の不備、管理による問題
データクオリティ(品質)は多くのエグゼクティブにとって厄介な問題となっています。不良データは、組織のあらゆる領域からさまざまな形でもたらされる可能性があり、知見を得るためのマイニングを困難にし、最終的には不適切な意思決定を招く可能性があります。
データクオリティ(品質)は多くのエグゼクティブにとって厄介な問題となっています。Forbes InsightsとKPMGの「2016 Global CEO Outlook」によると、84%のエグゼクティブがビジネスインテリジェンスを得るために使用しているデータの品質に懸念を抱いています。データの品質の問題は大きなコストを引き起こす可能性があります。MIT Sloanの調査では、不良データにより発生するコストは総収入の15〜25%に上るというという驚くべき結果が報告されています。
幸いなことに、不良データのために時間とコストをかけないようにする方法があります。データクオリティの6つの指標をデータ収集の最前線で保持し、管理することで、ビジネスシステムの最適なパフォーマンスが促進され、データの信頼性に対するユーザーが確信を持つことができるようになります。
データクオリティ(品質)に対する期待の設定
規模、機能、市場に関係なく、すべての組織は、ビジネスを理解し、適切なビジネスの意思決定を下すために、データクオリティに注意を払い、管理する必要があります。データの種類とソースは非常に多く、その品質は用途と理由に応じてビジネスにさまざまな影響を及ぼします。だからこそビジネスは、データに対する期待に基づき、上記の各測定基準について、独自の期待を協調的に決定し、合意する必要があるのです。
高品質データの価値は、主に、ビジネスインテリジェンスに基づくビジネスプロセスまたは意思決定を支えることによってもたらされます。したがって、合意されたデータクオリティのルールは、データが組織に提供する価値を考慮する必要があります。特定の状況においてデータが非常に高い価値を有することが確認された場合、そのコンテキストではより厳密なデータクオリティルールが求められることが示唆されている可能性があります。したがって、データクオリティ基準に合意する際には、データクオリティのディメンション自体に(もちろん、データクオリティが満たす必要のある外部標準にも)基づくだけでなく、基準を満たさない場合の影響にも基づく必要があります。
データクオリティ(品質)の管理への配慮を怠ることによる大きなコスト
データの品質管理の対応を怠ることによるコストは、時間とともに爆発的に増大します。データクオリティの不備は、使用される前に(発生地点で)発見されれば、はるかに簡単に緩和できます。例えば、このようなモデルケースがあります。入力時点でデータを検証または標準化してからバックエンドシステムに取り込む場合は、標準化のコストが約1ドルかかるとします。それよりも後でデータをクレンジングする場合は、さまざまな場所でマッチングとクレンジングを行うことになり、時間と労力の点で最初の1ドルに対して10ドルのコストがかかります。さらに、不良データをシステムに残したまま、それに基づいて不適切な意思決定を行い、顧客に情報を提供し、会社へのプレゼンテーションを行うことによって、エントリーポイントで対処していれば1ドルで済んだはずのコストが100ドルにふくらみます。システム内に不良データが存在する期間が長くなるほど、コストが増大するのです。したがって、不良データがシステムに入る前に捕捉することが目標となります。
データを高品質にし、管理する最善のアプローチ
これを行うには、自社のデータクオリティに対して、広く社内で使用可能な積極的・協業的アプローチを確立する必要があります。データクオリティは、すべてのチーム(テクニカルチームだけでなく)が責任を負うべきものでなければなりません。すべてのシステムをカバーする必要があり、不良データの侵入前に阻止するためのルールとポリシーを使用する必要があります。
実現不可能だと思われるかもしれませんが、そのようなことはありません。以下は、このアプローチを開発するためのロードマップです。
- 部門横断的なチームを結成する:データアーキテクト、ビジネス担当者、データサイエンティスト、データ保護担当者をデータクオリティのコアチームのメンバーに含めます。チームを管理すべき導入リーダーは、データクオリティプロジェクトのチームコーチとプロジェクト後援者の両方の役割を果たす必要があります。
- 最初から期待を設定する:なぜデータクオリティが重要なのでしょうか? その答えをビジネス担当者から引き出します。皆さんとチームが目標を把握していることを確認します。ビジネスに大きなインパクトを与える目標を設定してください。
- 規制の変更を予測し、コンプライアンスを管理する:データクオリティのコアチームで、GDPRなどの短期的なコンプライアンスのイニシアチブに取り組みましょう。これによって、即座に短期的な価値を実現し、戦略的な可視性を得ることができます。
- インパクトのある野心的な目標を設定する:データクオリティ計画を策定する際は、ビジネス主導の高い目標を設定しましょう。取締役会の関心を引き付け、人々の能力向上を促す計画になります。
- その一方で、素早い成果を実現する:「クイックウィン」を達成するには、データのオンボード、クラウドへのデータ移行の高速化、Salesforceデータのクレンジングなど、まずはデータ管理にビジネスを連携させる必要があります。
- 現実的な計画を立てる:誰でも受け入れることができて理解しやすい、測定可能なKPIを定義し、積極的に活用します。データクオリティはビジネスに直結します。したがって、ROIやコスト削減改善率などのビジネス主導の評価指標を活用して、プロジェクトを推進しましょう。
- 成果を認知させる:測定可能な成果を上げてプロジェクトを終了する際は、主要ステークホルダーに対して結果を可視化することを忘れないでください。ノウハウは重要です。優れたコミュニケーションスキルを組み合わせることで、なお素晴らしいものになります。
全社的にデータを高品質で管理
データクオリティへの積極的なアプローチにより、実際にコアシステムに到達する前に品質レベルをチェックして測定できます。社内、クラウド、Web、モバイルの各アプリケーションでそのデータにアクセスして監視することは大きな課題です。これらすべてのシステムにわたってこの種の監視を拡張する唯一の方法は、データ統合を利用することです。そのため、リアルタイムでデータを高品質で管理することが必要になります。
もちろん、データ統合プロセスに制御ルールを挿入して、誤ったデータの伝播を回避することが重要です。適切なデータクオリティツールと統合されたデータを使用することで、全体的なデータ完全性に関する問題の根本原因を検出して報告する機能を使用できます。さらに、アプリケーションやシステムの環境全体でデータを追跡する必要があります。これにより、リアルタイムでデータを解析、標準化、照合できます。必要に応じてアクティビティを整理して、正しいデータを確認できます。
劣悪なデータクオリティがもたらすコストは、機会の損失、不適切な意思決定、エラーの特定/クレンジング/修正にかかる時間として考えることができます。コラボレーションによるデータ管理と、問題発生場所でエラーを修正するためのツールは、データを必要とするすべての人に対してデータクオリティを保証するうえでの明快な手段となります。Talend Data Fabricが提供する多くのアプリケーションを役立てることで、両方の目標を達成できます。