データの信頼とは何ですか?

自社が所有するデータを信頼できますか?

2021年に実施されたデータの健全性に関する調査によると、ビジネス部門の役員の60%が、自社のデータを必ずしも信頼していないことが明らかになりました。役員の3分の1以上の意思決定は、依然としてその大部分がデータに基づいていません。これは、世界中の業界全体の組織の危機です。データを信頼しない意思決定者が自分の意思決定を信頼できるでしょうか? 
 
まず、データとは何かについて考えていきましょう。近年、世界はますますデータ駆動型の環境となり、組織のネットワークは情報で飽和状態になっています。あるデータは、SaaSおよびWebアプリケーションを介して取得されます。別のデータは、Webフォームなど、直接のデータ入力によってもたらされます。ソーシャルメディアの投稿のように構造化されていないデータも存在します。また、スマートフォンやモノのインターネット(IoT)デバイスなどの機器から送られるデータも増加しています。見積もりによると、毎年作成されるデータの量の単位はゼタバイトです。1ゼタバイトは10億テラバイト以上の量です。これは膨大な量のデータです。
 
手動でのデータ品質管理では、このような量に対応できません。人は間違います。機械が絶対確実というわけではありません。さらに、データは、多くの場合、複数の開発者によってコーディングされた複雑な情報システムを通過します。これにより、バグの多いコードがエラーを引き起こすリスクが高まります。

結局のところ、データを信頼するとはどういうことでしょうか?

データの信頼性の定義

データの信頼性とは、組織のデータが健全であり、行動に使用するための準備が整っていることを意味します。

信頼性は、データの利用で成功するための重要な要素の 1 つです。組織は、文化俊敏性を組み合わせることで、データの健全性を達成できます。組織において組織全体および部門間でのデータの信頼性が確保されることで、そのチームは、優れたカスタマーエクスペリエンスの設計、運用の改善、意思決定の合理化、コンプライアンスの確保、イノベーションの推進を実現できます。しかし、獲得したデータの信頼性は、定量化されている必要があります。根拠がないにもかかわらず、信用することはできません。組織のデータを信頼する前に、そのデータによって信頼できる分析を生成でき、十分な情報に基づいたビジネス上の意思決定をサポートできることを証明する必要があります。

データクオリティの観点

データの信頼性を測定するにはどうすればよいでしょうか?DAMA UK(国際データマネジメント協会英国支部)では、データクオリティの測定に使用される6つの観点を定義しています。

  • 正確性 — 対象の現実世界のオブジェクトやイベントを正確に表している度合い 
    • 例:あるアカウンティングレコードで米国の日付形式「MM/DD/YYYY」を使用しているとします。ヨーロッパの「DD/MM/YYYY」形式を使用して入力されたデータが原因で、5月8日を期限とする請求書が8月5日まで支払われない可能性があります。
  • 完全性 — 保存されているデータの割合が、潜在的な全データに対して100%完全に網羅していること
    • 例:ブランク値は、特定のデータが取り込まれていないことを示します。300行で構成される住所レコードで12個の郵便番号が欠落している場合、使用可能な住所のデータの数は288個で、完全性率は288/300、つまり96%です。
  • 一貫性 — 1つの定義に対して、複数の表現に差異がないこと
    • 例:組織の人事チーム、法務チーム、および財務チームはすべて、1つの日付形式を使用していますか?または、異なる部門によって生成されたレポートで、日付が同じであるにもかかわらず、11/12/2022、12/11/22、および22-NOV-12と表示されますか?
  • 適時性 — ビジネス機能をサポートするために必要な現実を表すのに十分に最新な状態であることの度合い
    • 例:企業収益を表すフィールドでは、最新のデータにアクセスすることが重要です。そのデータの提供にどのくらいの遅れがありますか(分、日、または週単位)?
  • 一意性 — アイテムやエンティティのインスタンスが、特定された方法に基づいて複数回記録されていないこと
    • 例:複数のエントリに基づいた単一の顧客のレコードの重複。たとえば、A. Lee、Alan R. Lee、 およびAlan Lee は、同じ住所と連絡先情報を持つ3人の個人として表示されます。 
  • 妥当性または整合性 — 定義されている構文規則(フォーマット、型、範囲)に準拠している度合い
    • 例:「1000 Integration Drive」という住所は有効ですが、必ずしも正確ではありません。「H/*27 Integration Drive」という住所は無効です。

すべてのテーブル、レコード、およびフィールドについて、これらの各観点のデータの評価が高いほど、データの信頼度が高くなり、意思決定へのデータ利用が促進されます。しかし、特定のレコードまたはデータセットが1つの観点で適切に機能したとしても、必ずしも100%信頼できるとは限りません。上記のように、有効だが正確ではない情報、または正確だが不完全な情報である可能性もあります。

最も重要なことは、ビジネスニーズによって異なります。たとえば、財務チームでは特に高いレベルの精度を要求しますが、他の部門ではそれよりも適時性を重視している場合があります。データチームは、データが満たすべきメトリックについて独自の評価を行う必要があります。また、データユーザーに対するデータクオリティの認証を定量化する必要もあります。信頼性と透明性が組み合わされることにより、意思決定者は自信を持ってデータを使用できるようになります。

ただし、データクオリティはデータの信頼性の1つの側面にすぎないことに注意してください。信頼できるデータに対するTalendのビジョンには、データの検索、改善、検証、使用を容易にするツールや、事業部門のデータユーザーが自分のデータを管理できるようにするセルフサービスアプリなどの要素も含まれています。たとえば、データが高品質であっても、それを必要とする人々がアクセスできない場合、そのデータは本当にデータの信頼性に寄与しているでしょうか?信頼できるデータの測定に含める要素が何であっても、重要なことは、企業全体で使用できるデータがどの程度であるかを定量化することです。つまり、そのデータを「すぐに意思決定に使用できるか」ということです。

データの信頼性のフレームワーク

非常に大量のデータが溢れている世界でデータの信頼性を実現するには、データを監査、評価、クリーニングするプロセスを実装および自動化する必要があります。しかし、データの信頼性はテクノロジーだけでは達成できません。完全なデータの信頼性ソリューションには、ソフトウェアとともに人的なプロセスを考慮したデータインフラストラクチャが必要です。データクオリティの自動化と連携する データセントリックな文化を構築する必要があります。

データの健全性のインフラストラクチャでは、事業部門の関係者の知識を活用してデータをクリーニングするだけでなく、データエンジニアがコーディングの専門知識がなくても複雑な操作を実行できる洗練されたツールと人工知能を活用します。つまり、人を念頭に置いて選択された技術ソリューションです。適切なソリューションとは、組織内の誰にとってもデータの操作、データの共有、データの理解、およびデータの信頼が容易になるソリューションです。

Talendのモジュール型のセルフサービスアプリとTrust Scoreを導入することで、自社データのプレパレーションと品質管理に事業部門が関与できるようになり、部門間の信頼すべきデータに対するスキルベースの障壁を取り除きます。Talendのクラウドネイティブプラットフォームでは、データ統合、データ整合性、データスチュワードシップ、およびデータガバナンスの各機能が単一のユーザーフレンドリーな環境にまとめられています。このプラットフォームは、データ環境全体にわたるデータの操作のあらゆる側面を簡素化できる唯一のプラットフォームです。

Talend Data Fabricは、あらゆる組織におけるデータの信頼性のフレームワークを提供するために、あらゆるデータセットの信頼性を評価する業界初のイノベーションであるTalend Trust Score™を備えています。Talend Trust Score™では、データをどの程度信頼できるかを即時に洞察できる標準により、信頼を具体化します。このデータの信頼性メトリックによって、データが正常なデータの基準を満たしている程度が一目でわかるようになります。

  • 徹底した管理 — システム全体で、データがクリーンで、完全で、一貫性がありますか?
  • 透明性 — データはアクセス可能で、理解しやすいですか?
  • 適時性 — データは最新の状態で、必要とする人がすぐに利用できますか?
  • 追跡可能 — データの出所と、それがどう利用されてきたかがわかりますか?
  • テスト済み — データは他のユーザーによる評価と認定を受けていますか?

完全でクリーンで信頼できるデータへのオープンなアクセスにより、データのエンドユーザーはより適切で、より大胆な意思決定を自信を持って行うことができます。データサイエンスおよび分析チームとシチズンアナリストは、ビジネスの全体像を把握し、より適切な洞察、対応が早い戦略的推奨、確かな意思決定を行うために使用するデータを信頼および検証できるようになります。これらの利点の中でも特に、データの信頼性は、ビジネス部門とIT部門の関係まで向上させます

データの信頼性のケーススタディ

データの信頼性の重要性を理解するには、データの信頼性の実際の活用事例を確認することが役に立ちます。次のケーススタディは、民間企業から公的機関まで、さまざまな組織に共通するユースケースを示しています。

Beneva – データの信頼性を達成することで、より優れたサービスを提供し、300万人の顧客を維持

カナダ最大の相互扶助保険会社である Beneva(旧SSQ Insurance)は、300万人の顧客に幅広い保険と投資商品を提供しています。事業が75 年にわたって継続していることで、同社のデータシステムは複雑になりすぎてサイロ化し、顧客データを効果的に使用できない状態になっていました。

金融および保険のクライアントは高レベルのパーソナライゼーションを期待していますが、従業員は事業部門全体の顧客データを見ることができませんでした。「顧客から電話で別の商品について聞かれた場合、私たちはまったく知らない顧客と会話している気分になりました」とBenevaのデータエンジニアリングディレクター、Simon Latouche氏は述べています。

Beneva氏は、健全なデータをビジネスの中心に据え、データ共有を改善するために、一元化されたカスタマーポータルを構築しました。お客様の業務を自動的に登録し、Talend Data Quality とデータスチュワードシップによってデータが信頼できるものであることを確認します。従業員は、包括的で信頼できる顧客データにアクセスできるようになりました。結果として、コールセンターはより効率的に顧客を支援し、マーケティング担当者は予測モデルを使用してキャンペーンをカスタマイズできます。実際、Benevaは顧客獲得コンバージョンを3倍に増やすことができました。

Aeroporti Di Roma — GDPRに準拠した方法で4,880万人の旅行者のデータを分析

Aeroporti Di Roma(ADR)は、Roma Fiumicino(Leonardo da Vinci)空港とCiampino空港を管理および開発しています。約100の航空路線がこの2つの空港を発着点とし、世界中の230以上の目的地に乗客を運んでいます。

ADRは、顧客の行動を迅速に把握して、予測するために、信頼できるデータがどれほど重要であるかを認識しています。また、顧客の個人データを保護する責任も理解しています。ADRとそのパートナーは、個人データの保護を確保しながらデータ共有を改善するために、データレイクにClouderaを使用し、インジェストエンジンにTalend Big Dataを使用して、ビッグデータ分析プラットフォームを構築しました。Aeroporti Di Roma SpAのITソリューション責任者であるPietro Caminiti氏は、「Talendにより、一般データ保護規則(GDPR)基準に準拠しながら、大量のデータを分析して、高度な統計アルゴリズムを通じて戦略的情報を抽出できます。」と述べています。

「当社は、4,880万人の利用客のエクスペリエンスと業務効率を改善できました。また、世界的に認められているACI Worldのエアポート・サービス・クオリティ・プログラムにより、4,000万人以上の乗客が利用する欧州ナンバーワンの空港として認められました。」とPietro Caminiti氏は述べています。

Wolters Kluwer Health — 健全なビジネス上の意思決定への道を開く

Wolters Kluwerは、医療業界に専門的な情報、サービス、ソリューションを提供しています。信頼できるデータに対するWolters Kluwerの欲求がビジネスインテリジェンス(BI)スタッフの能力を超える恐れが生じたとき、同社ではデータの使用を民主化するための革新的な「シチズンアナリスト」イニシアチブを開始しました。

Talendは、モジュール性、スケーラビリティ、シンプルさ、コスト効率、非常に高いデータクオリティのサポートを組み合わせて提供する能力を持ち、Wolters Kluwer Healthは、取り組みの当面の目標と長期的なビジョンを達成するためにTalendの協力を必要としていました。Talendへの移行により、数百万ドルの費用が節約され、BIチームは高度な予測分析とAIを使用して、より適切な意思決定を円滑化するデータ内の新しいパターンを見つけることができました。

シチズンアナリストのイニシアチブは、技術に詳しくないスタッフが、シンプルなインターフェース、使いやすいツール、高品質のデータ(すべてTalendが統合)を使用して独自のデータ分析を行い、より優れた患者ケアとより健康的なビジネス上の意思決定を促進するのを支援しています。

「私たちは好奇心の文化を創造しています」と、Wolters Kluwer Healthのビジネスインテリジェンス担当ディレクター、Kevin Ryan氏は言い、次のように続けます。「これは文化的な変化ですが、誰もが納得して受け入れている変化です。製品チームはより早くインサイトを入手して、BIチームへの依存度を減らすことができます。さらに、ビジネスリーダーに結果を共有し、より迅速に承認を得ることができるため、最終的には医師や患者にメリットをもたらす優れた製品やサービスを提供できます。」

Talendのデータの信頼性のソリューションをお試しください

信頼できるデータがあれば、組織内の全員にメリットがあります。現実世界における完全で正確かつ適時な全体像に基づいて意思決定するという自信を得ます。信頼できるデータを使用して意思決定すると、より優れた結果、収益の増加、およびより大きな成長につながる可能性があります。

組織のデータのクオリティに自信がありますか?データの正確性、完全性、適時性に不安がありますか?Talendなら解決できます。データのサブセットをエクスポートし、 Talend Trust Assessorを使用して実行します。この無料ツールを使用すると、Trust Score™テクノロジーにアクセスできます。データの有効性、完全性、一意性に関するフィードバックを含む迅速なレポートを入手できます。どのように動作するかを確認するために、サンプルデータセットで試すこともできます。これは、データの健全性を実現する過程の第一歩です。

Talendを使う準備はできていますか?