データレイクとデータウェアハウス(DWH)の違い
データレイクとデータウェアハウス(DWH)は、どちらもビッグデータを格納するために広く使用されていますが、同じものではありません。データレイクは、ローデータの巨大なプールですが、その目的はまだ定義されていません。データウェアハウス(DWH)は、特定の目的のために処理され、フィルタリングされた構造化データのリポジトリーです。
2つのタイプのデータストレージは混同されることがありますが、類似点以上に多くの違いがあります。実際、2つの唯一の類似点は、データを格納するという上位レベルの目的だけです。
この区別が重要なのは、2つが異なる目的を果たし、適切に最適化するには異なるスキルが必要とされるためです。データレイクを使用するのが適しているか、データウェアハウスの方が適しているかは、企業によって異なります。
データレイクとデータウェアハウス(DWH)の4つの違い
データレイクとデータウェアハウス(DWH)にはいくつかの違いがあります。中でも大きく異なっているのは、データ構造、向いているユーザー、処理方法、データの全体的目的の4点です。
データレイク | データウェアハウス(DWH) | |
---|---|---|
データ構造 | ローデータ | 処理済みデータ |
データの目的 | 未確定 | 現在使用中 |
ユーザー | データサイエンティスト | ビジネス担当者 |
アクセス性 | 高度にアクセス可能、迅速な更新 | より複雑、変更のコストが高い |
データ構造の違い:ローデータ vs 処理済みデータ
ローデータは、目的を果たすための処理がまだ実行されていないデータです。データレイクとデータウェアハウスの最大の違いは、ローデータと処理済みデータの構造の違いであると言えます。データレイクは、主として未処理のローデータを格納し、データウェアハウスは処理済みの洗練されたデータを格納します。
このため、データレイクは通常、データウェアハウスよりもはるかに大きなストレージ容量を必要とします。さらに、未処理のローデータには柔軟性があり、任意の目的で迅速に分析でき、機械学習に理想的です。一方で、そのようなローデータのリスクは、適切なデータクオリティとデータガバナンスを講じなければ、データレイクがデータスワンプ化することがあるという点です。
データウェアハウス(DWH)は、処理されたデータのみを保存し、使用されない可能性のあるデータを維持しないことにより、高価なストレージスペースを節約します。さらに、処理されたデータは、より多くのオーディエンスが容易に理解できるものになります。
目的の違い:未確定 vs 使用中
データレイク内の個々のデータの目的は固定されていません。データレイクに投入されるローデータには、将来の特定の使用が考慮されている場合も、とりあえず格納される場合もあります。これは、データウェアハウス(DWH)に比べて、データレイクの組織化とフィルタリングのレベルが低いことを意味します。
処理されたデータは、特定の目的のために使用されるローデータです。データウェアハウス(DWH)は処理済みデータのみを格納するため、データウェアハウス内のすべてのデータは、組織内の特定の目的に使用されます。これは、使用されない可能性のあるデータのためにストレージ領域が浪費されないことを意味します。
ユーザー:データサイエンティスト vs ビジネス担当者
データレイクは、未処理のデータに慣じみのないユーザーにとっては扱いにくいことがよくあります。生の非構造化データは通常、特定のビジネス用途向けとして理解/変換するデータサイエンティストと専門ツールを必要とします。
また、データプレパレーションツールの背景で、データレイクに格納された情報へのセルフサービスアクセスを推進する勢いが高まっています。
処理済みデータは、チャート、スプレッドシート、テーブルなどで使用され、社員のほとんどまたは全員が読み取ることができます。データウェアハウスに格納されるような処理済みデータは、表現されたトピックにユーザーが精通していることのみを必要とします。
アクセス性の違い:柔軟性 vs 安全性
アクセス性と使いやすさは、データリポジトリー内のデータではなく、データリポジトリー全体の使用についてを指します。データレイクは構造を持たないため、アクセスしやすく、変更も容易です。さらに、データレイクにはほとんど制限がないため、データにすばやく変更を加えることができます。
データウェアハウス(DWH)は設計上、より構造化されています。データウェアハウスの大きなメリットの1つは、データの処理と構造によってデータ自体の解読が容易になることです。一方で、構造の限界により、データウェアハウスの操作が困難になり、そのコストも高くなります。
データレイク vs データウェアハウス(DWH):自社に適しているのは?
組織には、データレイクとデータウェアハウス(DWH)の両方が必要となることがあります。ビッグデータを活用したり、機械学習のための生の細かい構造化/非構造化データを使用したりするために、データレイクの必要性が生じます。その一方で、ビジネスユーザーのアナリティクス向けにデータウェアハウス(DWH)を作成する必要があります。
医療:非構造化データをデータレイクに格納
データウェアハウス(DWH)は医療業界で長年使用されてきましたが、これまで顕著な成功をおさめたことはありません。医療分野ではデータの大部分(医師のメモ、臨床データなど)は構造化データであり、またリアルタイムの知見が必要とされるため、データウェアハウスは通常は理想的なモデルではありません。
構造化データと非構造化データを組み合わせることができるデータレイクの方が、医療関連の企業に適しています。
Talendの支援によりグローバルデータレイクを構築したAstraZenecaの事例については、こちらをご覧ください。
教育:データレイクが柔軟なソリューションを提供
近年、教育改革におけるビッグデータの価値が顕著に明らかになっています。生徒の成績、出席状況などのデータは、問題を抱えた生徒の状況改善を支援するだけでなく、問題が実際に発生する前に予測するうえでも活用されています。柔軟なビッグデータソリューションは、教育機関が課金を合理化し資金調達を改善するなど、多くの側面で役立っています。
データの大半は多様なローデータであり、データレイクの柔軟性が教育機関で最大限に生かされています。
金融:一般市民にとって魅力的なデータウェアハウス(DWH)
金融などのビジネスでは、データサイエンティストではなく企業全体がアクセスできるように構成されるデータウェアハウス(DWH)が、しばしば最適なストレージモデルとなります。
金融サービス業界がビッグデータの活用で大きな進展を遂げる中で、重要な役割を担っているのがデータウェアハウス(DWH)です。金融サービス会社がこのようなモデルから離れる唯一の理由となり得るのは、費用対効果でメリットがより大きい一方で、ほかの目的には有効ではないためです。
輸送:データレイクが予測を支援
データレイクの知見がもたらすメリットの多くは、その予測機能にあります。
輸送業界、特にサプライチェーンマネジメントでは、データレイク内の柔軟なデータから得られる予測機能は、非常に大きなメリットを及ぼすことがあります。これは、輸送パイプライン内のフォームからのデータを調査することで実現されるコスト削減効果です。
データレイクかデータウェアハウス(DWH)かを見極めることの意義
「データレイクかデータウェアハウス(DWH)か」の比較検討は始まったばかりですが、それぞれのモデルの特徴は、構造、プロセス、ユーザー、全体的な俊敏性における主な違いとして現れています。ニーズに応じて最適なデータレイクまたはデータウェアハウス(DWH)を開発することが、各企業の前進を助けます。
クラウドデータレイクの詳細をご確認ください。または、Talend Big Data Sandboxの無料試用版をダウンロードして、ビッグデータを簡単に活用できます。