ビッグデータ(Big data)の定義と未来予測
今世紀初め、リレーショナルデータベース、パブリックWebアクセス、ワイヤレスなどのテクノロジーの登場によって、莫大なデータセットの調査と管理が現実の課題となり、そのようなデータセットに名前を付ける必要が生じました。2013年7月、Oxford English Dictionaryは「ビッグデータ」という言葉を採用しました。ただし、この名称は、大量の情報を扱うことを表すものとして第2次世界大戦当時から使われていました。
ビッグデータ(Big data)とは?
ビッグデータ(Big data)とは、簡単に述べると、伝統的なデータ処理やデータ管理アプリケーションでは対処できない莫大な量の複雑なデータセットを指します。モバイルテクノロジーとIoTテクノロジーの登場によって、人々がより多くのデータ(位置情報、ソーシャルアプリ、フィットネスアプリなど)を生み出し、デバイスのデジタルデータにアクセスするようになったことで、ビッグデータはより一般的になりました。
また、ビッグデータとは業務を改善するために莫大な量のデジタル情報を収集、分析、使用することを定義する一般的な用語にもなっています。データセットが増大し続け、アプリケーションが一層リアルタイムになるにつれて、ビッグデータとビッグデータ処理はますますクラウドに移行していきます。
ビッグデータの重要性とは?
今日のデジタル世界では、瞬時に結果を出すことが期待されています。デジタルの販売取引からマーケティングのフィードバックや微調整まで、クラウドベースのビジネス世界ではあらゆるものが急速に動いています。このような高速のトランザクションはすべて、同じく高速でデータを生成し、コンパイルしています。この情報をリアルタイムで効果的に使用することで、ターゲットオーディエンスの360° のビューを獲得できます。一方、情報を活用できない場合は、それができる競合他社に顧客を奪われることになります。
データ運用の管理と利用の可能性(そして潜在的な落とし穴)は無限です。ビッグデータが組織に与える重要な影響を、次にいくつか示します。
- ビジネスインテリジェンス(BI)- は、組織の利益となるようにビッグデータの取り込み/分析/適用を指す言葉であり、現代の市場で競争するうえで欠かすことのできない武器となります。ビジネスインテリジェンスがアクティビティとチャレンジポイントをグラフ化して予測することによって、組織のビッグデータを製品に代わって活用できます。
- イノベーション - 業界や市場で起こっている無数のインタラクション、パターン、異常に対する潜望鏡レベルのビューを分析することにより、ビッグデータを使用して新しく創造的な製品やツールを市場に投入できます。 たとえば、Acme Widget社がビッグデータから得られるビューを検討した結果、中西部では温暖な時期に製品Bの販売が製品Aのほぼ2倍に上る一方、西海岸と南部では販売実績が同等であることがわかりました。Acme社は、ソーシャルメディアキャンペーンを推進するマーケティングツールを開発し、中西部の市場をターゲットとして製品Bの人気と即時提供を前面に押し出す独自広告を展開することが可能です。この方法により、Acme社は利益獲得を最大化するため、新規/カスタムの製品や広告にビッグデータを活用できます。
- 所有コストの削減 - わずかであってもコスト削減が利益獲得と同義であれば、ビッグデータには莫大な収益を得られる潜在性があります。IT専門家は、機器の購入にかかった金額ではなく、年間契約、ライセンス、人材のオーバーヘッドなどのさまざまな要因によって運用を測定します。 ビッグデータの運用によって得る知見を生かすことで、リソースの活用が十分でない場所や、さらなる注力が必要な分野を簡単かつ迅速に特定できます。これらの情報を合わせて、マネージャーは近代的な環境で予算の十分な柔軟性を確保できます。
ほぼすべての業界の組織やブランドは、ビッグデータを使用して新しい試みをスタートさせています。たとえば、運送会社は輸送時間と料金を計算するために使用しています。ビッグデータは画期的な科学/医学研究の基盤であり、かつてないスピードで分析と研究を行うことを可能にしています。さらに、私たちの毎日の生活にも影響を与えています。
ビッグデータの5V + 1
業界の専門家は、ビッグデータの特長を「5つのV」として表現することがあります。それぞれの「V」について確認するとともに、相互の関連についても考える必要があります。
ボリューム(Volume) - 使用するデータの量/格納方法/場所について計画を策定します。
多様性(Variety) - エコシステム内の使用する多様なデータソースをすべて特定し、それを取り込むための適切なツールを取得します。
速度(Velocity) - スピードも、現代のビジネスに不可欠な要素です。ビッグデータから得られるビューがリアルタイムに可能な限り近い速度で開発されるように、適切なテクノロジーを調査/導入します。
真実性(Veracity) - 紛れ込む「ゴミ」を排除し、データが正確でクリーンであることを確認します。
価値(Value) - 集められた環境情報のすべてが同じ重要性を持つわけではありません。したがって、わかりやすい方法で実用的なビジネスインテリジェンスを導くビッグデータ環境を構築します。
さらに、もう1つの「V」を追加したいと思います。
徳(Virtue) –ビッグデータの使用法の倫理について、データプライバシーとコンプライアンスに関するすべての規制に照らして取り組む必要があります。
ビッグデータアナリティクスとデータレイク
ビッグデータの価値は、データ自体というより、データがもたらす新しいユースケースや新しい知見にあります。ビッグデータアナリティクスは、非常に大規模で細かいデータセットを調べることにより、隠れたパターン、未知の相関、市場トレンド、顧客の好み、新しいビジネスの知見を明らかにするプロセスです。集計データのみを格納する従来のデータウェアハウスでは対応できなかった質問に、簡単に答えを出すことができるようになっているのです。
モナリザの絵を前にして、細かい部分が見えない状況を想像してみてください。これが、データウェアハウスから得られる顧客のビューに相当します。顧客の詳細なビューを得るには、これらの顧客に関するナノレベルのきめ細かなデータを格納し、データマイニングや機械学習などのビッグデータアナリティクスを使用して細密な肖像画として表現する必要があります。
データレイクは、多数のソースからのビッグデータを細かな生の形式で保持する中央ストレージリポジトリです。構造化データ、半構造化データ、非構造化データを格納できるので、将来の使用のためにデータをより柔軟な形式に保持できます。データレイクは、データを格納する際に識別子とメタデータタグを関連付けることで、検索を高速化します。データサイエンティストはデータレイクを使用して、より迅速かつ正確にデータにアクセスし、データを準備/分析できます。アナリティクスの専門家は、従来とは異なるさまざまな形式のデータを使用可能な巨大なデータプールを使用して、データにアクセスし、センチメント分析や不正検知などの多様なユースケースで活用できるという、またとない機会を得ます。
ビッグデータの使用方法
上記のすべてを理解するには、まず基本から始める必要があります。ビッグデータの場合、一般的には3つのApacheソフトウェアプロジェクト(Hadoop、MapReduce、Spark)が関連します。
Hadoopは、ビッグデータを扱うために設計されたオープンソースのソフトウェアソリューションです。Hadoopのツールは、ビッグデータセットを処理するために必要な負荷を、数百~数十万の個別のコンピューティングノードに分散します。ペタバイト規模のデータを小さな処理サイトに移動する代わりに、Hadoopはその逆を行い、情報セットの処理を大幅に高速化します。
MapReduceは、その名前が示すとおり、データセットのコンパイルと整理(マッピング)の2つの機能を実行して、小さく編成されたセットに絞り込むことで、タスクやクエリーに応答します。
Sparkも、Apacheに基づくオープンソースプロジェクトであり、大規模な処理と機械学習のための超高速で分散したフレームワークです。Sparkの処理エンジンは、スタンドアロンのインストールとして、クラウドサービスとして、またはすでに普及している分散コンピューティングシステム(Kubernetes、Sparkの前のApache Hadoopなど)が使用されるあらゆる場所で動作します。
これらをはじめとするApacheのツールは、ビッグデータを組織で活用するための最も信頼できる手段です。
ビッグデータの台頭と未来予測
クラウドテクノロジーの爆発的増加に伴い、増大する一方のデータをいかに活用するかがデジタルアーキテクチャーを設計する上での最重要課題となっています。トランザクション、在庫、さらにはITインフラストラクチャが完全に仮想状態で存在可能な世界では、優れたビッグデータアプローチによって以下のような多くのソースからのデータを取り込むことで、包括的なビューを獲得できます。
- 仮想ネットワークのログ
- セキュリティイベントとパターン
- グローバルなネットワークトラフィックのパターン
- 異常の検知と解決
- コンプライアンスの情報
- 顧客の行動と嗜好のトラッキング
- 位置情報
- ソーシャルチャネルデータによるブランドセンチメントのトラッキング
- 在庫レベルと配送のトラッキング
- 組織に影響するその他のデータ
どのように控えめに見積っても、ビッグデータトレンドによってオンサイトの物理インフラストラクチャーが縮小し続け、仮想テクノロジーへの依存度が高まっていくことは明らかです。機械に代わって機械をエミュレートするビットやバイトが使用されるようになる中、この変化に対応できるツールやパートナーが今後ますます必要とされようになります。
ビッグデータは、未来を予測する上で重要な「1つの要素」にとどまらず、「未来そのもの」になるかもしれません。ビッグデータをサポートするビジネス、組織、IT専門家のそれぞれのミッションへの取り組み方は、今後もデータの格納/移動/理解の進化によって形成されていきます。
ビッグデータ、クラウド、そしてサーバーレスコンピューティング
クラウドプラットフォームが現れる前は、ビッグデータの処理と管理はすべてオンプレミスで行われていました。しかし、Microsoft Azure、Amazon AWS、Google Cloudなどのクラウドベースのプラットフォームの登場により、ビッグデータマネージドクラスターがクラウドに展開されるようになりました。
これに伴い、不適切な利用、一定期間の利用が不十分/過剰になるなど、多くの困難が発生しました。サーバーレスアーキテクチャーは、マネージドクラスターに関連する問題を排除するための最善策であり、次のような利点を持ちます。
- 使用した分だけのコスト負担 - ストレージレイヤーとコンピューティングレイヤーの両方が分離されています。ストレージレイヤーでデータを保持する時間と必要な計算を実行する時間に対して支払うだけで済みます。
- 実装時間の短縮 - 展開に数時間から数日もかかるマネージドクラスターとは異なり、サーバーレスのビッグデータアプリケーションの展開は数分で完了します。
- フォールトトレランスと可用性 - デフォルトでは、クラウドサービスプロバイダーによって管理されるサーバーレスアーキテクチャーは、サービスレベル合意(SLA)に基づくフォールトトレランスと可用性を提供します。したがって、管理者を配置する必要がありません。
- 簡単なスケーリングと自動スケーリング - 定義された自動スケーリングのルールにより、ワークロードに応じてアプリケーションのスケーリングが調整されます。これは、処理コストを大幅に削減するのに役立ちます。
ビッグデータ統合ツールで考慮すべき機能
ビッグデータ統合ツールには、このプロセスを大幅に簡素化する潜在性があります。ビッグデータツールでは次の機能を考慮すべきです。
- 多数のコネクター:世界中で多くのシステムとアプリケーションが使用されています。データ統合ツールに組み込まれているコネクターが多ければ多いほど、チームの時間節約につながります。
- オープンソース:オープンソースのアーキテクチャーは、ベンダーのロックインを避けながら柔軟性を高めます。また、ビッグデータのエコシステムでは、将来の使用/採用に適したオープンソーステクノロジーが提供されています。
- 移植性:ハイブリッドクラウドモデルに移行するにつれて、データ統合を一度構築してどこでも(オンプレミス、ハイブリッド、クラウド)実行できることの重要性が高まります。
- 使いやすさ:ビッグデータ統合ツールは、GUIインターフェイスにより習得しやすく使いやすいものであり、ビッグデータパイプラインをより簡単に視覚化できる必要があります。
- 明確な価格モデル:ビッグデータ統合ツールプロバイダーのコストは、コネクターやデータボリュームの増加に応じて増加するものであってはなりません。
- クラウドの互換性:ビッグデータ統合ツールは、単一のクラウドでも、マルチクラウドでも、ハイブリッドクラウド環境でも、ネイティブに動作する必要があります。また、コンテナー内で実行し、サーバーレスコンピューティングを使用してビッグデータ処理のコストを最小限に抑え、使用している分だけに支払う(使用していないサーバーのコストは発生しない)ことができなければなりません。
- データクオリティとデータガバナンスの統合:ビッグデータは、通常は外部からもたらされ、ビジネスユーザー向けにリリースされる前に関連データのキュレーションや統制を行わなければ、企業にとって大きな負債になりかねません。ビッグデータのツールやプラットフォームを選択する場合は、データクオリティとデータガバナンスの機能が組み込まれていることを確認する必要があります。
ビッグデータとTalend
Talendは、ビッグデータを統合して処理するための堅牢なビッグデータ統合ツールを提供しています。ビッグデータ統合にTalendを使用することで、データエンジニアは、競合他社に比べてわずかなコストで、ハンドコーディングの10倍のスピードで統合ジョブを完了できます。
- ネイティブ:Talendは、クラウド/ビッグデータプラットフォームでネイティブに動作します。サーバーレス方式によりクラウドで直接実行可能なネイティブコードを生成します。また、ビッグデータプラットフォームで各ノードやクラスターに独自ソフトウェアをインストールして保守する必要もないため、オーバーヘッドのコストを排除できます。
- オープン:オープンソース/オープン標準ベースのTalendは、クラウドとビッグデータのエコシステムや顧客からの最新のイノベーションを柔軟に受け入れます。
- 統一的:Talendは、単一プラットフォームで、データ統合(データクオリティ、MDM、アプリケーション統合、データカタログを含む)と補完的テクノロジーとの相互運用性のための統合ポートフォリオを提供します。
- 価格設定:Talendのプラットフォームは、使用する開発者数に基づくサブスクリプションライセンスで提供されます(データ量/コネクター数、CPU/コア数、クラスター/ノード数などではありません)。ユーザー数に応じた料金は予測しやすく、製品を使用するためにデータ量に応じて課金されることもありません。
Talend Big Data Platformは、管理/監視機能やプラットフォームに組み込まれたデータクオリティの機能、そしてWeb/電子メール/電話での追加サポートを提供します。
さらに、ネイティブのマルチクラウド機能、あらゆる種類のプロジェクトに対応するスケーラビリティ、900以上の組み込みコネクターも利用できます。
Talend Real-Time Big Data Platformは、これらすべて機能を持つとともに、リアルタイムのSpark Streamingによりビッグデータプロジェクトにさらに弾みを付けます。
ビッグデータの開始
Talend Big Data Platformを今すぐお試しください。複雑な統合を簡単にし、Spark、Hadoop、NoSQL、クラウドを活用できるTalend Big Data Platformでは、データからより迅速に知見を得ることができます。無償試用版を最大限に活用するため、ビッグデータ開始ガイドもご覧ください。