クラウドでのETL:変化が意味するもの
ビッグデータの登場以来、ETL(抽出、変換、ロード)プロセスは現代のビジネスネットワークを介して情報を送り出す中心的な役割を果たしてきました。今日、クラウドベースのETLは大量のデータセットを管理するための重要なツールであり、企業は今後ますます依存するようになります。その理由は単純です。今日の競争の激しい環境ではデータは血のようなものであり、それが十分になければビジネスの死活問題となるのです。
ETL - 簡単な紹介
ETLは、大量のデータを処理するための世界標準です。共通のフレームワーク(Apache Hadoopなど)上で動作する、一連のリンクされたプロセッサーにプロセスを分散します。ETLプロセスには、以下の3つの機能があります。
- 抽出。抽出プロセスでは、データベース、ネットワークアプライアンス、セキュリティハードウェア、ソフトウェアアプリケーションなどの多様なソースから生データの取得が行われます。ストリーミングデータがデジタルネットワークを介して送られ、ほぼリアルタイムで収集されます。
- 変換。ETLプロセスの変換フェーズでは、情報の流れがビジネスに使用可能なデータに変換されます。同時に、ETLエンジンは重複データを検出して排除することでデータ量を削減します。その後、データは後で使用/分析するために標準化・フォーマットされます。最後に、データは次のフェーズに渡される前にソートされ検証されます。
- ロード。ETLプロセスの最後の段階では、データを目的の保存場所に配置します。これには、分析ツール、データベース/データレイク、コールドネットワークのリポジトリなどの適用可能な用途が含まれます。
相対的な見地で見ると、ETLは長年存在しています。しかし、生データをビジネスインテリジェンスに変換するという使われ方は、時代と共に進化しただけではなく、クラウドテクノロジーへの道を切り開く上でも貢献しました。
従来のETL - ローカルのソース
光ファイバーと世界規模で分散されたクラウドリソースが開発される前は、ETLプロセスはローカルで管理されていました。大規模で騒々しいコンピュータールームを想像してみてください。何人かの技術者が積み上げられたコンピューターとネットワークラックの間を行き来し、接続を確認していた時代の光景です。
1970年代後半、データを一般的なフォーマットに標準化(または変換)するためのツールが広く利用できるようになり、データベースの価値は大きく高まりました。この時代の最も重要なETLプロジェクトの例は以下のとおりです。
- 大量の科学データを共有する研究施設
- 現代のインターネットの先がけであるWorld Wide Webをもたらした初期のコラボレーション
- 現代のデータと通信が発展する基盤となった通信プロトコル(TCP/IP)の標準化
- 消費者データを集約し、特定ユーザー層に合わせて広告を調整する、最新のデジタルマーケティングテクノロジーの元となったもの
これまでのETLの大半では、使用する科学者やアナリストの近くでプロセスがローカルに(物理的に)行われていました。データはケーブル接続されたシステムを介して安全な施設にストリーミングされ、単純なアルゴリズムによって抽出されました。その後、データは標準化された(「クリーン」な)フォーマットに変換され、データベースにロードされ、そこで人間がデータを操作したり、データから学習したりできました。
このアプローチは、私たちが今日知っている多くのテクノロジーとコミュニケーションのオプションの基礎を築きました。その重要性にもかかわらず、従来のETLにはいくつかの重大な制限がありました。小型化前の時代には、ETLプロセスと大規模ストレージには、多くの場合に法外なコストがかかりました。さらに、この貴重なデータをすべて1か所に保管することで、自然災害、盗難、技術的な失敗による壊滅的損失の危険性が高まりました。
2018年まで時代を下ると、安価なデータストレージオプション、ファイバーネットワーク、ますます高速化するプロセッサーによって、データに関する以下の3点が保証されるようになっています。
- 現代のビジネスを流れるデータ量は指数関数的に増え続けます。
- そのデータの価値は高まり続けます。
- これらすべてのデータを処理するために必要なコンピューティング能力、そしてビジネスの適切な用途に使用するという課題は、クラウドのETLが将来のビッグデータで重要な役割を果たすことを意味しています。
クラウドへの移行
国内および世界規模のネットワークが速度と容量の両方を高めるのに伴って、ローカルサイトに大量のデータを保存する必要性は次第に低下しました。
技術者のBrian Patrick Eha氏は、インターネット速度の進化とデータ転送に対するクラウドの影響を追跡しました。同氏によると、1984年には比較的高速の専用データ回線で、毎秒50キロビット(Kbs)の転送速度が可能でした。2013年までに、市販の光ファイバー接続はスループットを毎秒1ギガバイトにまで高めました。この劇的な速度の変化は、安価で交換可能なストレージの普及と共に、ETLを高価で面倒なローカルのプロセスから、今日クラウドベースのETLとして知られているプロセスへと変化させたきっかけとなりました。
IDG社の2018年の報告によると、現在、企業の4分の3近くが部分的または完全にクラウドで運営され、その割合は2020年までに90%を超えます。
クラウドETL
今日、ETLプロセスは、アプリケーション開発、eコマース、ITセキュリティなどのテクノロジーと共に、クラウドで行われています。クラウドネイティブETLは、従来と同様の3ステップのプロセスに従いますが、ステップの実行方法が変わります。
Apache Hadoopフレームワークは、クラウドベースのETLの開発基盤となっています。Hadoopはコンピューティングプロセスを分散します。つまり、さまざまなソースからのデータをリモートで抽出し、コンピューティングリソースのネットワークを介して変換してから、ローカルでの分析用に変換できるのです。
クラウドネイティブのETLは共有コンピューティングクラスターに依存し、世界中にクラスターが分散しても、Hadoopを通じて、大規模なコンピューティングタスクの処理を共有する個別の論理エンティティとして動作します。かつて別棟や地下室で行われていたETLタスクは、クラウドインターフェイスを介して散在するクラスター上で処理されるようになりました。
特筆すべきは、これが従来のオンサイトETLに比べて桁違いに速いことです。まだオンプレミスまたはハイブリッド環境でETLを使用している企業は、「スピード」という競争の重要分野ですでに後れをとっているのです。
このクラウドプロセスでは、従来のETL専門家に馴染み深いアナリティクス画面が生成され、信頼できるツールにより今まで同様のデータの検索・マイニングが可能です。Apache Software Foundationは、ETLとそれを人間が使用するためのツールを開発・サポートするための世界最大のオープンソースコミュニティです。
しかし、今日使用されている大規模なデータセット、そしてデータセットの増大の速度が、従来のETLツールから便利で高度にカスタマイズされたビジネスインテリジェンスを得るうえで新たな課題を生み出しています。ますます多くの企業が、それぞれのETLニーズを満たすためにデータ管理プラットフォームに注目しています。
このクラウドプロセスでは、従来のETL専門家に馴染み深いアナリティクス画面が生成され、信頼できるツールにより今まで同様のデータの検索・マイニングが可能です。Apache Software Foundationは、ETLとそれを人間が使用するためのツールを開発・サポートするための世界最大のオープンソースコミュニティです。
しかし、今日使用されている大規模なデータセット、そしてデータセットの増大の速度が、従来のETLツールから便利で高度にカスタマイズされたビジネスインテリジェンスを得るうえで新たな課題を生み出しています。ますます多くの企業が、それぞれのETLニーズを満たすためにデータ管理プラットフォームに注目しています。
Talend:クラウドETLの管理ソリューション
Talendは2005年から、最先端の組織がETLなどのデータ統合の課題に対処するための、ホストされたユーザーフレンドリーなソリューションを提供してきました。Talend Open Studio for Data IntegrationとTalend Data Management Platformを使用することで、開発者とアナリストは、すべての一般的なフォーマットのデータセットをほぼ無制限に使い、現代のクラウドビジネスが依拠するETLなどのテクノロジーを活用できます。
しかし、Talendがサポートするのはテクノロジーの専門家だけではありません。最新の信頼できるビジネスインテリジェンスに依存するユーザーが、リアルタイムで管理しやすいETLと関連タスクにアクセスして、スマートな意思決定を下せるよう支援しています。セールスから出荷、顧客サービスまで、現代のビジネスのやりとりは、迅速で効率的、そして費用対効果の高いものでなければなりません。そして、必要なデータを適切な人々に届けるTalendの能力は、あらゆる組織に大きな改善をもたらします。
Talendが提供しているビッグデータ向けソリューションは、組織で一般的な問題となっている熟練開発者の不足を解決します。Talendは、自動化されたGUI起動プロセスにより、特定インスタンスでのハンドコーディングの必要性を減らし、ETLの管理とデータマイニングのスピードと効率を高めます。
最も重要なことは、オープンソースのTalendプラットフォームはビッグデータのスピードで拡大し続けており、最も要求が厳しい特定のデータニーズでも比較的簡単に対応できるよう保証している点です。
今すぐ無償トライアルを開始しましょう。世界をリードする多くの組織が、Talendを選択し、クラウド向けに構築されたETL統合プラットフォームによってレガシーインフラストラクチャからデータを解放しています。