この世界は文字通り、データに溺れています。毎日、250京バイトのデータが生成されており、現在世界にあるデータの90%はわずか2年以内に作られたものです。このようにデータが爆発的に増加する中で、答えに焦点を当てたデータ分析手法では得られるインサイトの点で限界があります。そのため、多くの企業がデータサイエンスに注目しています。これは、増大するデータの山に隠れている価値あるインサイトのすべてを明らかにする、非常に専門的な新しい技術です。

なぜ今なのか?

データとその利用方法が進化と発展を遂げたことで、今日のようにデータサイエンスが求められるようになりました。本格的に始まったのは、2005年にRoger Mougalas氏によってBig Dataという単語が世界に広まった時からです。ビッグデータとクラウドの登場により、人々はデータの持つ力について真の意味で考え始めるようになりました。ビッグデータのアプローチによって、私たちはデータの探索からインサイトを見つける方法を手に入れ、社内を全方位的に見渡せるようになりました。ビッグデータにより、企業はデータを単に額面通りに捉えて答えを得るのではなく、データを深く掘り下げ、自社のデータレイクを探索し、最終的にアクション可能なインサイトにつながる相関関係を見つけ出そうとするようになりました。この好奇心と探索活動がますます発展するに従い、今日のデータドリブンな企業の原動力となるインテリジェンスを発見できるデータ採掘手法としての、データサイエンスの人気が高まっています。

データサイエンス需要の高まり

IT部門は多くの場合、増加を続けるデータソースと、指数関数的に増大するデータ探索リクエストの両方を管理することはできません。残念ながら、IT部門がボトルネックとなり、社内のユーザーが分析に必要なデータにアクセスするために数日間から数週間待たされる状況はごく一般的です。これは、インサイトに到達するまでの時間によって、業界のリーダーとなるか、その他大勢となるかが決まる世界では許されません。現在最もホットで新しい役割である、データサイエンティストを目指してみませんか。

データサイエンスの専門家の需要は急激に高まっており、要求に応えることのできる適格な人材が不足しています。データサイエンティストは、全米で最高の職業の第1位として、Glassdoorのリストに2016年から毎年ランクインしています。ハーバードビジネスレビューは、データサイエンティストを21世紀で最もセクシーな職業と称しました。需要が高いにもかかわらず、適格なデータサイエンティストには複雑なスキルの組み合わせが求められるため、今日のデータドリブンな環境では、そうしたデータサイエンティストはほとんど見つけることのできない伝説上の存在となっています。

データサイエンスにおける80対20の法則

データサイエンティストは適切なデータにアクセスできないことがあまりに多く、データサイエンスを難しい科目にしています。そして仮にデータにアクセスできたとしても、その品質が非常に劣悪であることもよくあります。データを使えるようにするための変換やプレパレーションには時間がかかります。かくして、データサイエンスの80対20の法則が生まれます。すなわち、データサイエンスの業務の80%はデータプレパレーションで、モデル化を実行してデータから価値を生み出す作業は残りの20%に過ぎないという法則です。一週間で考えた場合、一般的なデータサイエンティストが最も重要な業務であるアルゴリズム開発やモデル構築に費やせる日は、わずか1日しかないということです。

データサイエンスを構成する要素

データサイエンスで重要な役割を果たす、認知的洞察の構成要素について、シンプルなものからより複雑なものへと順にご紹介します。

  • 古典的な記述的分析:ビジネスインテリジェンスが一例です。BIに期待されるのは、トレンドやパフォーマンスが見事に表現された、過去の事象のレポートやダッシュボードを得ることです。
  • アドホックなレポート作成:これには、データセットに対する対話型のクエリの実行も含まれます。たとえば、ある種類の商品がいくつ、どれだけの頻度で、どの場所で売れたのかを照会するなどです。その後、それらの質問に答えたら、さらに掘り下げてデータのドリルダウン、ドリルアップ、スライス、ダイス、キューブなどを行い、売り上げの落ち込みの真の要因が何であるかを理解します。
  • 予測的分析:(上記の2つの構成要素のように)何かが起きるのを待ってから対処するのではなく、先回りしてデータを分析できます。B2Bでの事例として、たとえばすべての材料をサプライヤーから購入して最終製品を生産しているとします。特定の材料の量が適正在庫を下回った場合に、アラートを発して購買チームに追加発注するよう通知すると、この製品の生産ラインが材料待ちで停止することがなくなります。

データサイエンティストは以上3つの分析を組み合わせることで、次に取るべき最善のアクションを教えてくれる認知的洞察を獲得します。データサイエンスには分析の知識以外に、コンピューターサイエンスや数学に関する網羅的なスキルと、事業に関する深い理解が求められます。

データサイエンスをチームスポーツにする

データサイエンティストは、厳格なプロセスを用いてデータを分析し、機械学習モデルおよびアルゴリズムを構築します。データサイエンスを成功させるためには、社内の他の人たちの協力が必要です。だからこそ、データサイエンスをチームスポーツとして扱う必要があります。

  • データエンジニアとデータアーキテクトは、データプレパレーションやデータの整理を実行できます
  • ビジネスアナリストは、データにビジネス戦略を適用できます
  • 開発者は、データサイエンスモデルを活用し、アプリケーションに適用するためのコードを書くことができます。

データが無秩序に拡大するこの時代、企業は大量のデータをリアルタイムに処理および分析できるビッグデータパイプラインを必要としています。この部門を支援するために、ほとんどのデータサイエンティストは俊敏性を高めて応答時間を短縮するために、機械学習を活用しています。Talendでは、お使いのビッグデータプラットフォームにシームレスに統合できる、ユーザーフレンドリーなセルフサービスのツールやテクノロジーからなる包括的なエコシステムを提供しており、機械学習の複雑さを軽減します。Talend Cloudを使用することにより、再現性と拡張性に優れた体系的なパスを構築して、終わりのないデータフローに立ち向かうデータサイエンスのプロセスを容易にできます。

Talendを使う準備はできていますか?