データレイクとは?
概要とメリットを解説

Forbesによると、企業の95%(英語)新しいウィンドウで開くは、非構造化データの管理に頭を悩ませています。また、Forresterのレポートでは、企業が保有するデータの73%(英語)新しいウィンドウで開くは、分析に使われていないことが判明しています。

経営者の94%が、データからもっと価値を引き出したいと切望しています。AIの時代が到来した今、データレイクの活用は喫緊の課題と言えます。この記事ではその方法を紹介します。

データレイクとは、大量のデータを元の形式のまま1か所に格納しておくための保管庫です。保管されているのは、大半が未加工のデータです。具体的には以下のようなものです。

  • SNSへの投稿と反応 
  • 画像
  • センサーデータ
  • ログファイル
  • 財務データ
  • 診療記録
  • IoTデータと、ドキュメント、メール、製品のレビューに含まれるあらゆるテキストデータ
  • その他いろいろ

データレイクには、構造化データと半構造化データ新しいウィンドウで開くも格納できます。保管されたデータは、処理(クリーニング、整理、変換)を経て、アナリティクス、AI機械学習(英語)新しいウィンドウで開く、顧客体験のパーソナライズに利用できるようになります。

また、データレイクに保管されたデータは、競合他社との差別化を図るためのインサイト源となるでしょう。実際に、データを活用している企業(英語)新しいウィンドウで開くは、顧客の獲得力と維持力を89%向上させています。ビジネスのトップに躍り出て先頭を走り続ける秘訣は、データの活用にあります。

さらに、データレイクを使えば、データの管理も簡単です。専門家の推定では、全データの80~90%(英語)新しいウィンドウで開くは非構造化データが占めています。つまり、非構造化データを処理・分析しなければ、ビジネスの全体像を把握することはできません。さらに、Forrester新しいウィンドウで開くは、2024年中に企業が管理する非構造化データの量は、2倍になると予測(英語)しています。データレイクは、非構造化データを処理・構造化せずに格納できるアジャイルな環境を安価で提供し、時間とコストを削減します。

利便性が高く、拡張性と費用対効果に優れたデータレイクを使って、企業はさまざまな方法でデータの可能性を余すことなく引き出せます。

  • データの一元保管
    データレイクなら、多種多様な未加工データを1か所で保管できます。複雑なデータ変換を実行したり、定義済みのスキーマ(特定の順序など)にデータを整理したりする時間と手間がかからず、データを簡単に保管して、活用できます。
  • データの統合・分析
    データレイクは、いわば情報の原石が詰まった宝箱であり、データ分析担当者は、そこから意思決定に役立つインサイトを引き出します。データレイクは、CRMやERPシステムなどの社内のデータと、WebサイトやSNSなどの社外のデータを集約します。すべてのデータを1か所にまとめることで、データの分断が解消(英語)新しいウィンドウで開くされ、ビジネスの健全性を把握し、顧客の全体像を捉えられます。Data Cloudなどのツールを使えば、データを統合し、顧客とのやり取りに利用して、データレイクへの投資を最大限に活用できるでしょう。
  • 信頼性の高いAIの実現
    データレイクを利用すれば、膨大で多様なデータを基盤としたAIプロジェクトを構築できます。顧客体験のパーソナライズ、予測、情報にもとづく意思決定、リアルタイムの提案を行うAIと機械学習モデルのトレーニングに最適な基盤を築くことができます。
  • 拡張性と費用対効果
    データレイクには、大量のデータ変換やスキーマの変更をすることなく、構造化データ、半構造化データ、非構造化データを格納できます。この柔軟性により、高額になりがちなデータの前処理作業が不要になり、ストレージと運用保守の費用を削減できます。さらに、データレイクにはデータリネージ(データのライフサイクル)、メタデータの管理、アクセス制御の機能もあるので、ガバナンスのリスクとコストも削減できるでしょう。クラウドベースのデータレイクなら、データの増加に応じた柔軟なストレージ容量の拡張も可能。従量課金モデルであれば、使用した量にのみ料金がかかるため、初期コストも抑えられます。

データの探索と分析

データレイクは、CRMやERPシステムからSNS、Web、モバイルアプリまで、多様なデータを1か所に格納する保管庫として機能します。データレイクにある大量の情報からは、データ分析の担当者による解析(英語)新しいウィンドウで開くや高度なクエリで隠れたトレンドが浮かび上がり、業務革新につながるインテリジェンスを引き出せるでしょう。

機械学習とAIアプリ

データレイクに格納されたデータは、機械学習モデルとAIアプリの開発やトレーニングに最適な基盤となります。アナリティクスとITのリーダーの9割(英語)新しいウィンドウで開くが、AIの精度はデータの質に左右されると考えています。AIを開発するには、正確で広範囲をカバーするモデルの構築に使える多様なデータが大量に必要です。データレイクは、機械学習のプラットフォームやフレームワークと連携するため、AIモデルのトレーニングと展開を効率的に管理できます。

データにもとづく意思決定

データレイクには幅広いソースのデータが統合されているので、リーダーはビジネスの状況を十分に把握したうえで、経営判断を下せるようになります(英語)新しいウィンドウで開く。また、ツールを使ってデータレイクに格納された情報を検索、絞り込み、可視化することで、新商品の発表時期やコスト削減の対象、在庫調整の方法など、さまざまな課題の解決策を的確に判断できるでしょう。さらに、データレイクに取り込まれるデータを恒常的に分析すれば、リアルタイムで異常を特定し、新しいトレンドに先回りで対処できます。加えて、データレイクに格納されたデータでAIと機械学習モデルを強化すれば、意思決定を効率化する提案も得られるのです。

業界別のユースケースをいくつかご紹介しましょう。

  • 顧客体験(データ探索)小売業の場合、お客様とのやり取りはさまざまな場や手段で発生します。Webサイト、対面、SNS、モバイルなど。すべての顧客接点でデータを収集することで、一人ひとりに特化したオムニチャネルの体験を構築できます。
  • 顧客離れの予測(AIモデル)通信会社では、データレイクの顧客データ、通話記録、請求情報、SNSでのやり取りを統合。機械学習により、AIモデルを統合データを使ってトレーニングし、解約につながる要因を特定して、リアルタイムで顧客離れを防止することが可能に。
  • 患者の治療(意思決定)医療機関は、記録、画像、研究論文など、さまざまな種類のデータをデータレイクに格納できます。医療提供者が予測モデルを使って、患者の治療に役立てることができます。

データの取り込みと保管

データの取り込みは、さまざまなソースからデータを収集し、データレイクにインポートするプロセスです。たとえば、データベースから構造化データを、ドキュメントやSNSから非構造化データを、ログやセンサーの測定値から半構造化データを取り込みます。データは、順序を指定されずにそのまま格納されるため、元の状態のまま探索し、分析することができます。

データの処理と変換

データレイクに格納されたデータは、よりわかりやすく、分析しやすい状態にするための変換処理が施されます。データの絞り込みや結合、要約が行われ、有用なインサイトを発見しやすくします。この処理では、未加工の生データは表や列などの扱いやすい形式に変換され、精度の高い分析につながります。

データガバナンスとセキュリティ

データガバナンスとセキュリティは、データレイクアーキテクチャーの完全性を保つには不可欠。データガバナンスには、データを適切に管理し、コンプライアンスを順守するためのルールとプロセスが必要です。こうしたルールには、データの所有者、データにアクセスできるユーザー、データの保持期間などが含まれます。企業は暗号化、認証、認可などのセキュリティ対策を用いて、データを不正アクセスや盗難から保護します。

1. データレイク

  • 定義 – データレイクは、さまざまなソースから収集した未加工のデータを格納する、大規模な保管庫です。データの構造を定義することなく、そのまま格納します。
  • ユースケース – SNSのフィード、センサーデータ、ログファイルなどの多様なデータを大量に格納し、探索する場合は、データレイクが向いています。たとえば、医療機関は患者の記録、医療画像、研究データをデータレイクに格納できます。
  • 長所と短所 – データレイクは未加工のデータを元の形式で保管できるため、柔軟なデータ探索が可能です。しかし、データの質、ガバナンス、セキュリティを適切に管理しないと、混沌とした「データスワンプ」(データの沼)になってしまう可能性があります。

データレイクハウス入門

Salesforce Data Cloudは、データレイクハウス技術を基盤とする顧客データプラットフォームです。このトレイルでは、Data Cloudについて基礎からわかりやすく解説します。

2. データウェアハウス

  • 定義 – データウェアハウスは、通常は事前に定義された順序に従ってデータを処理・整理する、構造化されたデータベースです。データが表と列に整理され、クエリと分析を効果的に行えるように設計されています。
  • ユースケース – レポートの作成、ビジネスインテリジェンス、意思決定のために、過去のデータを分析する必要があるときは、データウェアハウスが効果的です。たとえば、小売企業はデータウェアハウスを使って、売上の傾向、顧客の行動、在庫管理を評価できます。
  • 長所と短所 – データウェアハウスではデータが構造化されるため、高速で信頼性の高いクエリを利用できます。しかし、大量の非構造化データや頻繁に更新されるデータを迅速に処理することはできません。

3. データレイクハウス

  • 定義 – データレイクハウスは、データウェアハウスとデータレイクの長所を併せ持っています。データレイクのように未加工のデータを格納し、さらに、データウェアハウスと同様に構造化されたデータも取り込むことができます。わかりやすいデータレイクハウスの例が、Data Cloudです。
  • ユースケース – データレイクの柔軟性と、データウェアハウスの構造化されたクエリ機能の両方を求めるなら、データレイクハウスがおすすめです。ハイブリッドなアプローチができるデータレイクハウスは、リアルタイムの分析、機械学習、データ探索に最適です。
  • 長所と短所 – データレイクハウスは、データレイクとデータウェアハウスの短所を補い、データレイクの柔軟性とデータウェアハウスの構造化されたクエリ機能を兼ね備えています。しかし、データレイクハウスの導入と管理は複雑になることがあり、入念な計画が必要になります。

データレイク、データウェアハウス、データレイクハウスの比較表

データレイクへの投資対効果を最大化させるのが、Data Cloud

ビジネスの世界では、データは付加価値を生み出す源泉であり、データを使いこなすことは競争優位に立つうえで不可欠です。データレイクは、大量のデータを未加工の状態で格納し、AIのイノベーション、顧客体験のパーソナライズ、情報にもとづく意思決定、リスクの軽減に活用できるようにします。データレイクとCRMを連携させるData Cloudなどのソリューションを導入すれば、ばらばらな場所で眠っているデータを徹底活用できます。この動画では、Data Cloudでデータレイクを有効に活用する方法を紹介しています。ぜひご覧ください。

新登場 Data Cloud

世界No.1のAI搭載CRMとネイティブ連携する、唯一のデータプラットフォーム