データレイクとは？
概要とメリットを解説

Forbesによると、企業の95%（英語）は、非構造化データの管理に頭を悩ませています。また、Forresterのレポートでは、企業が保有するデータの73%（英語）は、分析に使われていないことが判明しています。

経営者の94%が、データからもっと価値を引き出したいと切望しています。AIの時代が到来した今、データレイクの活用は喫緊の課題と言えます。この記事ではその方法を紹介します。

データレイクとは？

データレイクとは、大量のデータを元の形式のまま1か所に格納しておくための保管庫です。保管されているのは、大半が未加工のデータです。具体的には以下のようなものです。

SNSへの投稿と反応
画像
センサーデータ
ログファイル
財務データ
診療記録
IoTデータと、ドキュメント、メール、製品のレビューに含まれるあらゆるテキストデータ
その他いろいろ

データレイクには、構造化データと半構造化データも格納できます。保管されたデータは、処理（クリーニング、整理、変換）を経て、アナリティクス、AI、機械学習（英語）、顧客体験のパーソナライズに利用できるようになります。

また、データレイクに保管されたデータは、競合他社との差別化を図るためのインサイト源となるでしょう。実際に、データを活用している企業（英語）は、顧客の獲得力と維持力を89%向上させています。ビジネスのトップに躍り出て先頭を走り続ける秘訣は、データの活用にあります。

さらに、データレイクを使えば、データの管理も簡単です。専門家の推定では、全データの80～90%（英語）は非構造化データが占めています。つまり、非構造化データを処理・分析しなければ、ビジネスの全体像を把握することはできません。さらに、Forresterは、2024年中に企業が管理する非構造化データの量は、2倍になると予測（英語）しています。データレイクは、非構造化データを処理・構造化せずに格納できるアジャイルな環境を安価で提供し、時間とコストを削減します。

データレイクのメリット

利便性が高く、拡張性と費用対効果に優れたデータレイクを使って、企業はさまざまな方法でデータの可能性を余すことなく引き出せます。

データの一元保管
データレイクなら、多種多様な未加工データを1か所で保管できます。複雑なデータ変換を実行したり、定義済みのスキーマ（特定の順序など）にデータを整理したりする時間と手間がかからず、データを簡単に保管して、活用できます。
データの統合・分析
データレイクは、いわば情報の原石が詰まった宝箱であり、データ分析担当者は、そこから意思決定に役立つインサイトを引き出します。データレイクは、CRMやERPシステムなどの社内のデータと、WebサイトやSNSなどの社外のデータを集約します。すべてのデータを1か所にまとめることで、データの分断が解消（英語）され、ビジネスの健全性を把握し、顧客の全体像を捉えられます。Data Cloudなどのツールを使えば、データを統合し、顧客とのやり取りに利用して、データレイクへの投資を最大限に活用できるでしょう。
信頼性の高いAIの実現
データレイクを利用すれば、膨大で多様なデータを基盤としたAIプロジェクトを構築できます。顧客体験のパーソナライズ、予測、情報にもとづく意思決定、リアルタイムの提案を行うAIと機械学習モデルのトレーニングに最適な基盤を築くことができます。
拡張性と費用対効果
データレイクには、大量のデータ変換やスキーマの変更をすることなく、構造化データ、半構造化データ、非構造化データを格納できます。この柔軟性により、高額になりがちなデータの前処理作業が不要になり、ストレージと運用保守の費用を削減できます。さらに、データレイクにはデータリネージ（データのライフサイクル）、メタデータの管理、アクセス制御の機能もあるので、ガバナンスのリスクとコストも削減できるでしょう。クラウドベースのデータレイクなら、データの増加に応じた柔軟なストレージ容量の拡張も可能。従量課金モデルであれば、使用した量にのみ料金がかかるため、初期コストも抑えられます。

Data Cloudなら、あらゆる場所のデータから最大限に価値を引き出せます

データレイクのユースケース

大量の未加工データにはさまざまな使い方がありますが、一般的な活用方法を紹介します。

データの探索と分析

データレイクは、CRMやERPシステムからSNS、Web、モバイルアプリまで、多様なデータを1か所に格納する保管庫として機能します。データレイクにある大量の情報からは、データ分析の担当者による解析（英語）や高度なクエリで隠れたトレンドが浮かび上がり、業務革新につながるインテリジェンスを引き出せるでしょう。

機械学習とAIアプリ

データレイクに格納されたデータは、機械学習モデルとAIアプリの開発やトレーニングに最適な基盤となります。アナリティクスとITのリーダーの9割（英語）が、AIの精度はデータの質に左右されると考えています。AIを開発するには、正確で広範囲をカバーするモデルの構築に使える多様なデータが大量に必要です。データレイクは、機械学習のプラットフォームやフレームワークと連携するため、AIモデルのトレーニングと展開を効率的に管理できます。

データにもとづく意思決定

データレイクには幅広いソースのデータが統合されているので、リーダーはビジネスの状況を十分に把握したうえで、経営判断を下せるようになります（英語）。また、ツールを使ってデータレイクに格納された情報を検索、絞り込み、可視化することで、新商品の発表時期やコスト削減の対象、在庫調整の方法など、さまざまな課題の解決策を的確に判断できるでしょう。さらに、データレイクに取り込まれるデータを恒常的に分析すれば、リアルタイムで異常を特定し、新しいトレンドに先回りで対処できます。加えて、データレイクに格納されたデータでAIと機械学習モデルを強化すれば、意思決定を効率化する提案も得られるのです。

業界別のユースケースをいくつかご紹介しましょう。

顧客体験（データ探索）小売業の場合、お客様とのやり取りはさまざまな場や手段で発生します。Webサイト、対面、SNS、モバイルなど。すべての顧客接点でデータを収集することで、一人ひとりに特化したオムニチャネルの体験を構築できます。
顧客離れの予測（AIモデル）通信会社では、データレイクの顧客データ、通話記録、請求情報、SNSでのやり取りを統合。機械学習により、AIモデルを統合データを使ってトレーニングし、解約につながる要因を特定して、リアルタイムで顧客離れを防止することが可能に。
患者の治療（意思決定）医療機関は、記録、画像、研究論文など、さまざまな種類のデータをデータレイクに格納できます。医療提供者が予測モデルを使って、患者の治療に役立てることができます。

データレイクアーキテクチャー

データレイクアーキテクチャーは、非構造化、半構造化、構造化など、さまざまなデータセットを元の形式のまま格納します。さらに重要な点は、データのカタログ化、ガバナンス、セキュリティを実現する機能を搭載していること。これにより、データレイクが「データスワンプ」（データの沼）、つまり、質が低くて使えないデータの集積所になることを防止します。データレイクアーキテクチャーには、次のような機能が必要です。

データの取り込みと保管

データの取り込みは、さまざまなソースからデータを収集し、データレイクにインポートするプロセスです。たとえば、データベースから構造化データを、ドキュメントやSNSから非構造化データを、ログやセンサーの測定値から半構造化データを取り込みます。データは、順序を指定されずにそのまま格納されるため、元の状態のまま探索し、分析することができます。

データの処理と変換

データレイクに格納されたデータは、よりわかりやすく、分析しやすい状態にするための変換処理が施されます。データの絞り込みや結合、要約が行われ、有用なインサイトを発見しやすくします。この処理では、未加工の生データは表や列などの扱いやすい形式に変換され、精度の高い分析につながります。

データガバナンスとセキュリティ

データガバナンスとセキュリティは、データレイクアーキテクチャーの完全性を保つには不可欠。データガバナンスには、データを適切に管理し、コンプライアンスを順守するためのルールとプロセスが必要です。こうしたルールには、データの所有者、データにアクセスできるユーザー、データの保持期間などが含まれます。企業は暗号化、認証、認可などのセキュリティ対策を用いて、データを不正アクセスや盗難から保護します。

データレイク、データウェアハウス、データレイクハウスの違い

データ管理の分野では、データレイク、データウェアハウス、データレイクハウスという3つの用語がよく使われます。いずれもデータの格納と分析を目的としていますが、それぞれの性質とユースケースには明確な違いがあります。最適なソリューションを選ぶには、まずビジネスのニーズと、それぞれの長所、短所を理解する必要があります。

1. データレイク

定義 – データレイクは、さまざまなソースから収集した未加工のデータを格納する、大規模な保管庫です。データの構造を定義することなく、そのまま格納します。
ユースケース – SNSのフィード、センサーデータ、ログファイルなどの多様なデータを大量に格納し、探索する場合は、データレイクが向いています。たとえば、医療機関は患者の記録、医療画像、研究データをデータレイクに格納できます。
長所と短所 – データレイクは未加工のデータを元の形式で保管できるため、柔軟なデータ探索が可能です。しかし、データの質、ガバナンス、セキュリティを適切に管理しないと、混沌とした「データスワンプ」（データの沼）になってしまう可能性があります。

データレイクハウス入門

Salesforce Data Cloudは、データレイクハウス技術を基盤とする顧客データプラットフォームです。このトレイルでは、Data Cloudについて基礎からわかりやすく解説します。

学習を始める

2. データウェアハウス

定義 – データウェアハウスは、通常は事前に定義された順序に従ってデータを処理・整理する、構造化されたデータベースです。データが表と列に整理され、クエリと分析を効果的に行えるように設計されています。
ユースケース – レポートの作成、ビジネスインテリジェンス、意思決定のために、過去のデータを分析する必要があるときは、データウェアハウスが効果的です。たとえば、小売企業はデータウェアハウスを使って、売上の傾向、顧客の行動、在庫管理を評価できます。
長所と短所 – データウェアハウスではデータが構造化されるため、高速で信頼性の高いクエリを利用できます。しかし、大量の非構造化データや頻繁に更新されるデータを迅速に処理することはできません。

3. データレイクハウス

定義 – データレイクハウスは、データウェアハウスとデータレイクの長所を併せ持っています。データレイクのように未加工のデータを格納し、さらに、データウェアハウスと同様に構造化されたデータも取り込むことができます。わかりやすいデータレイクハウスの例が、Data Cloudです。
ユースケース – データレイクの柔軟性と、データウェアハウスの構造化されたクエリ機能の両方を求めるなら、データレイクハウスがおすすめです。ハイブリッドなアプローチができるデータレイクハウスは、リアルタイムの分析、機械学習、データ探索に最適です。
長所と短所 – データレイクハウスは、データレイクとデータウェアハウスの短所を補い、データレイクの柔軟性とデータウェアハウスの構造化されたクエリ機能を兼ね備えています。しかし、データレイクハウスの導入と管理は複雑になることがあり、入念な計画が必要になります。

データレイク、データウェアハウス、データレイクハウスの比較表

項目	データレイク	データウェアハウス	データレイクハウス
データストレージ	未加工のデータ	処理済みの整理されたデータ	未加工のデータ
データ構造	スキーマレス	定義済みのスキーマ	構造化要素を含むスキーマレス
ユースケース	探索的分析、多様なデータ	レポート、ビジネスインテリジェンス	リアルタイムの分析、機械学習
長所	柔軟性、アジリティ	高速のクエリ、データの整合性	構造化クエリーを備えた柔軟性
短所	データの質の問題、複雑なガバナンス	柔軟性が低い、非構造化データの扱いが難しい	導入と管理が複雑

データレイクのベストプラクティス

データの一貫性、信頼性、安全性を確保し、データレイクを最大限に活用するためのベストプラクティスを紹介します。

データレイクの設計と構造を入念に計画する
優れたデータレイクを構築するには、まず明確な設計と構造の計画が必要です。そのためには、論理的なフォルダー構造と命名規則を決定して、データの検索と理解を簡単にできるようにします。ビジネスの領域やデータソースにもとづいてデータを分類すると、探索と分析が容易になります。
データの質とメタデータの整合性を管理する
データの質をチェックし、検証するプロセスを導入すると、不整合やエラーの特定と修正に役立ちます。また、データのコンテキストと特性を理解するうえで、メタデータの管理はきわめて重要です。データソース、形式、変換プロセスといったメタデータに関する情報をドキュメント化しておくと、データの検索と探索が容易になります。
拡張性とパフォーマンスについて対策する
データレイクが拡大するにつれ、分散型のストレージと処理技術（データを複数のサーバーやノードに格納し、データの並行処理と高速な取得を可能にするなど）を使って、拡張性とパフォーマンスを維持することが重要になります。データのパーティショニング（管理可能なサイズに分割）、圧縮技術を使ったデータのファイルサイズの縮小、データレイクからのクエリ要求の改善によって、データの取得と分析のスピードと効率を大幅に向上できます。

データレイクのセキュリティとコンプライアンス

データレイクにあるデータの漏えいや喪失を防ぐうえで、データセキュリティ（英語）はきわめて重要です。暗号化や多要素認証（英語）などの基本的なセキュリティ対策に加え、セキュリティ監査と脆弱性の評価を定期的に実施して、潜在的なリスクや脆弱性を特定する必要があります。たとえば、次のような対策でセキュリティを強化します。

データプライバシーと保護の維持
顧客の信頼を維持し、プライバシー規制を順守するために、機密データの保護は欠かせません。個人情報（PII）を匿名化してデータプライバシー（英語）を確保しながら、分析を可能にします。データマスキングとアクセス制御を導入すれば、データの保護をさらに強化できます。
ユーザーアクセスと権限の制御
データの整合性を維持し不正使用を防ぐうえで、データへのアクセス制御は不可欠です。ロールベースのアクセス制御（RBAC）を導入すると、ユーザーの役割と責任に応じて適切な権限を割り当てることができます。ユーザーの権限を定期的に見直し、更新することで、データのセキュリティとコンプライアンスを維持します。
データ規制の順守
法的、財務的なリスクを避けるには、GDPR、HIPAA、CCPAといったデータ規制（英語）の順守が不可欠です。コンプライアンスに対応（英語）したデータソリューションを利用しましょう。

データレイクへの投資対効果を最大化させるのが、Data Cloud

ビジネスの世界では、データは付加価値を生み出す源泉であり、データを使いこなすことは競争優位に立つうえで不可欠です。データレイクは、大量のデータを未加工の状態で格納し、AIのイノベーション、顧客体験のパーソナライズ、情報にもとづく意思決定、リスクの軽減に活用できるようにします。データレイクとCRMを連携させるData Cloudなどのソリューションを導入すれば、ばらばらな場所で眠っているデータを徹底活用できます。この動画では、Data Cloudでデータレイクを有効に活用する方法を紹介しています。ぜひご覧ください。

製品デモ動画

新登場 Data Cloud

世界No.1のAI搭載CRMとネイティブ連携する、唯一のデータプラットフォーム

詳細はこちら