データレイクとは、大量のデータを元の形式のまま1か所に格納しておくための保管庫です。保管されているのは、大半が未加工のデータです。具体的には以下のようなものです。
- SNSへの投稿と反応
- 画像
- センサーデータ
- ログファイル
- 財務データ
- 診療記録
- IoTデータと、ドキュメント、メール、製品のレビューに含まれるあらゆるテキストデータ
- その他いろいろ
データレイクには、構造化データと半構造化データも格納できます。保管されたデータは、処理(クリーニング、整理、変換)を経て、アナリティクス、AI、機械学習(英語)、顧客体験のパーソナライズに利用できるようになります。
また、データレイクに保管されたデータは、競合他社との差別化を図るためのインサイト源となるでしょう。実際に、データを活用している企業(英語)は、顧客の獲得力と維持力を89%向上させています。ビジネスのトップに躍り出て先頭を走り続ける秘訣は、データの活用にあります。
さらに、データレイクを使えば、データの管理も簡単です。専門家の推定では、全データの80~90%(英語)は非構造化データが占めています。つまり、非構造化データを処理・分析しなければ、ビジネスの全体像を把握することはできません。さらに、Forresterは、2024年中に企業が管理する非構造化データの量は、2倍になると予測(英語)しています。データレイクは、非構造化データを処理・構造化せずに格納できるアジャイルな環境を安価で提供し、時間とコストを削減します。