企業がCRMシステム向けの生成AIモデルを評価する際に
スマートな意思決定の指針となる新しいベンチマークとランキング表が登場
※本記事は2024年6月18日に米国で公開されたSalesforce Announces the World’s First LLM Benchmark for CRMの抄訳です。本記事の正式言語は英語であり、その内容および解釈については英語が優先されます。
Salesforceは、企業が顧客管理(CRM)システムで使用する大規模言語モデル(LLM)を評価するのに役立つ世界初のCRM向けLLMベンチマークを公開しました。
この新しいベンチマークは、LLMの性能を「正確性」、「コスト」、「スピード」、「信頼性と安全性」の4つの主要指標で測定する総合評価フレームワークであり、一般的なセールスとカスタマーサービスのユースケース(見込み顧客の獲得、見込み顧客の育成、セールスの商談、サービスケースのサマリー作成など)を評価するために特別に設計されています。また、このベンチマークには、自社の組織におけるCRMのニーズに最適なLLMを見極めるのに役立つランキング表が含まれます。今後、Salesforceでは新しいユースケースのシナリオをベンチマークに組み込み、LLMへの評価を強化していきます。直近ではファインチューニング済みのLLMも対象に含める予定です。
Salesforce AIリサーチ担当EVP兼チーフサイエンティストのシルビオ・サバレーゼ(Silvio Savarese)は以下のように述べています。
「AIが進化を続ける中、企業のリーダーはビジネスの成長促進に役立つ生成AIのポテンシャルを最大限に引き出すために、パフォーマンスや精度、責任、コストの最適なバランスを見つけることが重要と述べています。Salesforceの新しいCRM向けLLMベンチマークは、業界内で自社のAI戦略を評価する方法を大きく前進させる画期的なものです。次世代AIの導入についての考え方が明確になるだけでなく、CRM固有のユースケースにおける価値創出を短期間で実現できます。Salesforceでは、今後も技術の進歩に合わせてこのベンチマークを継続的に進化させ、最新技術との関連性と価値を維持していきます。」
Salesforceの新しいCRM向けLLMベンチマークは、業界内で自社のAI戦略を評価する方法を大きく前進させる画期的なものです。
Salesforce AIリサーチ担当EVP兼チーフサイエンティスト シルビオ・サバレーゼ(Silvio Savarese)
重要な理由:従来のLLMベンチマークは、学術的なユースケースや消費者向けのユースケースに限定されており、ビジネスとの関連性がほとんどありませんでした。また、人間のエキスパートによる十分な評価や、正確性、スピード、コスト、信頼性についての考慮もなされていませんでした。従来のベンチマークにはこうした欠点があったため、CRMユーザーは生成AI搭載のCRMソリューションの有効性を正しく評価するのが難しい状況でした。LLMが特定のユースケースにおける評価指標に対してどのようなパフォーマンスを発揮するのか明確に把握できなければ、企業は十分な情報に基づいた決断が難しい状況に陥ります。
詳細情報:SalesforceAIリサーチによって開発されたこのベンチマークは、現実世界のCRMデータを使用しており、また、実際にCRMを使用しているエキスパートによる評価も独自の手法で考慮に入れています。このベンチマークを利用することで、より戦略的に生成AIをCRMシステムに組み込むことができるようになります。特に以下の観点を考慮に入れることが可能となります。
- 正確性:この指標には「事実性」「完全性」「簡潔性」「指示の遵守」の4つのサブカテゴリーがあります。予測やレコメンデーションの精度が高ければ高いほど、その結果は組織全体のチームにとって価値の高いものとなります。そして、その結果の価値が高いほど、顧客体験の向上に有効なアクションを起こせるようになります。ユースケースにおけるモデルの正確性が一定以上になれば、他の指標を考慮することも重要です。なお、モデルの正確性が一定以下であっても、プロンプトエンジニアリングやファインチューニングのようなテクニックで改善を図ることも可能です。
- コスト:この指標は、パーセンタイルに基づいて、高、中、低に分類されます。これは、CRMの各ユースケースで想定される運用コストを示しています。各種LLMの費用対効果を評価しつつ、予算やリソース配分の戦略に即していることを確認できます。
- スピード:情報の処理と出力におけるLLMの応答性と効率性を評価する指標です。応答速度が高くなれば、ユーザーエクスペリエンスが向上し、顧客の待ち時間を短縮します。また、セールスチームやサービスチームが問い合わせや問題に迅速に対処できるようになります。
- 信頼性と安全性:CRMのユースケースにおいて、LLMが機密性の高い顧客データの保護、データプライバシー規制の遵守、情報の保護、偏見や有害性の排除に関してどの程度の能力を持っているかを示す指標です。このベンチマークを使えば、CRM向けLLMの信頼性を評価することにより、組織は信頼性と安全性に関する透明性の意識を持つことができます。
このベンチマークは、LLMの比較と最適なソリューションの特定以外にも、カスタマーサクセスの実現とビジネスの前進に役立つ、情報に基づいた意思決定に活用できます。
また、SalesforceのEinstein 1プラットフォームなら、企業は自社のビジネスニーズに対応するために既存のLLMから選択することも、独自のモデルを導入することも可能です。また、ベンチマークを利用してCRMユースケースのモデルを取捨選択することにより、生成AIソリューションの効果と効率を高めることができます。
Salesforce AI CEOのクララ・シャイ(Clara Shih)は次のように述べています。
「ビジネス組織はAIを活用することで、ビジネスの成長促進やコスト削減、パーソナライズされた顧客体験の提供を目指しています。子供の誕生日パーティーの企画や、名作の要約などではありません。これまで、当社のお客様は急増する新しいAIモデルをビジネス用途で評価・選定する手法を求めてきました。この度、世界初のCRM向けLLMベンチマークを発表したことで、モデルが錯綜する現在の状況下においても、お客様が適切なLLMを選択していただけるようになったことを嬉しく思います。このベンチマークは単なる指標ではなく、企業が正確性、コスト、スピード、信頼性のバランスを取りながら情報に基づいた意思決定を行えるようにする、包括的でダイナミックに進化するフレームワークなのです。」
このベンチマークは単なる指標ではなく、企業が正確性、コスト、スピード、信頼性のバランスを取りながら情報に基づいた意思決定を行えるようにする、包括的でダイナミックに進化するフレームワークなのです。
Salesforce AI CEO クララ・シャイ(Clara Shih)
詳細情報:
- CRM向けLLMベンチマークはこちら(英語)。
- Huggingface社の「LLM Leaderboard for CRM」を見る(英語)
本プレスリリースで提供される情報は、特定のLLMを推奨するものではなく、またそれを意図するものでもありません。ここに示したすべての情報、コンテンツ、および資料は、一般的な情報提供のみを目的としています。読者におかれましては、ご自身のニーズに応じて判断していただくようお願いいたします。ここに示された意見は発表者、著者のものであり、必ずしもSalesforceの公式見解を反映するものではありません。