AI製品に対する信頼を得るためにSalesforceが取り組んでいること

Salesforceでは、製品設計の際に人間が主導的役割を担う
アプローチを採用することで、AIの信頼性を確保しています

※本記事は2024年6月26日に米国で公開されたHow Salesforce Builds Trust in Our AI Products の抄訳です。本記事の正式言語は英語であり、その内容および解釈については英語が優先されます。

AIは人類と企業にとって、非常に大きな可能性を秘めています。しかし、その導入における大きなリスクの1つは、AIが人々の信頼を得ることかもしれません。

最新の調査によると、世界の就業者の63%が、AIへの信頼を高めるには人間の監督下で利用すること、と答えています。SalesforceではAI製品の設計段階においてシステム全体に強力な制御機能を搭載しており、人間が主導的な役割を担えるようにしています。

AIがより高い自律性を持つ段階に進むにつれ、人間の許諾や監視のもとでAIを動かすには、人間が舵取りをすることがこれまで以上に重要になります。

Salesforceの「責任あるAIおよびテクノロジー」チームは、社内の設計チーム、製品チーム、エンジニアリングチームと協力して、人間が主導的な役割を担うために必要となる標準パターンを構築してきました。これは、SalesforceのAI製品全体に標準で実装されているガードレールであり、安全性、正確性、信頼性を向上させ、ユーザーである人間に主導的な役割を与えるよう設計されています。パターンは以下の5つのカテゴリーに分類されています。

意図的な摩擦：システム全体のコントロールと製品設計において、ユーザーエクスペリエンスに意図的な「間」を設けます。これにより、重要な局面で人間が自分の意志で関与できるようになります。その結果、AIが生成したコンテンツに対して念入りに指示、再検討し、それに基づいた行動が可能になり、信頼できるAIの構築につながります。
AIへの認識：AIが生成したコンテンツであることを明示する、透明性および認識を向上させる機能。
バイアスと有害性の防止：AIシステムが有害または悪意のあるコンテンツを生成しないための防止策。
説明可能性と正確性：AIの信頼性を高め、AIが取った行動を正しく説明し、明確かつ正確な情報を提供する設計。
「ハルシネーション（幻覚）」の削減：AIが生成できる範囲を制限するためのポリシーとプロンプト指示。

SalesforceではAIの信頼性を高める重要な手法として、これらのパターンとEinstein Trust Layerを組み合わせています。ここでは、SalesforceのAI製品群全体で採用しているパターン、機能、ガイドラインの一部を紹介します。

引用：この機能により、ユーザーは引用元や文書など、情報の出所を知ることができます。Salesforceでは引用の設計を一新し、Einsteinの生成したコンテンツを読みやすく、情報源を明確にしています。そのため、ユーザーはフラグが付けられた情報源を検証することができます。
AIコンテンツの透明性：SalesforceではAI Acceptable Use Policy（AI利用規定）を設けており、Salesforceのユーザー企業は、エンドユーザーが自動化されたシステムと直接やりとりをする場合、情報を開示する義務を負います。この義務は、Einsteinのすべての機能とサービスにも適用されます。また、コンテンツがAIによって作成されたものである場合、UI要素がそれを明示します。Einsteinには光るアイコンが用意されており、Salesforceプラットフォーム内で生成テクノロジーを使用しようとしている、または使用中であることをユーザーに通知します。ユーザーが生成テクノロジーを使用する瞬間に明示する便利な機能です。AIが完了したプロセスには、リアルタイムでチェックマークも表示されます。
モデルの抑制：有害なミラーリングなど、不適切でバイアスのかかった出力を減らすためのプロンプト指示が設定されています。たとえば、特定のLLMには有害性、憎悪、偏見、扇動、攻撃性が認められる言葉やフレーズを使用しないというルールが組み込まれています。そのLLMでは、送信者や受信者の性自認、年齢、人種、性的指向、社会経済的地位、教育レベル、宗教、身体的・精神的能力、習慣、願望、社会的慣行といった属性を使用しないように設定することができます。
フィードバック：Einstein製品ではユーザーからフィードバックを収集し、品質、関連性、正確性の長期的な改善を図っています。フィードバックの収集には、編集、ホバーオーバー（マウスポインタ）、明示的なフィードバック、サムアップ（高評価）/サムダウン（低評価）という4種類の方法を使用しています。これらはすべて、私たちが生成したコンテンツの有用性と正確性を確認する際に役立ちます。そしてコンテンツが期待どおりでない場合、ユーザーが調整することも可能です。たとえば、Salesforceのメール作成ツールでは、保存や送信の前に、人間がチェックするための確認ステップを設けています。AIが生成したメールであっても、人間がしっかり役割を果たせるようにするための措置です。
ボタンのバリエーション：Salesforceのクラウド製品全体で同じ色とフォントのボタンを使用しており、Einsteinの生成したメールを読む前に誤って送信するリスクを減らしています。たとえば、［送信］ボタンや［提出］ボタンは同じ色で、［編集］や［再生成］も同じ色にしてあります。
未チェックのデモグラフィック属性：マーケティングセグメントで生成されたデモグラフィック属性は、デフォルトでチェックされない仕様になっており、意図しないステレオタイプのバイアスを軽減します。

人間とAIの今後の展開

テクノロジーの進化に伴い、この種の取り組みも進化していきます。そして、信頼を得るためのパターンも拡大・拡充していくことでしょう。その例として、Einstein Copilotが高度化するにつれて、今後のリリースには次のような新しい信頼パターンが追加される予定です。

Trust Safety Detectors：プロンプトビルダー内で有害性に関する警告を表示します。定義されたユースケースに対して管理者が警告を有効化し、プロンプトに安全上の懸念がある場合、その場でユーザーに警告を発します。たとえば、警告アラートには、検出内容の説明を表示するポップオーバーや、検出タイプに基づく動的アクションが含まれます。また、検出内容に対してユーザーは具体的なフィードバックを提供することもできます。
確認ステップ：Copilot内のステップ間で意図的な摩擦として組み込まれています。AIのミスが発生しうる場面で、人間が関与すべき重要な分岐点であることを明示することが目的です。AIが自律性を高めて進化する中、Salesforceでは、データ、フィードバックパターン、フィードバック入力用テキストフィールドに変更が加えられる前などのタイミングで、ユーザーに再確認や方向性を変更する機会を提供しています。

完全に自律的なAIエージェントが存在する世界へと移行しつつある現在、人間が舵を取るパターンは、AIエージェントの制御と管理を可能にします。これにより、人間はAIエージェントを有効活用し、人間が得意とする創造性、つながり、意思決定に注力することができるのです。