対話型AIとは。対話で操作する時代の到来。

AIは、情報収集能力の向上や生産性の向上、芸術性の向上など多様な機能を持ちます。対話型AIはそのような機能を日常的な自然言語を通じて提供し、人間は驚異的なパワーに手軽にアクセスできるようになります。このように、AIによって人間は単純作業から解放され、ビジョンや創造性など、人間性を引き出すことができるようになります。

Salesforce Japan

2023年6月28日 37 分（読み終わるまで）

※本ポストは2022年10月3日に米国で公開された“If You Can Say It, You Can Do It: The Age of Conversational AI”の翻訳版です。本ポストの正式言語は英語であり、その内容および解釈については英語が優先されます。

対話で進む未来の宇宙船
人類とツールの歴史
複雑すぎて理解できなくなっている世界
仕事を進めるための新しいパラダイム
対話型ワークフローのパワー
では、どうすればいいのでしょうか？
基盤モデルの画期的な力
基盤モデルのその先：対話型AIの未解決問題
実世界での応用: 対話型AIの実践
倫理と安全
結論

対話で進む未来の宇宙船

次世代の宇宙船のコックピットにいると想像してみてください。これは低軌道の地球からカイパーベルト(太陽系の天体が存在する領域の一つ)まで楽々と移動することができるタイプの船です。この船を制御する方法についてどのように考えますか？科学小説は、未来の技術を驚くべき複雑性と同等に扱うことがあり、点滅するライト、光るボタン、そして波打つサイン波に満ちた画面でいっぱいのスクリーンを想像するかもしれません。確かに印象的に見えるでしょう。しかし、これは本当に先進的な技術の証なのでしょうか？

代わりに、先ほど壁いっぱいに広がっていた制御画面を壮大なパノラマビューへ取っ替え、空っぽになったコックピットを想像してください。あなたは操縦席に座り、景色をもう少し楽しみながら、単に「土星に連れて行ってくれ！」と言います。ボタンもスイッチも、軌道計算も必要ありません。あなたは特別なコードや構文も必要ありません。日常的に使う自然言語だけで十分です。

さらに、その船が自分の声で即座に応答することを想像してください。「目的地を土星に設定しました」と、まるで本物のように抑揚のある口調で話します。「最速のルートをご希望ですか？、それとも最短ルートですか？、あるいは、近くの天体の引力を利用して燃料消費を抑えることもできますが、17％遅くなります。また、常に景色を楽しむことができるルートもあります。これは、一番長くて効率は悪いですが、フォボス島最大のクレーターであるスティックニークレーターがよく見えるし、木星の大赤斑にも近づけます！」
選択肢を検討した後、最初の命令と同じように、淡々と返答します。”遊覧飛行にしようかな”。(想像する以上、楽しまないとね) 。たったこれだけです。機長としての職務を全うしたことになります。
“遊泳ルート確定 “と船は答え、”ベルトを締めてください！”

人類とツールの歴史

自然言語で操作される宇宙船はどう見ても大きな進歩です。しかし、人類が道具を作るという発想自体は、先祖から受け継がれたもので、特に野心的な夢と言えます。約260万年前の下部旧石器時代の証拠からは、初期の人類が石を割って鋭利な刃物にする自然な傾向を持っていたことが示唆されています。この石器は「モードI」と呼ばれ、手に持って使用でき、多様なタスクに適用できます。実質的に、これは地球上で最初の技術でした。

それ以降の何千年もの間、私たちは人工物の力を借りて、私たち自身の自然な能力を数多くの方法で拡張してきました。例えば、モードIの石器は、後に現代の洗練された石器に置き換えられました。この歴史が特に興味深いのは、私たちの道具が単に能力と範囲を拡大するだけでなく、使いやすくなる傾向があるということです。

確かに、石は元々複雑なものではないが、現代のナイフは、刃がより鋭利になるだけでなく、レバレッジと安全性を向上させるハンドルが付いているため、より使いやすくなっています。同様に、速度と距離の向上だけでなく、エルゴノミクスや運転者の快適性も重視する車両も進化しています。時間計測も、砂や水、歯車の仕組みから（それに伴うすべての問題を含めて）メンテナンス不要でミリ秒の正確さを提供するデジタル時計へと進化しています。

これらの例は、「最高のツールは、単にパワフルで使いやすいだけでなく、使いやすいからこそパワフルなのだ」という深い考えを物語っているのです。

しかし、話はそれで終わりではありません。20世紀に情報化時代が到来すると、計算や記号化されたデータの操作といった抽象的な能力を活用した、まったく新しいカテゴリーのツールが登場しました。数十年の間に、デジタル技術はそれまでの数千年とは比較にならないほど劇的に世界を変え、私たちの祖先でさえ奇跡的と思えるような能力を可能にしました。しかし、これらの進歩は代償を伴うものであり、今日、道具はかつてないほど私たちに多くのことを要求しています。

複雑すぎて理解できなくなっている世界

技術との関係がどれだけ根本的に変わったかを示す例として、グラフィックデザインの進化を考えてみましょう。このアートフォームも、その歴史のほとんどで純粋にアナログのプラクティスでした。優れた作品を生み出すために必要な才能は、多くの場合数年の間に開発されるものでしたが、その才能を表現するために使われるツールは、手触りが感じられ、直感的に理解できるものでした。デザイナーたちは、鉛筆、ペン、ナイフ、接着剤、ステンシルなどを広く活用しました。これらは一目で理解でき、多くの場合は幼少期に習得されました。タイプセッティングマシンやカメラなどのより洗練されたギアも、少しのトレーニングや練習が必要かもしれませんが、一般的には明快な原理に基づいて構築されていました。

しかし現在では、デザイン業界のスタンダードとなったソフトウェアの操作方法を学ぶだけでも、かつてないほどの時間と労力を必要とするようになりました。昔のデザイナーなら魔法のようなソフトと感じたに違いないが、その複雑さゆえに、初心者はドアストッパーほど分厚いマニュアルや教室、何時間もかかるチュートリアルビデオに頼るしかありません。アイコンやメニュー、パレット、キーボードショートカットなど、そのインターフェースを理解するためには、どうすればいいのでしょうか。

これに対して、よりシンプルで学習曲線が緩やかなアプリの市場が並行して形成されています。しかし、こうしたフレンドリーなアプリは、アクセシビリティが高まるにつれて機能が低下するという、残念なトレードオフを示します。アクセシビリティが上がれば上がるほど、機能は低下する傾向にあります。つまり、使いやすくなる一方で、柔軟性に欠け、結果が低品質になり、一般的にプロには不向きなのです。
このトレードオフを、X軸が能力と柔軟性 (Capable/Personalized)、Y軸が使いやすさ(Easier to Use/Harder to Use)を表す2次元のグラフで可視化することができます。即座に、プロフェッショナル向けのツールは、使いやすさが低く、能力と柔軟性が高い右下に集まり、反対に、初心者向けのツールは、その逆（左上）に集まる傾向があることがわかります。

今日の最も強力なツールは、最も使いにくいツールでもあるということです。しかし、それをどう解釈すべきかは、あまり明らかではありません。複雑さは、現代社会の避けられない副産物なのでしょうか？それとも、新しいアプローチで回避することができるのでしょうか？いずれにせよ、私たちの時間や注意力に対する要求が高まり続け、終わりが見えない以上、何かが必要なのです。以下のトレンドを考えてみましょう。

情報過多
書籍、ソーシャルメディア、ニュース、ポッドキャスト、映画やテレビ、教育資料など、私たちの個人的・職業的なライフスタイルで消費したいコンテンツの量は増え続けています。
仕事量の増加
あらゆる業界が予算の縮小や激化する競争に直面し、時には技術自体からの競合もあります。そのため、高度に訓練された専門家であっても、より少ない時間でより多くのことをやらなければならないと感じている人が増えています。
潜在能力の発揮
一方で、同僚たちの中には、創造的であったり、技術的であったり、戦略的であったり、貢献する価値のあるアイデアを持っている人が多く存在しています。しかし、彼らは従来のツールを使って表現するための専門知識が不足している場合があります。
仕事の未来
最後に、私たちの仕事の性質が変化するにつれて、不確定な展望が迫っています。ほとんどの人が今後10年間に少なからず混乱を経験することが予想されます。しかし、現代のツールはあまりにも特化しすぎているため、中程度のキャリア移行でも、スキルアップや再トレーニングの非現実的な負担がかかる場合があります。

これらは、簡単に解決できるとは思えない根深い問題です。しかし、もしこの技術の歴史の中で、高度化によって道具が使いにくくなるのではなく、使いやすくなるという精神を復活させることができれば、これらの問題に大きな歯止めをかけることができると確信しています。だからこそ、今こそ、道具との新しい付き合い方が必要なのだと思います。

仕事を進めるための新しいパラダイム

会話はどうでしょうか？

平凡に見えるかもしれませんが、会話は私たちの最も強力で多彩なスキルのひとつです。会計士と家計簿をつけたり、医者と治療法を相談したり、旧友と近況を報告したり、あるいはランチの注文をしたりと、ひとつの表現方法によって、人間の共同作業のための普遍的なインターフェースのようなものとさえ言えるかもしれない。これは、今日のデジタルインターフェースの複雑さとは対照的で、その学習曲線は言うに及ばず、驚異的な柔軟性を示しているのです。

会話は平凡に見えるかもしれませんが、人間として最も汎用性の高いスキルのひとつです。

もちろん、コンピュータが介入すると、会話の優雅さは崩れがちです。速度やメモリ、ネットワークに関しては私たちよりも優れているかもしれませんが、コンピュータは私たちのコミュニケーション方法を解読するのに非常に苦手です。皮肉なことに、私たちにとってアクセスしやすくする会話の構造の欠如こそが、機械が理解するのに苦労する理由です。現在では、音声ベースのインタフェースが急速に進歩し、人気を博しているにもかかわらず、スマートフォンや家庭用アシスタントが自然言語の曖昧さに戸惑っている様子が、しばしばコミカルな極端さで示された拡散動画が氾濫しています。でも、もしそれが変わったらどうでしょうか？本当に会話形式のインタフェースが何を意味するかを理解するのは難しいかもしれませんが、一歩一歩想像しながら創造力を刺激していきましょう。

まず、人と人との会話でよくあることですが、ほとんどのタスクは、コンテンツの作成、情報の消費、あるいは新しいソフトウェアの開発など、ユーザーが何を求めているかを説明する最初の声明や要求から始まります。例えば、マーケティング担当者が、会話だけで動くデザインツールを使って、新しいプロジェクトをスタートさせることを想像してみましょう。

「濃いブルーの背景、隅に会社のロゴ、そして日の出の森の写真の横に最新のキャッチフレーズを書いたバナー広告のレイアウトが欲しい」

カジュアルで日常的な言葉遣いに注目してください。同僚に送るメールと同じようなものです。実際、このインターフェースは、エグゼクティブの毎日のニュース視聴を自動化するために使われるかもしれません。

「Forbes、Fortune、Wall Street Journalの先週1週間のトップニュースを読んで、バイオテクノロジー分野の企業がIPOを発表していたら教えてください」

簡単でしょう？新しい構文や構造は必要ありません。技術的にはほとんど変更することなく、まったく異なる業界のまったく異なる種類のタスクにギアを切り替えることができるのは驚きです。では、このワークフローを単純なソフトウェア開発プロジェクトに置き換えるとどうなるか、さらに突き詰めて考えてみましょう。

「“提案ボックス”というタイトルの入力フォームを作成してください。フォームには、2つのテキスト入力フィールドが必要です。1つはユーザーの名前を入力するためのもので、もう1つは480文字以内の提案を入力するためのものです。最後に、提出ボタンを設置し、ボタンをクリックすることでフォームの内容がsuggestions@salesforce.com宛に送信されるようにしてください。」

このようなシンプルなフレーズから伝わってくる情報の深さに、ちょっと立ち止まって考えてみる価値がある。たった1、2文で、1つのプロジェクトが始動し、新しいアイデアがゼロから確立され、その詳細が洗練される準備が整ったのです。クリックもドラッグも、メニューの階層化も、チュートリアルのためのインターネット検索も不要です。

たった1、2文で、プロジェクト全体がキックオフされ、新しいアイデアがゼロから確立され、その詳細が洗練される準備が整いました。

しかし、これも一つのアプローチに過ぎません。会話はいつもこのような凝った発言から始まるわけではありませんし、クリエイティブな出発点の中には、すでに存在するものを参考にするものもあります。例えば、マーケティングの例で考えてみましょう。

「私は、このようなバナーを作りたいと思っていますが、ロゴとタグラインを私たち自身のものに置き換えてください。（画像とともに）」

このように、多くの会話と同様に、意味は言葉だけでなく、画像、ロゴ、コピーなどの非言語的な要素にもまたがっています。本当に流暢な会話パートナーは、すべてを理解し、分離された状態ではなく、一つのアイデア空間に統合しています。

これは確かに革新的な新しいパラダイムです。しかし、現在のツールとの相互作用からは程遠いものであるとしても、これは3つの単純なアイデアに基づいています。

会話は、複雑なタスクを簡単に記述したり、呼び出したりすることができる、想像以上に強力なものです。
専門用語は、1つの分野から別の分野に移っても、会話の基本は普遍的です。あらゆる目標に適用可能な単一の表現モードとして、それ自体がアクセス可能なものです。
私たちが会話する方法は、しばしば単語と視覚的、音響的なものや外部的な非言語的なものを組み合わせています。

もし、この体験がここで終わってしまったら、それはもう、私たちの働き方に激震が走ることでしょう。仮にこのツールがこの一歩を踏み出すことができなかったとしても、自然言語だけで作成される初稿という強力な権限委譲の形は、全体の生産性を高め、すべての人の認知負荷を軽減することができるでしょう。モノローグがダイアローグになり、時間をかけて進化していく、その次の段階が重要なのです。

対話型ワークフローのパワー

会話は、双方向に情報が流れるやりとりです。何度もやり取りを重ねるうちに、一つの永続的なアイデアが、ぼんやりとしたスケッチから完成品へと発展していきます。発言、質問、回答など、それぞれのステップで、詳細が追加され、曖昧さが解消され、最終的なイメージが明確になります。

このように、対話型インターフェースの真の実力は、ユーザーが受け入れ、拒否し、修正できる行動指針である提案に応えることで発揮され、さらに会話が弾みます。その意味で、AIは道具というよりもパートナーに近い存在と言えます。先ほどのバイオテクノロジー企業の経営者に話を戻し、対話型AIがどのような反応を示すか想像してみましょう。

「ご要望の記事は読みました。IPOを発表した企業はありませんが、3社が新たな資金調達を発表し、2社が新規治療薬のFDA承認を発表しています。もっとお知りになりたいですか？」

この1つの回答が、最初の質問に答えるだけでなく、まったく新しい選択肢を提示し、ユーザーが探索できるようにしていることに注目してください。また、「マーケティング担当者」のように、言語以外のメディアを介した回答もあります。この場合、AIはレイアウト案を提示し、修正を要求したり、あるいは複数のレイアウトを提示し、ユーザーにシンプルに選択させたりすることができます。

「”A “と “B “どちらを選びますか？」

ソフトウェア開発の例で想像されるように、AIはユーザーの要求を曖昧にした上で処理を進める必要がある場合があります。

「投書箱のメールの件名は何と書くべきですか？」

ここから、希望する結果が得られるまで、会話は何度も繰り返されます。

ここで、3つのシナリオの最初から最後までの会話全体を想像してみましょう。

Creative
- ユーザー：「スローガンをもっと大きくして、違う写真を見つけてください。夕日をバックにしたもの」
- AIです： [改訂案を提示します]
- ユーザー：「いいね、でもスローガンを2行に分けてもらえる？」
- AIです：[修正案を提示]
- ユーザー：「完璧です！！」
情報
- AI：「IPOを発表した企業はありませんが、3社が新たな資金調達を発表し、2社が新規治療法のFDA承認を発表しています。もっと知りたいですか？」
- ユーザー：「IPOは知らなくてもいいのですが、FDAの認可を受けたのはどの会社ですか？」
- AI：「アクメ・バイオテック社とパシフィック・コースト・ファーマシューティカルズ社です」
- ユーザー：「アクメの治療法は何をするのですか？”」
- AI：「血圧を下げます。
- ユーザー：「面白いですね。この内容をすべてまとめて、明日の全員ミーティングのメモに追加してください」。
Development
- AI：「投書箱のメールの件名は何と書けばいいでしょうか」。
- ユーザー： “ああ、そうだね。Incoming suggestion from』の後に、ユーザーのファーストネームをつけましょう」。
- AI：[ユーザーのためにコードをコンパイルして実行します]。
- ユーザー：「件名を『あなたの提案が提出されました』として、メールのコピーをユーザーにも送ってください」。

単一のプロンプトから継続的なやり取りにワークフローを拡張することで、すでに強力なアイデアをさらに進化させ、ほぼあらゆるタスクに対応できる単一のインターフェースとなるツールになりました。それには、もう少し基本的なアイデアをいくつか描くだけで済みました。

会話は「提案」によって区切られます – ツールがアイデアや行動計画を提示し、ユーザーはそれを受け入れたり、拒否したり、対案をだすことによって修正することができる。
会話の流れは、開放的で反復的なものであり、ユーザーのニーズが満たされるまで、試行錯誤を繰り返しながら、アイデアが形になっていく。

これが、一言で言えば、私たちが考えるAIの未来像です。単に画期的な機能を提供するだけでなく、私たちの体験のあり方を変えることを約束する技術です。高品質なものを作るには、複雑で手間のかかるワークフローが必要だ」という、これまでのトレードオフを覆すことができると考えています。AI、特に対話型AIは、このトレードオフを初めてWin-Winに変えるものなのです。

対話型AIは、トレードオフを初めてWin-Winにするものです。

先ほどの2次元のグラフをイメージすると、AIは、使いやすさと能力の両方が高い、まだ未開拓の右上の象限に進出する可能性があることがわかります。

では、どうすればいいのでしょうか？

その広大さとニュアンスへの敏感さを考えると、会話のやり取りが長い間、機械に理解されなかったのは当然と言えるでしょう。しかし、自然言語処理（NLP）の分野では、会話を分析的に理解することを主要な使命のひとつにしてきました。これは、何世代にもわたって、研究者のコミュニティ全体の努力によって展開されてきたものであり、私たちの仕事は、彼らの、特に以下のような概念の厳密で科学的な理解から多大な恩恵を受けています。

自然言語。日常的な話し言葉の自由な形式で、曖昧であったり、誤った文法、暗示された意味、スラングを含む。
持続的な状態。会話の歴史や多様なショートカットを覚えておくこと。例えば、最初に明示的に言及されたアイデアは、その後「それ」や「あれ」のように言及されることがある。
曖昧さに対する適応力。意味の分からない発言や質問を特定し、空白を埋めるための推測をし、必要に応じて詳細情報を求める能力。
ドメインの専門知識。医療、ソフトウェア開発、マーケティングなど、特定の分野に固有の専門用語、慣習、期待など。

これらの能力は、人間として自然に身につくものですが、AI研究者にとってはそれぞれ数十年の歳月をかけた研究であり、解決には程遠いのが現状です。しかし、自然な言語駆動型ワークフローを実現するためには、漸進的な進歩であっても、有意義な利益をもたらすことができるのです。実際、最近の進歩により、これまで想像もしなかったような方法で、人間のような真のインタラクションが可能になりつつあり、この技術がもうすぐ手の届くところまで来ていることを示唆する多くのエキサイティングな事例があります。

基盤モデルの画期的な力

この技術を可能にする中心的な開発の一つが、大規模言語モデル（LLM）であり、基礎モデルとも呼ばれる。この大規模なニューラルネットワークは、画像中の物体の認識や言語の翻訳、さらにはリアルな音声の合成など、過去10年間に人気を博したものとコンセプトが似ています。しかし、その可能性を大きく広げるいくつかの重要な点が異なっています。

まず、その大きさです。最大規模のものでは、数千億ものパラメータ（相互に接続された小さな意思決定要素）を備えており、これらのパラメータを総称して能力を発揮することができます。これは、数百テラバイトのテキストを含む、従来では考えられなかった学習データのコーパスを消費するのに必要な容量です。

基礎モデル (Foundation Model) は、スケールが桁違いに大きくなります。

しかし、その魔法は、そのスケールの使い道から始まります。基盤モデルの特徴は、膨大な量のテキストから、単語間の関係性、例えば表層的なものから微妙なものまで、学習データを前例のないほど幅広く学習することです。従来のネットワークでは、文末に到達する前に集中力が切れてしまうことがありましたが、基盤モデルでは、段落全体、あるいはページ全体にわたって、ある単語と他の単語の重要性を推論することができます。

入力ストリーム中の1つの単語が、程度の差こそあれ多数の隣接する単語と相関することを可能にするアテンションメカニズム

さらに強力なのは自己学習能力で、人間が作成したデータセットを必要とせず、機械学習における最大のボトルネックの1つを回避することができます。このテストでは、文中の各単語をマスキングしてから読み上げることで、テキストの関係性を理解したモデルが推測を行う機会を与えます。その結果、例えば「it’s getting <blank> outside」のような文章に含まれない単語は、「television」や「blueberry」よりも「hot」や「cold」の可能性が高いことが学習されるようになりました。トレーニングデータは質問と答えの両方を提供するため、手動での管理は不要で、モデルは自律的に猛スピードで学習することができます。

例えば、Wikipediaのすべての記事のすべての単語を学習したり、Common Crawlというインターネット全体のテキストベースのレポジトリを学習したりすることも可能です。この巨大で注意深い、天才的に訓練されたモデルは、かつて機械が経験したことのないような言語のコツを身につけるのです。文章を完成させたり、記事全体を書き上げたりと、人間のような表現ができるようになるのです。文書を読み、その内容に関する質問に驚くような洞察力で答えることもできる。中には、ジョークを説明することさえできる。

これらの理由から、基盤モデルは、私たちが夢見る対話型インターフェースへの心強い一歩となります。しかし、たとえ最高の状態であっても、それはスタート地点に立ったに過ぎないのです。彼らはしばしば不思議なほど言葉を操るが、会話を強力にするものの多くは、まだ彼らの手には負えないのである。

基盤モデルのその先：対話型AIの未解決問題

知識表現 (Knowledge representation)

基盤モデルが学習に用いるデータは、芸術、科学、文学、政治、歴史など、多岐にわたっていますが、それらの根幹にある概念的な理解を欠いているということは、一般的に認められています。そのため、彼らの最も印象的な表現能力でさえ、本質的には統計的な模倣に過ぎないとされています。たとえば、「ビートルズのベースを弾いたのは誰か？」という問いに対して、複雑な関連性のある確率のネットワークを活用して、「Paul」と「McCartney」という言葉を正確に生成することができるものの、20世紀のポップカルチャー、ロックの楽器、音楽そのものに関する概念を本当に理解しているわけではありません。

AIがこの限界をどのように克服するかは、この分野の最大の未解決問題の一つであり、それに答えることの価値は計り知れません。それは、しばしば顕著な深みを持つとはいえ、単に「反応」するだけのモデルと、純粋に「推論」できるモデルとの違いを意味するかもしれません。そのようなAIは、私たちがそうであるように、言葉の背後にある概念を理解し、より深く、より鋭い会話能力を解き放つことができるのです。

Few-shot learning

知識表現の問題を解決することは、多数の関連する進歩を解き放つことになる可能性が高く、その中でもfew-shot learningは最も有用なものの1つです。現代のAIは驚くべきことができる一方、それを実現するためには、しばしば膨大な量のトレーニングデータが必要です。このような収集の負荷は、大規模な予算、リソース、専門知識なしでは克服できず、簡単なAIタスクでさえ参入の重大な障壁となることがあります。自動車事故の新しい原因を予測するなど、本質的に珍しいイベントに基づくアプリケーションにとっては完全な壁となることもあります。

Few-shot learningができるモデルは、人間がやるように、わずかな例から原理を抽出し、何千もの追加のインスタンスを必要とせずに学んだことを一般化することができるようになります。これにより、ほとんどのタスクがより高速かつ効率的に学習できるようになり、多くの今まで不可能だったアプリケーションが可能になります。

転移学習 (Transfer Learning)

関連する話題として、知識の基本的な理解が向上すれば、モデルは自分たちが得た経験を他のドメインにも適用できるようになります。これは現在最先端のトピックで、転移学習として知られています。近い将来の応用例は、ある工場で学習したルーチンを、別の工場、たとえば異なる平面図を持つ工場にもスムーズに適用するロボットなどがあるかもしれません。しかし、極限では、機械はメタファーやアナロジーの使い方まで人間と同じようになり、それによって人間の知性の特徴である、別の人生の側面で学んだことを別の側面にも簡単に適用できるようになるかもしれません。例えば、ビジネススクールで学んだ時間管理技術を、プレッシャーのかかる休日のディナーの準備に応用する学生、パイスライスを参照して分数の授業をする数学教師、あるいは動物の足音をリズムに、夕日の音程をコードの音に関連付ける作曲家がいるかもしれません。詩的であろうと、文字通りであろうと、人生のある側面で学んだことを、瞬時に他の側面にも適用できる能力は、人間の知性の特徴であります。

能動学習 (Active learning)

対話型AIは、積極的な学習にも従事することが理想的であり、自分自身の認識のギャップを認識し、それらを埋めるために必要な情報をユーザーに尋ねる方法を知っていることが望ましいです。これは、多くの現代の機械学習モデルが備えていない習慣であり、あまりにも頻繁に不当な自信を持って任意のクエリに応答する傾向があります。一方、明日のAIは、知識の境界に敏感で、それらを拡大することを熱望する謙虚な姿勢をとる必要があります。これは、システムをより安全で透明にし、より多様で有機的な方法で成長させるための長所です。

マルチモーダル表現 (Multimodal expression)

言葉に関する話が多い中で、会話の意味の多くが言葉自体の範囲を超えていることを忘れることは重要です。例えば、テーブルに広がるコラージュに座るスポーツシューズのデザイナーたちのブレスト会議を想像してみてください。写真、スケッチ、そしてアイデアをインスパイアする他の何でもないものが含まれています。単独で見ると、会話のテキストからは「これのストライプ」とか「あれの靴紐」といった不可解な言及がわからないかもしれません。しかし、ビジュアルと組み合わせることで、一つの媒体の豊かさと、もう一つの媒体の特異性を組み合わせることで、会話のアイデアは生き生きと表現されます。確かに、こうしたテキスト以外のコンテンツを考慮に入れることは、対話型AIにとってかなりの課題となります。この場合、言語と同様に画像を流暢に理解し、両者の関係性を理解する必要がありますが、さまざまなドメインのワークフローに対するその影響は、努力をする価値があることでしょう。例えば、AIパワードの起案ツールに昨年のモデルの写真を示し、「これから始めよう」と言い、どのように進化させたいかを説明することで、シューズデザイナーたちがどれだけ時間を節約できるかを想像してみてください。

Common sense

最後に、これらの技術は、共通の感覚(常識)の獲得というAIの歴史における最古の問題の解決にも役立つかもしれません。常識は、ほとんどが当然のこととして、私たちの仲間の人間が持っていると想定される知識の体系であり、書かれていないルールや言葉に出せない期待の網であり、あまり認識されていないが、世界を理解するために不可欠なものです。定義や構造が明確でなく、領域を超えて分散しているため、定量化することは困難ですが、共通の感覚は、人間の推論にとって極めて基本的であり、それがなければ一日を過ごすことはできないと考えられています。例えば、オフィス全体の会議をスケジュールするのにアシスタントに手伝ってもらう際、真夜中や日曜日、スーパーボウルの時には開催しないということを明示する必要はありません。
しかし、これらの直感力は、今日の最も先進的なAIでも依然として到達できない領域です。たとえば、音声アシスタントが意図せずトリガーされることがよくあるように、キャンドルの明かりでのディナー中に「80年代のヘアメタルヒット」の再生リストが流れることは、しばしば起こります。これらのミスは、今日では面倒なことですが、AIの役割が大きくなるにつれて、その重要性も高まるでしょう。例えば、電子メールアシスタントにメールの整理をお願いすると、未読のすべてのメッセージを削除して目的を達成したり、インスピレーションと盗作の違いが分からないデザインツールを使うことになるかもしれません。これらの例は、共通の感覚が些細なものに見えるかもしれないが、その欠如は壊滅的であることを思い出させてくれます。

実世界での応用: 対話型AIの実践

まだ長い道のりが残っていることは明らかですが、Salesforce Researchは対話型のワークフローの時代が思われるよりも近いことを示唆する複数のプロジェクトを開発していることを報告できて嬉しいです。私たちは、クリエイティブからテクニカルまで、タイムセーバーからゲームチェンジャーまで、さまざまなアプリケーションを探求しており、私のお気に入りの1つはCodeGenというツールです。

CodeGenは、ソフトウェア開発の根本的に新しい方法です。プログラミングを直接試みるのではなく、ユーザーは単純な言葉で解決したい問題を説明し、必要なコードが自動的に生成されるのを待つだけです。そのため、「CodeGen」と名付けられました。経験豊富な開発者の時間を節約するだけでなく、非開発者でも自分自身のアプリケーションを作成できるようになることで、古くからの参入の障壁を下げることを約束します。言い換えると、実装する能力ではなく、ユーザーのアイデアが重要です。

CodeGenは、経験豊富な開発者の時間を節約するだけでなく、開発者でない人でも自分のアイデアを実現できるようにすることで、世代を超えた参入障壁を低くすることを約束します。

そして、現実の問題に対する対話型AIの活用についての良い教訓でもあります。巨大な量のプログラムコードと自然言語で書かれたそれに対応する説明を使用して16兆パラメータのモデルを訓練し、モデルは2つの関係をどのように理解するかに驚くほど洗練された理解を開発しました。その結果はほとんど魔法のようで、完全に新しい問題をカジュアルに書かれた要約（モデルが以前に見たことのないアイデアの世界を含む）を正確にコードに翻訳する能力を提供します。

もう一つの優れたプロジェクトはCTRLsumです。これは、長い文章を最も関連性の高いポイントの要約に自動的に縮約し、ユーザーの情報消費負担を大幅に軽減します。CodeGenが複雑な世界で創造性を拡大することができるとしたら、CTRLsumは最初からそれに追いつくのを支援することができます。

文章の要約は、AIにとって長年の問題でしたが、foundation modelsにより実用化に近づきました。さらに、異なる方法で訓練された一連の大規模モデルを統合して、自然言語の理解だけでなく、柔軟性があって正確に制御可能なツールを作成できる結果が得られました。CTRLsumの場合、入力ドキュメントだけでなく、ユーザーの興味のある特定のキーワードのシリーズや、要約の望ましい長さの見積もりも受け付け、モデルが最も個人的に関連性の高い方向に要約を導くのを支援します。例えば、スポーツやポップカルチャーの新聞記事が与えられた場合、ユーザーは好きなアスリートやミュージシャンを指定して、要約が他よりも強調すべき点を要求することができます。一方、学術論文のコレクションが与えられた場合、ユーザーは各研究の結果に焦点を当てるよう要約を指示することができます。

CTRLsumはパーソナライゼーションに重点を置いていることに加え、質問に答えることもできるため、関連する事実を素早く抽出する能力をさらに高めています。例えば、イベントプランナー同士の会議の議事録の場合、ユーザーはいくつかの詳細な情報を必要とします。時間を節約するために、要約を完全に省略して、提案された会場の名前や予想される出席者のリストを尋ねるだけでよいかもしれません。ニュースからソーシャルメディア、そして自分自身の通信手段まで、より多くのことを把握しなければならないというプレッシャーが高まる中、このようなツールがなかったら、どうやって生き延びてきたのだろうと思う日が来るかもしれません。

つまり、テキスト、画像、ビデオ、その他のコンテンツを流動的に変換する機能です。その好例がLAVISライブラリで、LAnguageとVISualsの両方を理解できることから、この名前が付けられました。このライブラリは、異なるメディア間の境界線を自然にまたぐインテリジェントなツールを素早く構築するための強力な機能を開発者に提供しています。
初期のデモでは、LAVISを使って、画像に関する質問に答えるツールを作りました。自撮り写真を見て、「この写真はどこの国で撮られたのですか」と尋ねると、瞬時に正しい答えが返ってきました。と尋ねると、瞬時に「シンガポール」と正解が返ってきました。自撮り写真の場合、背景の情報が十分でないことが多いのですが、この例では背景にマリーナベイサンズという有名な建築物が大きく写っていました。LAVISは、このランドマークを識別し、質問の意図を理解し、両者の関連性を利用して有用な回答を合成しています。

このようなマルチモーダルインテリジェンスが実際にどのように応用できるのか、私たちはまだ表面しか見ていないのです。しかし、私たちの顧客の多くが親しんでいるeコマースも、その1つです。カタログの商品説明、質感やデザイン、色に関するお客様の質問、あるいは検索クエリなど、テキストとイメージの関係はオンラインショップの基本です。LAVISは、衣服の写真のキャプションを自動生成したり、ダイニングテーブルの仕上げに関する質問に答えたり、これまで以上に詳細な検索結果を提供したりと、これらの体験をより深く、より効率的にすることができます。

さらに、画像を分析するだけでなく、一から作り上げるビジュアルコンテンツ*ジェネレーションもあります。CodeGenのように、これまで専門的な知識や技術が必要だったものを、自然言語による記述で実現することで、技術だけでなくクリエイティブの参入障壁も低くすることができます。ここ数ヶ月、AIによる写真やアートワークの出現が話題になっていますが、私たちは、企業での応用が待たれていると考えています。

あらゆるプロフェッショナルが、ルーティン化した仕事をインテリジェントに自動化するツールで、急速に加速する産業の要求に対応し、初心者はまったく新しい問題を自分で解決できるようになる、このようなテクノロジーは、まだ開発途中ではありますが、劇的に異なる世界の片鱗を示すものと確信しています。

倫理と安全

対話型AIの議論は、倫理や安全性に関するユニークな問題を認識することなしには完了しないでしょう。会話のやり取りは、文法の流動性と言い回しの解釈性により、事実上無限の形を取ることができ、初歩的な会話AIであっても、非常に複雑なシステムとなっています。このようなシステムを検証することは、意図したとおりに動作することを確認し、動作しない可能性のある状況を特定することであり、決して簡単ではありません。しかし、その検証は不可欠です。この技術が私たちの未来に果たす役割の大きさを考えると、透明性と信頼の基盤の上に成り立つものでなければならないからです。

インテリジェントなツールの進化は、現在最も差し迫った問題である偏見と公平性の問題と交差しているのです。世界中のユーザーと同じレベルの有効性と敬意をもって接する対話型AIを構築するにはどうすればよいのでしょうか。言語そのものだけでなく、それを取り巻く文化や伝統、社会的な期待など、グローバルな隔たりを優雅にナビゲートできるようにするには、どうすればよいのでしょうか。言葉は真空の中に存在するわけではなく、真の理解には辞書の定義以上のものが必要なのです。対話型AIは、私たちがそうであるように、このことを認識しなければなりません。

そして、それと密接に関連するのが、「安全性」です。人間でさえも混乱させることがある言語の主観性を考えると、AIが正確かつ予測可能な解析能力を定量化するための強力なベンチマークと検証指標が必要であり、同時に、望ましくない行動に対する明確なセーフガードも必要です。対話型ワークフローの可能性がエキサイティングであるのと同様に、意図せずとも害を及ぼす可能性を最小化することにも情熱を傾けなければなりません。

このような懸念事項をすべて解決するソリューションはありませんが、正しい方向への有意義なステップは、今からでも取ることが可能です。このアプローチでは、多様で代表的な貢献者のグループを招集し、この技術の開発、テスト、展開に幅広い視点をもたらすことができます。もうひとつは、説明可能性の研究支援です。予測、推論、判断の背後にある理由を明らかにする、一種の内観を行うことができるAIです。これらのテーマは何年も前から熱く議論されていますが、私は対話型AIの進化がこの2つの面での進歩に拍車をかけると楽観的に考えています。

最後に、AI全般、そして対話型AIの未来に立ちはだかる哲学的な問題、それは「人間の究極の役割」です。土星への旅がどんなに速く、効率的に、そして自動化されたとしても、最も重要なのは乗客にもたらされる利益である。だから、船の計器盤は簡素化され、いつかはアプリやデバイスの従来のインターフェースと一緒に完全になくなるかもしれませんが、私たちの「コントロール」の感覚は保たれなければなりません。

ありがたいことに、対話型AIは、人間の参加に本質的に依存しているため、この約束を実現するのに非常に適していると言えるかもしれません。自然言語インターフェースは、単に私たちを「ループに入れる」だけでなく、私たちのアイデアや希望、貢献を理解し、それを直接行動に移すことができなければ機能しないのです。その意味で、自然言語インターフェースは、他のテクノロジーにはない、私たちの力を与えてくれるものだと思います。

結論

AIは、現代社会の最も厄介な問題のいくつかを根本的に新しい方法で解決します。AIは、私たちの情報収集能力を高め、生産性を向上させ、データの中に隠された意味を明らかにし、芸術性を高めることさえできます。しかし、その価値を真に享受するためには、これらの機能を直感的な体験を通じて利用できるようにしなければなりません。

対話型AIは、そのような体験を提供します。私たちが日常的に使っている自然言語を通じて、大規模な機械学習の驚異的なパワーを提供し、私たちにほとんど負荷をかけずに、驚異的なパワーを提供し、簡単にアクセスできるようにします。私たちを単純作業から解放することで、私たちに残されたのは、ビジョン、創造性、そして私たち一人ひとりを構成するユニークな視点といった人間性を引き出す仕事なのです。