ナレッジ

大規模言語モデルを対象とした心理学は、AIガバナンスのツールとなり得るか

はじめに

大規模言語モデル(LLM)の出現により、人工知能(AI)とのコミュニケーションが大きく変化しました。LLMは自然言語を介して複雑で多様な対話を可能にし、まるで人間のように振る舞うことができます。このようなLLMは、私たちの日常生活や仕事のツールとしても急速に普及しつつあります。一方で、LLMの急速な発展と普及に伴い、AIガバナンスの観点から、LLMを適切に管理し、その影響を評価・制御するための枠組みの必要性も高まっています。

LLMの高度な言語能力は、人間の認知過程をシミュレートできる可能性を示唆していますが、LLMがどの程度人間と同様の思考や推論能力を持ち、認識や記憶などの認知過程を内部で行っているのかについては不明な点が多くあります。また、LLMのパラメータ数は増加を続け、その構造は人間の脳の複雑さに迫りつつあります。脳とLLMはその複雑さと高度な知的能力という点で類似しており、脳の機能の一つである「心」を理解するために発展してきた心理学、およびそのメカニズムを明らかにする脳神経科学のアプローチによって、高度なAIの説明可能性を高めることができるかもしれません。

以上の観点から、本稿では心理学の手法がLLMのリスクを評価し、説明可能性を向上させることで、AIガバナンスのツールの一つとして機能する可能性について議論します。

LLMの認知能力評価手法

AIの人間らしさを評価する一つの方法は、人間との会話を通じてAIや機械を評価する「チューリングテスト」です。最近の研究において、LLMとのチャットを介して対話した人間は、相手がLLMか人間かを判別できる確率が半々の0.5程度であることが示されました[1]。同様の実験で人間同士のチャットを通じた会話でも正しく判別できる確率はそれ程高くない(0.6程度)であったことから、現在のLLMがかなり人間に近い対話能力を持っていると言えるかもしれません。

一方で、LLMの推論能力については人間とのギャップを示す研究結果もあります。例えば、他者の心の状態を理解するための「心の理論」の能力を評価する「標準誤信念課題」を用いた研究では、GPT-4でも6歳児レベルの性能しか示さないとする結果が報告されています[2]。これは、LLMの表面的な知性と特定の推論能力の間に乖離があり、LLMが想定外の行動を起こす「リスク」が存在し得ることを示していると解釈できます。

この他にも、認知心理学で用いられる様々な手法もLLMの評価に応用されています[3]。これらの手法の中には、「ビネット」と呼ばれる特定の状況や人物を描写した短い説明文や事例を用いて、その情報にもとづいて応答や決定を求めるものがあります。例えば、「連言錯誤課題」は、一般的な状況よりも特殊な状況の方が確からしさや発生確率が高いと誤判断するヒューリスティックやバイアスを評価する課題です。また、「多腕バンディット課題」のような複数のスロットマシーンの選択のような動的なやりとりを必要とする課題も、テキストによる対話で実行し、LLMを評価することが可能になっています。この課題では複数の選択肢から最適なものを探索して不確実性のある状況で意思決定する能力を評価することができます。

 

文脈によって変化するLLMのバイアス

前述の評価手法は、LLMのバイアスを検出する上でも重要な役割を果たします。特に、LLMのin-context learning(文脈内学習)能力により、文脈によって新たなバイアスが導入される可能性が示唆されています。例えば、LLMを不安にさせる文脈に置くことで、バンディット課題における探索傾向は増加し、差別的バイアスは強まることが示されています[4]。また、プロンプトで特定の年齢の人物として振る舞うよう指定すると、人間の年齢に応じた探索傾向の変化が観察されることも明らかになっています[5]。これらの結果は、同一のLLMであっても属性設定や文脈によって異なるバイアスを生み出すことを示しています。このように、様々な心理学的手法によってLLMの知性を評価し、思わぬリスクやバイアスを発見し定量化することが可能になったと言えるでしょう。

おわりに

本稿では、LLMを心理学の手法によって評価した研究を概観し、LLMの人間のモデルとしての有用性と、心理学的手法がAIガバナンスのツールとして持つ可能性について議論しました。今回紹介した研究において、心理学的アプローチは、LLMの認知能力やバイアスを多面的に評価し、リスクを判別する上で有用であることが示唆されています。

現在、数多くの企業や研究グループが独自のLLMを開発し、バージョンアップやファインチューニングによって、その数は更に増加しています。In-context learningによる影響まで考慮すれば、同一のモデルでもプロンプトによって振る舞いに多様性が生まれます。また、LLMの内部構造の詳細が明らかにされていないモデルもあり、「ブラックボックス」としてその性能を評価する必要が生じます。このような状況においてAIガバナンスの観点からは、様々なLLMに対応可能な統一したリスクチェックのためのツールが必要になると考えられるでしょう。

心理学の手法は、知的な存在である人間を対象として発達してきた経緯から、LLMを含む自然言語でコミュニケーションが可能なエージェント一般に適用可能であると考えられます。このような汎用性の観点からも、心理学の手法がAIガバナンスへ既存の手法とは異なる角度から貢献する可能性を秘めているといえるのではないでしょうか。
 

参考文献

1.Jones, C. & Bergen, B. Does GPT-4 Pass the Turing Test? arXiv (2023)
doi:10.48550/arxiv.2310.20216.
2.Kosinski, M. Evaluating Large Language Models in Theory of Mind Tasks. Arxiv(2024) doi:10.48550/arxiv.2302.02083.
3.Binz, M. & Schulz, E. Using cognitive psychology to understand GPT-3. Proc
National Acad Sci 120, e2218523120 (2023).
4.Coda-Forno, J. et al. Inducing anxiety in large language models increases exploration and bias. Arxiv (2023).
5.Salewski, L., Alaniz, S., Rio-Torto, I., Schulz, E. & Akata, Z. In-Context Impersonation Reveals Large Language Models’ Strengths and Biases. arXiv (2023) doi:10.48550/arxiv.2305.14930.

執筆者

有限責任監査法人トーマツ デロイトアナリティクスR&D
マネジャー 

福島 誠

日米の研究機関において脳神経科学分野の研究者として基礎研究に従事。その後、外資系企業において脳科学の手法を応用したマーケティング業務に従事。現在はデロイトアナリティクスR&Dにおいてニューロテクノロジー領域の研究開発活動をリード。主な専門領域はシステム神経科学、神経生理学。Ph.D.(シカゴ大学)。

所属・役職は公開時(2024年8月)のものです。

お役に立ちましたか?