確率的機械学習の基礎:なぜ不確実性の定量化が重要なのか ブックマークが追加されました
機械学習における不確実性の定量化は、標準的なAI・機械学習のカリキュラムにおいて、基礎的な知識として教えられていません。たしかに、不確実性の定量化を独立した技術として評価した場合、近年流行している大規模言語モデル(LLM)のような派手さがあるわけでもなく、不確実性の定量化を省略しても標準的な機械学習タスクは成立するため、限られた時間制約の中で教育効果を最大化する問題の最適解としてカリキュラムから除外するのは合理的かもしれません。しかし、原理上はあらゆる機械学習の出力がどの程度不確実なのかという新たな情報を付与できるわけですから、アテンション1などの工夫が入っているものの本質的には古典的なニューラルネットワークの拡張に過ぎないアルゴリズムと比べて、技術的な重要性が低いということにはならないでしょう。現状、不確実性の定量化は主に出力の信用性評価に用いられており、たとえばLLMの自然言語生成(NLG)における不確実性の定量化によって、回答の信用性を評価する指標として利用できるかを検証している研究などが存在します。
あらためて不確実性の定量化がなぜ重要なのか考えていきましょう。前回の記事「確率的機械学習の基礎:なぜブラックボックスなモデルは望ましくないか」では、AI・機械学習の社会実装を阻む要因として、解釈不可能なブラックボックスモデルに基づく予測がヒトの信頼や納得感を得られない点について議論しました。この主張を受け入れ、解釈可能なホワイトボックスモデルを利用したと仮定し、さらにモデルの利害関係者全員がモデルの挙動を理解するのに十分な理解力(数学力)を有していた場合、AI・機械学習の社会実装は進むのでしょうか。
結論から言えば、これだけでは不十分で、まだ欠けている要素があると考えられます。それは何かというと出力の信用度です。具体例を用いて考えていきましょう。
まずは、ノンコア領域(人事、経理、広報、マーケティング、事務など)におけるビジネス、問い合わせ対応や簡単なコーディング業務などを考えてみましょう。このような領域では、ミスが生じたときの最大想定損害が十分に小さく、事後的な損害復旧も比較的容易です。したがって、AI・機械学習の社会実装は比較的進みやすく、ホワイトボックスモデルによって信頼や納得感が得られているのであればなおさらでしょう。
対照的に、医学的意思決定や自律運転など人命を左右する領域、司法・会計など国家資格を有する専門家が存在する領域、さらにビジネスクリティカルな領域などを考えてみると、このような領域ではミスが生じたときの最大想定損害が十分に大きく、事後的な損害復旧も困難または不可能なことが少なくありません。したがって、AI・機械学習の社会実装は進みづらく、ホワイトボックスモデルによって信頼や納得感が得られていたとしても、それだけでは採用に至らないと考えられます。
なぜ、我々はこのような領域で機械による判断を採用しづらいと考えるのでしょうか。人間が判断したほうが正確な判断ができる、精度の高い予測ができるという根拠はどこにも存在しませんし、実際に機械による判断の方が平均的に勝っていることも少なくありません。それにも関わらず機械の判断を採用していない理由は明らかで、機械の判断には信用度がないからと考えられます(機械には判断の責任を負わせられないからという理由もあるでしょうが、ここではいったん放念します)。ここで、従来の出力に欠けている要素と考えられる、出力の信用度という概念が登場します。それでは、信用度とはなんでしょうか。それは、判断がどの程度誤っているかをどの程度正確に見積もりできているかの程度を意味します。そして、正確な見積もりには予測・判断がどれくらいの確率でどの程度ばらついているかを把握することが必要です。これをフォーマルに表現したのが不確実性の定量化です。
人間同士のコミュニケーションの場合、ヒトは発話者のバックグラウンドや振る舞い、話し方、関係性、コミュニケーション履歴、「多分」・「知らないけど」といった表現によって発言の信用度を推量し、推量した信用度に基づいてその判断をどのように扱うかを処理できます。他方、機械とのコミュニケーションでは推量ができないため、信用度に関する情報が得られず、「盲目的に判断を利用する」もしくは「よく分からないので利用しない」という極端な二択しか選ぶことができません。信用度に関する情報がないので、その判断をどう扱っていいか処理できないわけです。
しかし、この機械の判断に不確実性評価が加わると状況は一転します。人間同士のコミュニケーションのように信用度を推量できるので、推量された信用度に応じてその判断をどのように利用するかを処理できます。たとえば、これはがん細胞です、ここは道路です、といった判断を下すAI・機械学習を業務で使う場合、信用度に応じてヒトが再検査を行ったり、減速したり、といった形で判断を利用することが可能です。また、ビジネスにおける投資評価などは、不確実性が適切に定量化されて初めて利用可能になります。このように、クリティカルな領域では、AI・機械学習の出力に信用度が加わって初めて採用が検討されるのです。
解釈不可能なブラックボックスモデルの予測精度をいくら高めてもヒトの信頼や納得感を得られなかったように、ホワイトボックスモデルの精度をいくら高めても信用には繋がらないため、それだけでは採用に至りません。もちろん「精度」は大前提として必要ですが、社会実装にとって重要なのは「ホワイトボックスモデルに基づく信頼や納得感」と「不確実性の定量化に基づく出力の信用度」なのです。
余談にはなりますが、生成系AIのハルシネーション(事実と異なる情報が生成される現象)が先日話題になりました。この現象は、「生成系AIが嘘をつく」と巷では形容されていましたが、なぜ我々は嘘をつかれたように感じたのでしょうか(=生成系AIの出力に対する我々の信用度が低下したのでしょうか)。その原因もやはり、不確実性の定量化ができていなかったからです。言語モデルは、本質的には次の単語の生成確率を条件付確率モデルで記述しているだけなので、生成されたものの背後には生成確率と、生成される可能性のあったその他の様々な候補(とその生成確率)が存在しています。しかし、我々の目に映るのは生成された結果のみですから、実際には30%の確率でミカンという回答が生成されており、ミカン以外にも数十数百の候補が様々な確率で背後に存在しているにもかかわらず、100%の確率でミカンと断言しているように見えてしまいます。その結果、利用者は回答を過度に信用し、誤った回答に対しては嘘をつかれたように感じるわけです。
本稿では確率的機械学習の特長である不確実性の定量化がなぜ重要なのか、について説明しました。不確実性の定量化は確率的機械学習以外で実装する方法もいくつかありますが、確率的機械学習の枠組みでは自然に実装することができるという利点があります。不確実性の定量化は信用(信頼)できるAIの根幹であり、解釈性と並んでAI・機械学習を社会実装していくうえで必要な要素であると考えられます。もちろんすべての領域で必要なわけではないですが、クリティカルな領域への実装を考える上では、避けて通ることが難しい技術だと考えられます。言うまでもなくAI・機械学習のような先端技術からの恩恵を得るためには社会実装が不可欠であり、そのためには基盤技術とそれ以外の技術とをしっかりと峻別したうえで基盤技術に継続投資することが重要です。そして、不確実性の定量化はそうした基盤的な重要性を持つ技術の一つなのです。
脚注1 データのどこ(自然言語処理の文脈ではどの単語)に注目するかを特定する仕組みのこと。出所:[1706.03762] Attention Is All You Need (arxiv.org)
デロイト トーマツ コンサルティング スペシャリストリード
山名 一史
デロイト トーマツでは先端技術領域のプロジェクトに従事している。主な専門領域はマクロ経済学、ファイナンス、機械学習、AI、暗号経済学(ブロックチェーン、web3、デジタル資産、メタバース/デジタルツイン等の先端技術を採用したインセンティブ設計、マネタイゼーション、ガバナンスデザイン)。経済学博士。