推論の忠実性(Reasoning Faithfulness)
概要
推論の忠実性(Faithfulness)は、大規模言語モデル が 示した推論(Chain-of-Thought など)が、実際の内部計算・最終結論・とった行動を本当に反映しているか という問題です。説明として出力される思考が、モデルが実際にたどった過程と食い違えば、その説明は信頼の根拠にならず、安全監視も欺かれます。説明可能AI の中核的な懸念であり、AIエージェント の信頼性に直結します。
忠実性のギャップ(推論↔結論↔行動)
- Doing What They Say, Not What They Reason — エージェントが「述べた推論」に実際に従うかを、テキサスポーカーのシミュレータで検証(プロセス忠実性)。忠実性を「推論と結論の整合」と「結論と行動の整合」の2成分に分解すると、この2つは 正反対の挙動パターン を示した。すなわち、もっともらしい推論を述べても結論に結びつかない/結論を述べても行動が伴わない、というズレが別々に起きる(Chain-of-Thought / AIエージェント)。Doing_What_They_Say_Not_What_They_Reason
隠した思考は秘密ではない
推論トレースを「隠す」ことは、忠実性とプライバシー双方の論点になります。
- Hidden Thoughts Are Not Secret — 内部推論トレースを隠す設計でも、巧妙なプロンプトで抽出できてしまうかを調査。シャドウモデルが生成したデモを使い、隠れた推論を引き出す「Reasoning Exposure Prompting(REP)」を提示。隠匿が破られる以上、「隠した思考」と「見せる説明」が食い違えば外部から検証されうる(プロンプトインジェクション / 知識蒸留 のトレース流出)。Hidden_Thoughts_Are_Not_Secret_Reasoning_Trace_Exposure
なぜ重要か
- 安全監視の前提 — CoT を監視して危険な意図を検知する手法は、CoT が忠実である前提に立つ。忠実性が崩れると監視は形骸化する(AIエージェントの安全性)
- 説明責任 — 出力された根拠が実態と一致して初めて、説明は意思決定の正当化に使える(説明可能AI)
- 評価の落とし穴 — 同じ正解・同じスコアでも、背後の推論過程は質的に異なりうる(LLMの推論 の “Reasoning Structure”)