推論の忠実性（Reasoning Faithfulness）

概要

推論の忠実性（Faithfulness）は、大規模言語モデルが 示した推論（Chain-of-Thought など）が、実際の内部計算・最終結論・とった行動を本当に反映しているか という問題です。説明として出力される思考が、モデルが実際にたどった過程と食い違えば、その説明は信頼の根拠にならず、安全監視も欺かれます。説明可能AI の中核的な懸念であり、AIエージェントの信頼性に直結します。

忠実性のギャップ（推論↔結論↔行動）

Doing What They Say, Not What They Reason — エージェントが「述べた推論」に実際に従うかを、テキサスポーカーのシミュレータで検証（プロセス忠実性）。忠実性を「推論と結論の整合」と「結論と行動の整合」の2成分に分解すると、この2つは 正反対の挙動パターン を示した。すなわち、もっともらしい推論を述べても結論に結びつかない／結論を述べても行動が伴わない、というズレが別々に起きる（Chain-of-Thought / AIエージェント）。Doing_What_They_Say_Not_What_They_Reason

隠した思考は秘密ではない

推論トレースを「隠す」ことは、忠実性とプライバシー双方の論点になります。

Hidden Thoughts Are Not Secret — 内部推論トレースを隠す設計でも、巧妙なプロンプトで抽出できてしまうかを調査。シャドウモデルが生成したデモを使い、隠れた推論を引き出す「Reasoning Exposure Prompting（REP）」を提示。隠匿が破られる以上、「隠した思考」と「見せる説明」が食い違えば外部から検証されうる（プロンプトインジェクション / 知識蒸留のトレース流出）。Hidden_Thoughts_Are_Not_Secret_Reasoning_Trace_Exposure

なぜ重要か

安全監視の前提 — CoT を監視して危険な意図を検知する手法は、CoT が忠実である前提に立つ。忠実性が崩れると監視は形骸化する（AIエージェントの安全性）
説明責任 — 出力された根拠が実態と一致して初めて、説明は意思決定の正当化に使える（説明可能AI）
評価の落とし穴 — 同じ正解・同じスコアでも、背後の推論過程は質的に異なりうる（LLMの推論の “Reasoning Structure”）

関連ページ

参考資料