[Wiki] [一覧]

推論の忠実性(Reasoning Faithfulness)

概要

推論の忠実性(Faithfulness)は、大規模言語モデル示した推論(Chain-of-Thought など)が、実際の内部計算・最終結論・とった行動を本当に反映しているか という問題です。説明として出力される思考が、モデルが実際にたどった過程と食い違えば、その説明は信頼の根拠にならず、安全監視も欺かれます。説明可能AI の中核的な懸念であり、AIエージェント の信頼性に直結します。

忠実性のギャップ(推論↔結論↔行動)

隠した思考は秘密ではない

推論トレースを「隠す」ことは、忠実性とプライバシー双方の論点になります。

なぜ重要か

関連ページ

参考資料