説明可能AI（XAI）

概要

説明可能AI（Explainable AI, XAI）は、AI モデルの判断の 根拠を人間が理解できる形で示す 技術・研究分野です。大規模言語モデルのような複雑なモデルはブラックボックス化しやすく、信頼・説明責任・AIの倫理の観点から説明可能性が重要になります。

Attention の内部回路を解析し、モデルの挙動を機械的に説明する研究が活発です。

How LLMs Are Persuaded — 中層の少数の注意ヘッドがモデルの回答をほぼ決定することを特定。説得は信頼度を徐々に下げるのではなく「正解頂点から説得目標頂点への離散的な潜在ジャンプ」を引き起こし、決定ヘッドの注意をリダイレクトすることで成立する。監視・ブロック可能な回路として特性化（プロンプトインジェクションの説得攻撃・GEO とも関連）。How_LLMs_Are_Persuaded_A_Few_Attention_Heads_Rerouted
Generic Interpretation for Heterogeneous Attention — 同質／異質な注意構造を区別し、意味解釈・論理解釈を含む汎用的な解釈方法論を提案（効率的なアテンション機構）。Generic_Interpretation_Approach_for_Transformer_Models_with_Heterogenous_Attention_Structures
Reasoning Structure of LLMs — 同じメトリクススコアが異なる推論構造を隠しうると指摘。推論トレースを論理グラフへ変換し、推論トポロジーと「論理フローの集中度」を測る効率メトリクスを導入（LLMの推論）。Reasoning_Structure_of_Large_Language_Models

内部回路ではなく 「どの訓練データがその能力を支えているか」 を遡る、データ側からの解釈可能性アプローチもあります。

Where Does Social Reasoning Come From? — 訓練データ帰属法で OLMo3-7B の事前学習コーパスのどの領域が社会的推論／STEM 推論を支えるかを分析。WebOrganizer の 24形式×24トピック分類（576ビン）に対し勾配ベースで影響スコアを算出し、社会的推論と STEM 推論が 質的に異なるコーパス領域 に根ざすことを示した。差は知識レベルより推論レベルで顕著で、標的機械忘却（高帰属トピックの削除で対応ベンチマークが大きく低下）で検証。異なる種類の推論能力が異なるコーパス領域に由来することを体系的に示した初の報告（事前学習 / LLMの推論）。Where_Does_Social_Reasoning_Come_From

“Concerning Uncertainty — A Systematic Survey of Uncertainty-Aware XAI”
“Verbalizing LLM’s Higher-order Uncertainty via Imprecise Probabilities”
“Human Attribution of Causality to AI Across Agency, Misuse, and Misalignment”
GYAN — Transformer 非依存の説明可能なニューロシンボリック言語モデル。言語モデリングと知識獲得を分離し、ハルシネーション低減と解釈可能性を狙う（ニューロシンボリックAI）。GYAN_An_Explainable_Neuro-Symbolic_Language_Model
アクティベーションの方向で挙動を制御 — 活性化空間に「望ましくない挙動の方向」を見つけて減算する解釈可能性ベースの制御（アクティベーションステアリング）