説明可能AI(XAI)
概要
説明可能AI(Explainable AI, XAI)は、AI モデルの判断の 根拠を人間が理解できる形で示す 技術・研究分野です。大規模言語モデル のような複雑なモデルはブラックボックス化しやすく、信頼・説明責任・AIの倫理 の観点から説明可能性が重要になります。
関連する論点
- 不確実性(Uncertainty) — モデルがどれだけ確信しているかを示す。確信度の表明は ハルシネーション の緩和や メタ認知 とも関わる
- 高次の不確実性 — 確率そのものの曖昧さ(imprecise probabilities)を言語化する
- 解釈可能性ツール(Interpretability Tools) — 内部表現や注意の可視化(Attention マップなど)
なぜ重要か
- 高リスク領域(医療・金融・行政)での意思決定の説明責任
- デバッグと改善(なぜ間違えたかを理解する)
- 規制・コンプライアンス対応(Palantir のガードレール、AIエージェントの安全性)
注意機構の機械的解釈(Mechanistic Interpretability)
Attention の内部回路を解析し、モデルの挙動を機械的に説明する研究が活発です。
- How LLMs Are Persuaded — 中層の少数の注意ヘッドがモデルの回答をほぼ決定することを特定。説得は信頼度を徐々に下げるのではなく「正解頂点から説得目標頂点への離散的な潜在ジャンプ」を引き起こし、決定ヘッドの注意をリダイレクトすることで成立する。監視・ブロック可能な回路として特性化(プロンプトインジェクション の説得攻撃・GEO とも関連)。How_LLMs_Are_Persuaded_A_Few_Attention_Heads_Rerouted
- Generic Interpretation for Heterogeneous Attention — 同質/異質な注意構造を区別し、意味解釈・論理解釈を含む汎用的な解釈方法論を提案(効率的なアテンション機構)。Generic_Interpretation_Approach_for_Transformer_Models_with_Heterogenous_Attention_Structures
- Reasoning Structure of LLMs — 同じメトリクススコアが異なる推論構造を隠しうると指摘。推論トレースを論理グラフへ変換し、推論トポロジーと「論理フローの集中度」を測る効率メトリクスを導入(LLMの推論)。Reasoning_Structure_of_Large_Language_Models
訓練データへの帰属(Capability Provenance)
内部回路ではなく 「どの訓練データがその能力を支えているか」 を遡る、データ側からの解釈可能性アプローチもあります。
- Where Does Social Reasoning Come From? — 訓練データ帰属法で OLMo3-7B の事前学習コーパスのどの領域が社会的推論/STEM 推論を支えるかを分析。WebOrganizer の 24形式×24トピック分類(576ビン)に対し勾配ベースで影響スコアを算出し、社会的推論と STEM 推論が 質的に異なるコーパス領域 に根ざすことを示した。差は知識レベルより推論レベルで顕著で、標的機械忘却(高帰属トピックの削除で対応ベンチマークが大きく低下)で検証。異なる種類の推論能力が異なるコーパス領域に由来することを体系的に示した初の報告(事前学習 / LLMの推論)。Where_Does_Social_Reasoning_Come_From
研究テーマ(Daily フィード)
- “Concerning Uncertainty — A Systematic Survey of Uncertainty-Aware XAI”
- “Verbalizing LLM’s Higher-order Uncertainty via Imprecise Probabilities”
- “Human Attribution of Causality to AI Across Agency, Misuse, and Misalignment”
- GYAN — Transformer 非依存の説明可能なニューロシンボリック言語モデル。言語モデリングと知識獲得を分離し、ハルシネーション低減と解釈可能性を狙う(ニューロシンボリックAI)。GYAN_An_Explainable_Neuro-Symbolic_Language_Model
- アクティベーションの方向で挙動を制御 — 活性化空間に「望ましくない挙動の方向」を見つけて減算する解釈可能性ベースの制御(アクティベーションステアリング)