アクティベーションステアリング(Activation Steering)
概要
アクティベーションステアリングは、大規模言語モデル の 隠れ状態(アクティベーション)に直接ベクトルを加減算することで、再学習なしに振る舞いを制御する 手法です。「ある概念・性質に対応する方向」を活性化空間の中から見つけ出し、その方向を足せば性質を強め、引けば弱められる、という考え方に基づきます。ファインチューニング や RLHF のように重みを更新せず、推論時に介入する点が特徴で、説明可能AI(解釈可能性)とアライメント制御の橋渡しとして 2026 年前半の研究フィード(llm/)で活発です。
仕組み
- 方向の抽出 — 望ましい挙動と望ましくない挙動それぞれのアクティベーションを集め、その差分(difference-in-means など)を「制御方向」とする
- 介入 — 推論時に該当層の隠れ状態へ制御ベクトルを加える(強める)/引く(抑える)
- 重みを凍結したまま外部から操作できるため、監査・安全対策と相性が良い
主要な研究(Daily フィード)
- Actionable Activation Directions(Emergent Misalignment) — ミスアライメント(不安全なコード生成など)が、異なるアーキテクチャ間で共有される因果的な活性化方向に対応するかを検証。Qwen2.5 / Gemma-2 / Llama-3.2 / Ministral の4モデルで、difference-in-means 方向が整列/非整列アクティベーションを 99.6% 分離。方向減算によるステアリングでコード漏出を 21〜51 ポイント削減した。Gemma・Qwen が「幾何学的ドナー」、Llama が「受信者」という非対称な転送トポロジーを発見し、クロスアーキテクチャの線形補正には限界があるため監査ではモデル内プロービングを推奨。Actionable_Activation_Directions_for_Detecting_and_Mitigating_Emergent_Misalignment
- GEMS — 複数の意味方向を同時に注入するとモデルが崩壊する問題に対する、学習不要の幾何学的制約アプローチ。失敗源を「分布偏差(層を通じた加法的摂動の累積)」と「非直交ベクトルの方向的干渉」の2つに切り分け、ノルム保存加重重ね合わせ・標的アテンション経路注入・リアルタイム直交化で対処。GSM8K で非数学的方向を3つ同時注入しても精度 98% を維持(制約なしでは 4%)、Wikitext-2 のパープレキシティ増加は 2.2% に留まり、3B〜31B のモデル間で転送可能。GEMS_Geometric_Constraints_Enable_Multi-Semantic_Superposition
論点
- 監査と防御への応用 — ミスアライメント方向を検出・減算できれば、不安全な振る舞いの検知・緩和に使える(AIエージェントの安全性 / AIの倫理)
- 多方向の同時制御 — 単一方向なら効くが、複数の性質を同時に操作すると干渉・崩壊が起きる。これが制御性の実用化のボトルネックで、GEMS のような幾何学的工夫が要る
- アーキテクチャ依存性 — 方向は必ずしもモデル間で共通せず、汎用的な「悪性方向の辞書」を作るのは難しい
- 解釈可能性との関係 — 「方向=意味」という前提は Attention の機械的解釈(mechanistic interpretability)と地続きで、説明可能AI の系譜にある