[Wiki] [一覧]

アクティベーションステアリング(Activation Steering)

概要

アクティベーションステアリングは、大規模言語モデル隠れ状態(アクティベーション)に直接ベクトルを加減算することで、再学習なしに振る舞いを制御する 手法です。「ある概念・性質に対応する方向」を活性化空間の中から見つけ出し、その方向を足せば性質を強め、引けば弱められる、という考え方に基づきます。ファインチューニングRLHF のように重みを更新せず、推論時に介入する点が特徴で、説明可能AI(解釈可能性)とアライメント制御の橋渡しとして 2026 年前半の研究フィード(llm/)で活発です。

仕組み

主要な研究(Daily フィード)

論点

関連ページ

参考資料