DPO(直接選好最適化, Direct Preference Optimization)
概要
DPO(Direct Preference Optimization, 直接選好最適化)は、大規模言語モデル を人間の選好に沿わせる ファインチューニング 手法です。RLHF が「報酬モデルを学習してから強化学習(PPO など)で最適化する」二段構えなのに対し、DPO は 報酬モデルを介さず、ランク付けされた選好ペア(勝ち応答/負け応答)から直接モデルを最適化 します。実装が簡潔で安定しやすく、近年のアライメント・パイプラインで広く使われています。
RLHF との違い
- 報酬モデルの学習・強化学習ループを省き、選好ペアに対する分類的な損失で直接学習する
- パイプラインが短く、ハイパーパラメータ調整やトレーニングの不安定さを抑えやすい
- 一方で「報酬信号を明示的に持たない」ため、複数目的の取り扱いやオンライン探索では別の工夫が要る
研究トピック(Daily フィード)
- Sequential DPO と忘却(Beyond Uniform Forgetting) — DPO で複数の目的を 順番に 適用したとき、以前学習した選好がどれだけ保持されるかを検証。Llama-3.1-8B-Instruct + LoRA で、分布紛争・複数属性相互作用・安全シグナル・応答品質の4シナリオを比較。結論は「順序付き DPO は単一の忘却パターンを生まない」——目的の関連性に応じて劣化から安定までばらつき、後段の学習勾配は前段の目的を直接打ち消すことは少なかった。集計メトリクスが高信頼ペアの応答差を隠してしまう点も指摘し、アライメント・パイプラインは「すべての目的で均一な効果」を仮定せず、目的の互換性と信号強度を考慮すべきと提言(強化学習 の破滅的忘却とも関連)。Beyond_Uniform_Forgetting_Sequential_Direct_Preference_Optimization
- 暗黙的フィードバックによるアライメント(Your Mouse and Eyes Secretly Leak Your Preference) — 明示的なテキスト評価ではなく、ユーザーの 行動シグナル(マウス軌跡・アイトラッキング) を選好信号に使う研究。59人から収集した IFLLM データセットで報酬モデルの精度がテキストのみより約9ポイント向上し、DPO による下流応用では8モデルで応答品質の相対改善が約3倍。明示的な人手アノテーションより、自然なインタラクションのほうが有効になりうることを示す(RLHF の報酬モデル、説明可能AI の暗黙的信号)。Your_Mouse_and_Eyes_Secretly_Leak_Your_Preference
論点
- 複数目的の整合 — 安全性・有用性・スタイルなど複数の選好を同時/逐次に最適化すると、目的間の干渉や忘却が起きる。順序と信号強度の設計が品質を左右する
- 選好データの質 — 行動シグナルのような暗黙的フィードバックは安価かつ大量に得られる一方、ノイズやプライバシー(プライバシーとデータ保護)の懸念を伴う
- 評価の隠蔽 — 集計スコアは高信頼ペアの差を覆い隠す。アライメントの効果検証には LLMの評価 の粒度が要る