DPO（直接選好最適化, Direct Preference Optimization）

概要

DPO（Direct Preference Optimization, 直接選好最適化）は、大規模言語モデルを人間の選好に沿わせるファインチューニング手法です。RLHF が「報酬モデルを学習してから強化学習（PPO など）で最適化する」二段構えなのに対し、DPO は 報酬モデルを介さず、ランク付けされた選好ペア（勝ち応答／負け応答）から直接モデルを最適化 します。実装が簡潔で安定しやすく、近年のアライメント・パイプラインで広く使われています。

RLHF との違い

報酬モデルの学習・強化学習ループを省き、選好ペアに対する分類的な損失で直接学習する
パイプラインが短く、ハイパーパラメータ調整やトレーニングの不安定さを抑えやすい
一方で「報酬信号を明示的に持たない」ため、複数目的の取り扱いやオンライン探索では別の工夫が要る

研究トピック（Daily フィード）

Sequential DPO と忘却（Beyond Uniform Forgetting） — DPO で複数の目的を 順番に 適用したとき、以前学習した選好がどれだけ保持されるかを検証。Llama-3.1-8B-Instruct + LoRA で、分布紛争・複数属性相互作用・安全シグナル・応答品質の4シナリオを比較。結論は「順序付き DPO は単一の忘却パターンを生まない」——目的の関連性に応じて劣化から安定までばらつき、後段の学習勾配は前段の目的を直接打ち消すことは少なかった。集計メトリクスが高信頼ペアの応答差を隠してしまう点も指摘し、アライメント・パイプラインは「すべての目的で均一な効果」を仮定せず、目的の互換性と信号強度を考慮すべきと提言（強化学習の破滅的忘却とも関連）。Beyond_Uniform_Forgetting_Sequential_Direct_Preference_Optimization
暗黙的フィードバックによるアライメント（Your Mouse and Eyes Secretly Leak Your Preference） — 明示的なテキスト評価ではなく、ユーザーの 行動シグナル（マウス軌跡・アイトラッキング） を選好信号に使う研究。59人から収集した IFLLM データセットで報酬モデルの精度がテキストのみより約9ポイント向上し、DPO による下流応用では8モデルで応答品質の相対改善が約3倍。明示的な人手アノテーションより、自然なインタラクションのほうが有効になりうることを示す（RLHF の報酬モデル、説明可能AI の暗黙的信号）。Your_Mouse_and_Eyes_Secretly_Leak_Your_Preference

論点

複数目的の整合 — 安全性・有用性・スタイルなど複数の選好を同時／逐次に最適化すると、目的間の干渉や忘却が起きる。順序と信号強度の設計が品質を左右する
選好データの質 — 行動シグナルのような暗黙的フィードバックは安価かつ大量に得られる一方、ノイズやプライバシー（プライバシーとデータ保護）の懸念を伴う
評価の隠蔽 — 集計スコアは高信頼ペアの差を覆い隠す。アライメントの効果検証には LLMの評価の粒度が要る

DPO（直接選好最適化, Direct Preference Optimization）

概要

RLHF との違い

研究トピック（Daily フィード）

論点

関連ページ

参考資料