[Wiki] [一覧]

DPO(直接選好最適化, Direct Preference Optimization)

概要

DPO(Direct Preference Optimization, 直接選好最適化)は、大規模言語モデル を人間の選好に沿わせる ファインチューニング 手法です。RLHF が「報酬モデルを学習してから強化学習(PPO など)で最適化する」二段構えなのに対し、DPO は 報酬モデルを介さず、ランク付けされた選好ペア(勝ち応答/負け応答)から直接モデルを最適化 します。実装が簡潔で安定しやすく、近年のアライメント・パイプラインで広く使われています。

RLHF との違い

研究トピック(Daily フィード)

論点

関連ページ

参考資料