RLHF(人間のフィードバックによる強化学習)
概要
RLHF(Reinforcement Learning from Human Feedback, 人間のフィードバックによる強化学習)は、大規模言語モデル を 人間の選好に沿うよう調整する ファインチューニング 手法です。ChatGPT などの指示追従・対話能力の鍵となった技術で、生成AI の実用化を加速しました(アフターAI 読書メモ でも Scale.ai の文脈で言及)。
基本的な流れ
- 教師ありファインチューニング(SFT) — 良質な応答例でベースモデルを調整
- 報酬モデルの学習 — 人間が応答ペアにランク付けし、選好を予測する報酬モデルを作る
- 強化学習 — 報酬モデルを報酬信号として、強化学習(PPO など)でモデルを最適化
関連・代替手法
- DPO(直接選好最適化) — 報酬モデルを介さず、ランク付けペアから直接「より良い出力」を優先するよう学習。RLHF より簡潔で安定しやすい。複数目的の逐次適用での忘却や、マウス・視線などの暗黙的フィードバックの活用といった研究が進む
- RLAIF — 人間の代わりに AI のフィードバックを使う
- Reinforcement fine-tuning — 強化学習による微調整
アラインメントとの関係
RLHF は LLM の アラインメント(人間の価値観・意図への整合) の主要手段であり、AIエージェントの安全性 や AIの倫理 とも密接に関係します。
関連ページ
参考資料
- アフターAI 読書メモ(Scale.ai / RLHF)
- Building Applications with AI Agents(DPO など)