[Wiki] [一覧]

RLHF(人間のフィードバックによる強化学習)

概要

RLHF(Reinforcement Learning from Human Feedback, 人間のフィードバックによる強化学習)は、大規模言語モデル人間の選好に沿うよう調整する ファインチューニング 手法です。ChatGPT などの指示追従・対話能力の鍵となった技術で、生成AI の実用化を加速しました(アフターAI 読書メモ でも Scale.ai の文脈で言及)。

基本的な流れ

  1. 教師ありファインチューニング(SFT) — 良質な応答例でベースモデルを調整
  2. 報酬モデルの学習 — 人間が応答ペアにランク付けし、選好を予測する報酬モデルを作る
  3. 強化学習 — 報酬モデルを報酬信号として、強化学習(PPO など)でモデルを最適化

関連・代替手法

アラインメントとの関係

RLHF は LLM の アラインメント(人間の価値観・意図への整合) の主要手段であり、AIエージェントの安全性AIの倫理 とも密接に関係します。

関連ページ

参考資料