RLHF（人間のフィードバックによる強化学習）

概要

RLHF（Reinforcement Learning from Human Feedback, 人間のフィードバックによる強化学習）は、大規模言語モデルを 人間の選好に沿うよう調整する ファインチューニング手法です。ChatGPT などの指示追従・対話能力の鍵となった技術で、生成AI の実用化を加速しました（アフターAI 読書メモでも Scale.ai の文脈で言及）。

基本的な流れ

教師ありファインチューニング（SFT） — 良質な応答例でベースモデルを調整
報酬モデルの学習 — 人間が応答ペアにランク付けし、選好を予測する報酬モデルを作る
強化学習 — 報酬モデルを報酬信号として、強化学習（PPO など）でモデルを最適化

アラインメントとの関係

RLHF は LLM の アラインメント（人間の価値観・意図への整合） の主要手段であり、AIエージェントの安全性や AIの倫理とも密接に関係します。

参考資料

アフターAI 読書メモ（Scale.ai / RLHF）
Building Applications with AI Agents（DPO など）

RLHF（人間のフィードバックによる強化学習）

概要

基本的な流れ

関連・代替手法

アラインメントとの関係

関連ページ

参考資料