[Wiki] [一覧]

強化学習(Reinforcement Learning)

概要

強化学習(Reinforcement Learning, RL)は、エージェントが 環境とのやり取りを通じて、報酬を最大化する行動方針(方策)を試行錯誤で学習する 機械学習の枠組みです。大規模言語モデル の文脈では RLHF や推論の強化に使われ、ゲーム・金融・制御など幅広い応用があります。

基本要素

LLM・エージェントとの接点

研究テーマ(Daily フィード)

関連ページ