強化学習(Reinforcement Learning)
概要
強化学習(Reinforcement Learning, RL)は、エージェントが 環境とのやり取りを通じて、報酬を最大化する行動方針(方策)を試行錯誤で学習する 機械学習の枠組みです。大規模言語モデル の文脈では RLHF や推論の強化に使われ、ゲーム・金融・制御など幅広い応用があります。
基本要素
- エージェント / 環境 — 行動する主体と、その対象
- 状態(State)・行動(Action)・報酬(Reward)
- 方策(Policy) — 状態に対してどの行動を取るか
- 探索と活用(Exploration / Exploitation) のトレードオフ
LLM・エージェントとの接点
- RLHF — 人間の選好を報酬として LLM を調整
- 推論の強化 — 正答を報酬として推論能力を伸ばす(Reinforcement fine-tuning、LLMの推論)
- AIエージェント — 環境での意思決定に RL を組み合わせる
研究テーマ(Daily フィード)
- “Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research”
- “Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning”
- “RAMP: Hybrid DRL for Online Learning of Numeric Action Models”
- DRPO — LLM の RL における発散正則化の再考。ハードマスクをスムーズな正則化に置き換え、より安定した RL 訓練と収束を狙う(Tencent Hunyuan)。DRPO_Rethinking_Divergence_Regularization_in_LLM_RL
- AdaSR — 階層的相対ポリシー最適化による適応的ストリーミング推論。リアルタイムで段階的に推論しつつ品質を維持(LLMの推論)。AdaSR_Adaptive_Streaming_Reasoning
- CORA — マルチモーダル RLVR(検証可能報酬による視覚推論)で「思考」と「回答」の乖離を分析・橋渡し(マルチモーダルLLM)。CORA_Analyzing_Thinking_Answer_Gap_Multimodal_RLVR
- Harness-1 — RL で訓練した 20B の検索エージェント。意味的推論と環境管理を分離する状態外部化ハーネスが特徴(AIエージェント / ツール利用)。Harness_1_Reinforcement_Learning_for_Search_Agents