強化学習（Reinforcement Learning）

概要

強化学習（Reinforcement Learning, RL）は、エージェントが 環境とのやり取りを通じて、報酬を最大化する行動方針（方策）を試行錯誤で学習する 機械学習の枠組みです。大規模言語モデルの文脈では RLHF や推論の強化に使われ、ゲーム・金融・制御など幅広い応用があります。

“Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research”
“Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning”
“RAMP: Hybrid DRL for Online Learning of Numeric Action Models”
DRPO — LLM の RL における発散正則化の再考。ハードマスクをスムーズな正則化に置き換え、より安定した RL 訓練と収束を狙う（Tencent Hunyuan）。DRPO_Rethinking_Divergence_Regularization_in_LLM_RL
AdaSR — 階層的相対ポリシー最適化による適応的ストリーミング推論。リアルタイムで段階的に推論しつつ品質を維持（LLMの推論）。AdaSR_Adaptive_Streaming_Reasoning
CORA — マルチモーダル RLVR（検証可能報酬による視覚推論）で「思考」と「回答」の乖離を分析・橋渡し（マルチモーダルLLM）。CORA_Analyzing_Thinking_Answer_Gap_Multimodal_RLVR
Harness-1 — RL で訓練した 20B の検索エージェント。意味的推論と環境管理を分離する状態外部化ハーネスが特徴（AIエージェント / ツール利用）。Harness_1_Reinforcement_Learning_for_Search_Agents