推論時計算(Test-Time Compute)
概要
推論時計算(Test-Time Compute / Inference-Time Compute)は、大規模言語モデル の性能を 学習時ではなく推論時により多く「考える」ことで向上させる アプローチです。スケーリング則(学習時のスケール)に対する新しい軸として注目され、推論モデル(reasoning models)の鍵となっています。
主な手法
- Chain-of-Thought — 中間推論を展開して考える
- サンプリングと選択 — 複数の解を生成し、最良を選ぶ(Best-of-N、Self-Consistency)
- 探索(Search) — 木探索などで解空間を探る
- 推論時アライメント — 推論時に望ましい出力へ寄せる(楽観/悲観のバランス)
- テスト時学習(Test-Time Training) — 推論時にモデルをその場で適応させる
トレードオフ
- より多く考えるほど精度は上がりうるが、コストとレイテンシが増える
- 「考えすぎ」を防ぐ効率化が重要(早期停止、バランスのとれた思考)
- メタ認知(いつ・どれだけ考えるか)とも関係
研究テーマ(Daily フィード)
- “Early Stopping for Large Reasoning Models via Confidence Dynamics”
- “In-Place Test-Time Training”
- “Best-of-Tails: Bridging Optimism and Pessimism in Inference-Time Alignment”
- “Efficient Reasoning with Balanced Thinking”