LLMの推論（Reasoning）

概要

LLMの推論（Reasoning）は、大規模言語モデルが複数ステップの論理・演繹・計画を通じて答えにたどり着く能力です。単純な事実想起ではなく、思考の過程 を要するタスク（数学、演繹、計画立案など）で問われます。推論の質・効率・安定性の評価と改善が、研究フィード（Daily/）の主要テーマの一つです。

推論を引き出す技法

Chain-of-Thought（思考連鎖） — 中間推論ステップを明示させる
推論時計算（Inference-Time Compute） — 推論時により多く「考える」ことで精度を上げる
効率的な推論 — 過剰な思考を抑え、バランスのとれた思考量で解く（“Balanced Thinking”）

評価の観点

多段演繹推論 — テキストベースのゲーム環境などで多ステップ演繹を測る
幾何学的な進捗と安定性 — スカラー指標を超えて、推論過程の進み方・安定性を捉える
推論能力はベンチマークと密接に関係する

推論が「効かない」境界（決定論的ホライゾン）

長く考えるほど良いとは限りません。The Deterministic Horizon は、デコーダ専用の Attention 機構の構造的限界（「注意ボトルネック定理」）により、決定論的な状態追跡タスクでは拡張推論がかえって性能を下げることを実証。19〜31ステップ付近に「決定論的ホライゾン」があり、ここを超えると ツールへの委譲（tool delegation）が必要になる。ツール統合推論は86〜94%の精度を達成（純粋なニューラル推論は24〜42%）。「いつ考えるのをやめてツールに任せるか」というツール利用 / メタ認知の判断に直結する（ICML 2026）。The_Deterministic_Horizon_When_Extended_Reasoning_Fails

推論の「忠実性」

高い正答率でも、示された推論が実際の計算・行動を反映しているとは限りません。述べた推論と結論・行動のズレ（忠実性ギャップ）は別建ての論点として推論の忠実性にまとめています。

研究テーマ（Daily フィード）

“How Clued up are LLMs? Evaluating Multi-Step Deductive Reasoning in a Text-Based Game Environment”
“Efficient Reasoning with Balanced Thinking”
“Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability”
Reasoning Structure of LLMs — 同一のスコアが根本的に異なる「推論構造」を隠しうると指摘。推論トレースを論理グラフ化して推論トポロジーを定量分析し、論理フローの集中度を測る新しい効率メトリクスを提案。トークン数や精度だけでは見えない洞察を与える（説明可能AI）。Reasoning_Structure_of_Large_Language_Models
AdaSR / HybridThinker — ストリーミング推論や思考圧縮による推論の効率化（Chain-of-Thought / 推論時計算）。
AdapTime — 時間に敏感な質問に対し、外部ツールなしで推論戦略を動的に選択する適応的時間推論（ACL 2026 Findings）。AdapTime_Adaptive_Temporal_Reasoning
Latent Distilling — 隠れ表現の新規性シグナルで意味的多様性を促すテスト時デコード。推論・創造タスクで多様な探索を引き出す（推論時計算）。Large_Language_Models_Explore_by_Latent_Distilling