Chain-of-Thought(思考連鎖)
概要
Chain-of-Thought(CoT, 思考連鎖)は、大規模言語モデル に 最終的な答えだけでなく、そこに至る中間推論ステップを明示的に出力させる プロンプト技法です。複雑な推論(算術・常識・論理)の精度を大きく向上させ、LLMの推論 を引き出す代表的手法となりました。
仕組み
「順を追って考えてみましょう(Let’s think step by step)」のような指示や、推論過程を含む例示(Few-shot CoT)により、モデルに思考を展開させます。
問題: りんごが3個、みかんが5個ある。果物は全部で何個?
思考: りんごが3個。みかんが5個。合計は 3 + 5 = 8。
答え: 8個
派生・関連技法
- Zero-shot CoT — 例なしで「順を追って考えて」とだけ指示
- Few-shot CoT — 推論過程付きの例を提示(In-context Learning)
- Self-Consistency — 複数の思考過程を生成し多数決
- 推論時計算の活用 — より長く考えることで精度を上げる(LLMの推論)
効率化:長い思考をどう圧縮するか
拡張 CoT は強力ですが計算コストが高く、思考を圧縮・短縮する研究が進んでいます。
- HybridThinker — 圧縮メモリトークンだけに頼らず、一部の思考ステップを「一時的に保持して詳細を提供する」ハイブリッド方式。思考ステップを戦略的にマスクして学習させ、圧縮と検索能力をメモリトークンに獲得させる。非圧縮ベースラインと同等精度を保ちつつ、圧縮系の SOTA を 5.8 ポイント改善(推論時計算)。HybridThinker_Efficient_Chain-of-Thought_Reasoning_via_Compressed_Memory_and_Transient_Thought_Steps
出力した思考は本当の思考か(忠実性)
CoT は「思考を見せる」ものですが、示された思考が実際の内部計算や最終行動を反映しているとは限りません。述べた推論と結論・行動がズレる「忠実性ギャップ」や、隠した推論トレースが抽出されうる問題は 推論の忠実性 にまとめています。CoT を安全監視に使う場合、この前提(CoT が忠実であること)が崩れると監視が形骸化します(AIエージェントの安全性)。
位置づけ
- プロンプトエンジニアリング の中核技法の一つ
- 思考過程の蒸留により、小型モデルへ推論能力を移す研究もある(知識蒸留)