長期タスク(Long-Horizon Tasks)
概要
長期タスク(Long-Horizon Tasks)は、相互に依存する行動を長く連ねて達成する必要があるタスクです。AIエージェント は短〜中期のタスクでは高い性能を示す一方、長期タスクで破綻しやすい ことが知られており、研究フィード(Daily/)でも中心的な課題として現れています。
なぜ破綻するか
- 誤差・誤りが系列の後段へ累積する
- コンテキストが長くなり、重要情報が埋もれる(ロングコンテキスト・エージェントメモリ の課題)
- 計画と実行のずれ(エージェントオーケストレーション の Plan-Execute)
対処のアプローチ
- 環境マップ(Environment Maps) — 環境の構造化表現を保持し、長期の意思決定を支える
- メモリ機構の強化 — 軌跡の保存・反省・経験化(エージェントメモリ の3段階)
- 計画と振り返り — Plan-Execute / Reflection(エージェントオーケストレーション)
- 破綻箇所の診断 — どこで・なぜ壊れるかを切り分ける評価
持続的な反復改善を測る(AutoLab)
長期タスクの中でも「科学・工学の反復改善プロセス」に焦点を当てたベンチマークが AutoLab です。システム最適化・パズル・モデル開発・CUDA カーネル最適化の4分野36タスクで、フロンティアモデルが長期の自律研究・エンジニアリングを解けるかを測ります。最大の成功要因は 初期段階の品質ではなく、試行錯誤を粘り強く続けることでした。Claude Opus 4.6 が強い長期最適化能力を示す一方、多くの最先端モデルは早期終了するか予算枯渇に陥りました(ベンチマーク / 自己改善エージェント / AI for Science)。AutoLab_Frontier_Models_Long-Horizon_Tasks
研究テーマ(Daily フィード)
- “The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break”(arXiv:2604.11978)
- “Environment Maps: Structured Environmental Representations for Long-Horizon Agents”
関連ページ
参考資料(Daily フィード)
- “The Long-Horizon Task Mirage?”(arXiv:2604.11978)
- “Environment Maps”
- AutoLab_Frontier_Models_Long-Horizon_Tasks