長期タスク（Long-Horizon Tasks）

概要

長期タスク（Long-Horizon Tasks）は、相互に依存する行動を長く連ねて達成する必要があるタスクです。AIエージェントは短〜中期のタスクでは高い性能を示す一方、長期タスクで破綻しやすい ことが知られており、研究フィード（Daily/）でも中心的な課題として現れています。

なぜ破綻するか

誤差・誤りが系列の後段へ累積する
コンテキストが長くなり、重要情報が埋もれる（ロングコンテキスト・エージェントメモリの課題）
計画と実行のずれ（エージェントオーケストレーションの Plan-Execute）

対処のアプローチ

環境マップ（Environment Maps） — 環境の構造化表現を保持し、長期の意思決定を支える
メモリ機構の強化 — 軌跡の保存・反省・経験化（エージェントメモリの3段階）
計画と振り返り — Plan-Execute / Reflection（エージェントオーケストレーション）
破綻箇所の診断 — どこで・なぜ壊れるかを切り分ける評価

持続的な反復改善を測る（AutoLab）

長期タスクの中でも「科学・工学の反復改善プロセス」に焦点を当てたベンチマークが AutoLab です。システム最適化・パズル・モデル開発・CUDA カーネル最適化の4分野36タスクで、フロンティアモデルが長期の自律研究・エンジニアリングを解けるかを測ります。最大の成功要因は 初期段階の品質ではなく、試行錯誤を粘り強く続けることでした。Claude Opus 4.6 が強い長期最適化能力を示す一方、多くの最先端モデルは早期終了するか予算枯渇に陥りました（ベンチマーク / 自己改善エージェント / AI for Science）。AutoLab_Frontier_Models_Long-Horizon_Tasks

研究テーマ（Daily フィード）

“The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break”（arXiv:2604.11978）
“Environment Maps: Structured Environmental Representations for Long-Horizon Agents”

参考資料（Daily フィード）

“The Long-Horizon Task Mirage?”（arXiv:2604.11978）
“Environment Maps”
AutoLab_Frontier_Models_Long-Horizon_Tasks