[Wiki] [一覧]

長期タスク(Long-Horizon Tasks)

概要

長期タスク(Long-Horizon Tasks)は、相互に依存する行動を長く連ねて達成する必要があるタスクです。AIエージェント は短〜中期のタスクでは高い性能を示す一方、長期タスクで破綻しやすい ことが知られており、研究フィード(Daily/)でも中心的な課題として現れています。

なぜ破綻するか

対処のアプローチ

持続的な反復改善を測る(AutoLab)

長期タスクの中でも「科学・工学の反復改善プロセス」に焦点を当てたベンチマークが AutoLab です。システム最適化・パズル・モデル開発・CUDA カーネル最適化の4分野36タスクで、フロンティアモデルが長期の自律研究・エンジニアリングを解けるかを測ります。最大の成功要因は 初期段階の品質ではなく、試行錯誤を粘り強く続けることでした。Claude Opus 4.6 が強い長期最適化能力を示す一方、多くの最先端モデルは早期終了するか予算枯渇に陥りました(ベンチマーク / 自己改善エージェント / AI for Science)。AutoLab_Frontier_Models_Long-Horizon_Tasks

研究テーマ(Daily フィード)

関連ページ

参考資料(Daily フィード)