ベンチマーク(Benchmark)
概要
ベンチマークは、大規模言語モデル や AIエージェント の能力を 標準化された課題セットで測定・比較 する仕組みです。研究フィード(Daily/)には日々多数のベンチマークが登場しており、能力の進歩を定量化すると同時に、何を「能力」とみなすかという問いを投げかけています。LLMの評価 の中核的な道具立てです。
ベンチマークが測る能力の例
- 推論 — 多段演繹、計画、数学(LLMの推論)
- エージェント能力 — タスク完了、長期タスク(長期タスク)、リソース配分
- ドメイン応用 — 生物学研究、金融(CFO)、ゲーム
- マルチモーダル — 音声の忠実性など(マルチモーダルLLM)
- 人間らしさ — GUIエージェントの人間性、言語のレジスタ(LLMの評価)
設計上の論点
- 汚染(Contamination) — 評価データが学習データに混入すると無意味に(事前学習 のデータ前処理)
- システム評価 — モデル単体でなくシステムとして測る(マルチエージェントシステム の MASEval)
- 指標の限界 — スカラー値だけでは推論過程の質を捉えられない
研究テーマ(Daily フィード)
- “LABBench2: An Improved Benchmark for AI Systems Performing Biology Research”
- “Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments”
- “ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions”
- “Turing Test on Screen”(GUIエージェント)
- Agents’ Last Exam(ALE) — 250 名超の業界専門家と作る、「長期・経済価値があり・検証可能」な実世界タスクのエージェント評価。1,000 超のタスクを 55 サブ領域・13 産業に整理。主要構成での完全合格率が 1% 未満という難度で、ベンチマーク性能と経済的デプロイの乖離を突く(AIエージェント)。Agents_Last_Exam_ALE_Benchmark
- DLawBench — 複数ターンの法律相談で LLM を評価する専門ドメインベンチマーク。法的知識の正確性・一貫した推論・実務適用性を測定(金融AI 同様のドメイン特化評価)。DLawBench_Evaluating_LLMs_Multi_Turn_Legal_Consultation
- FinRetrieval — 財務データの正確な取得能力を測る。Claude Opus は構造化 API で 90.8%、ウェブ検索では 19.8% と、取得経路で大きく差が出る(ツール利用 / RAG)。FinRetrieval_Financial_Data_Retrieval_Benchmark
- SteerEval(How Controllable Are LLMs?) — 言語特性や性格特性にわたり、振る舞い指示にどれだけ確実に従うか(制御可能性・steerability)を測る(LLMの評価)。How_Controllable_Are_Large_Language_Models
- FrontierMath Tier 4 — 最難関の数学ベンチマーク。エージェンティックな数学支援系 AI Co-Mathematician が 48% で当時最高(AI for Science)。AI_Co-Mathematician
- AutoLab — 短期応答でなく「長期の反復改善」を測る。システム最適化・モデル開発・CUDA 最適化など36タスクで、成功の鍵は初期品質より粘り強さ。Claude Opus 4.6 が強く、多くのモデルは早期終了・予算枯渇(長期タスク / 自己改善エージェント)。AutoLab_Frontier_Models_Long-Horizon_Tasks
- QMFOL — 量化単項一階論理に基づき、複雑性を制御しながら演繹推論タスクを自動生成するフレームワーク。形式論理構造を自動検証付きで自然言語化し、QMFOLBench は960構成×2,880問。論理的複雑性が上がるとモデルは精度低下+計算オーバーヘッド増(LLMの推論)。QMFOL_Benchmarking_Large_Language_Model_Reasoning
- Evaluating Interactive Reasoning — 推論を「能動的な証拠獲得と信念更新」として捉える多ターン対話型ベンチマーク。実行可能ゲーム474本を5段階の難易度で構成し、文脈摂動やメタ認知タスクへの対応を測る(LLMの推論 / メタ認知)。Evaluating_Interactive_Reasoning_in_Large_Language_Models