ベンチマーク（Benchmark）

概要

ベンチマークは、大規模言語モデルや AIエージェントの能力を 標準化された課題セットで測定・比較 する仕組みです。研究フィード（Daily/）には日々多数のベンチマークが登場しており、能力の進歩を定量化すると同時に、何を「能力」とみなすかという問いを投げかけています。LLMの評価の中核的な道具立てです。

ベンチマークが測る能力の例

推論 — 多段演繹、計画、数学（LLMの推論）
エージェント能力 — タスク完了、長期タスク（長期タスク）、リソース配分
ドメイン応用 — 生物学研究、金融（CFO）、ゲーム
マルチモーダル — 音声の忠実性など（マルチモーダルLLM）
人間らしさ — GUIエージェントの人間性、言語のレジスタ（LLMの評価）

設計上の論点

汚染（Contamination） — 評価データが学習データに混入すると無意味に（事前学習のデータ前処理）
システム評価 — モデル単体でなくシステムとして測る（マルチエージェントシステムの MASEval）
指標の限界 — スカラー値だけでは推論過程の質を捉えられない

研究テーマ（Daily フィード）

“LABBench2: An Improved Benchmark for AI Systems Performing Biology Research”
“Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments”
“ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions”
“Turing Test on Screen”（GUIエージェント）
Agents’ Last Exam（ALE） — 250 名超の業界専門家と作る、「長期・経済価値があり・検証可能」な実世界タスクのエージェント評価。1,000 超のタスクを 55 サブ領域・13 産業に整理。主要構成での完全合格率が 1% 未満という難度で、ベンチマーク性能と経済的デプロイの乖離を突く（AIエージェント）。Agents_Last_Exam_ALE_Benchmark
DLawBench — 複数ターンの法律相談で LLM を評価する専門ドメインベンチマーク。法的知識の正確性・一貫した推論・実務適用性を測定（金融AI 同様のドメイン特化評価）。DLawBench_Evaluating_LLMs_Multi_Turn_Legal_Consultation
FinRetrieval — 財務データの正確な取得能力を測る。Claude Opus は構造化 API で 90.8%、ウェブ検索では 19.8% と、取得経路で大きく差が出る（ツール利用 / RAG）。FinRetrieval_Financial_Data_Retrieval_Benchmark
SteerEval（How Controllable Are LLMs?） — 言語特性や性格特性にわたり、振る舞い指示にどれだけ確実に従うか（制御可能性・steerability）を測る（LLMの評価）。How_Controllable_Are_Large_Language_Models
FrontierMath Tier 4 — 最難関の数学ベンチマーク。エージェンティックな数学支援系 AI Co-Mathematician が 48% で当時最高（AI for Science）。AI_Co-Mathematician
AutoLab — 短期応答でなく「長期の反復改善」を測る。システム最適化・モデル開発・CUDA 最適化など36タスクで、成功の鍵は初期品質より粘り強さ。Claude Opus 4.6 が強く、多くのモデルは早期終了・予算枯渇（長期タスク / 自己改善エージェント）。AutoLab_Frontier_Models_Long-Horizon_Tasks
QMFOL — 量化単項一階論理に基づき、複雑性を制御しながら演繹推論タスクを自動生成するフレームワーク。形式論理構造を自動検証付きで自然言語化し、QMFOLBench は960構成×2,880問。論理的複雑性が上がるとモデルは精度低下＋計算オーバーヘッド増（LLMの推論）。QMFOL_Benchmarking_Large_Language_Model_Reasoning
Evaluating Interactive Reasoning — 推論を「能動的な証拠獲得と信念更新」として捉える多ターン対話型ベンチマーク。実行可能ゲーム474本を5段階の難易度で構成し、文脈摂動やメタ認知タスクへの対応を測る（LLMの推論 / メタ認知）。Evaluating_Interactive_Reasoning_in_Large_Language_Models

ベンチマーク（Benchmark）

概要

ベンチマークが測る能力の例

設計上の論点

研究テーマ（Daily フィード）

関連ページ