[Wiki] [一覧]

ベンチマーク(Benchmark)

概要

ベンチマークは、大規模言語モデルAIエージェント の能力を 標準化された課題セットで測定・比較 する仕組みです。研究フィード(Daily/)には日々多数のベンチマークが登場しており、能力の進歩を定量化すると同時に、何を「能力」とみなすかという問いを投げかけています。LLMの評価 の中核的な道具立てです。

ベンチマークが測る能力の例

設計上の論点

研究テーマ(Daily フィード)

関連ページ