[Wiki] [一覧]

LLMの評価(Evaluation)

概要

LLMの評価は、大規模言語モデル の性能・品質・適合性を測定するプロセスです。単純な精度メトリックだけでは捉えきれない側面が多く、タスクやコンテキストに応じた多面的な評価が求められます。

なぜ単純なメトリックでは不十分か

論文「How Human-Like Are LLMs?」(How_Human-Like_Are_LLMs_Register-Aware_Evaluation)は、レジスタ(言語の使用場面)を考慮した言語学的評価枠組み を提案しました。

主要な発見

タスクに合わせたモデル選定の観点

実践 LLM アプリケーション開発 --- プロトタイプを脱却し、実用的な実装に迫るための包括的な手引き では、ユースケースに合わせた LLM 選びの観点が整理されています。

エージェントの評価

AIエージェント の評価戦略(Building Applications with AI Agents):

科学研究への応用

LLM を統計分析に統合する研究も進んでいます。たとえば RCT(ランダム化比較試験)の精度向上に LLM の予測を組み込む方法論(Leveraging_LLMs_Improve_Precision_RCTs)では、予測変数が限定的な場合やテキストデータを扱う場合に精度向上が示されました。

文脈で変わるモデルの「選好」

評価をさらに難しくするのが、モデルの振る舞いがデプロイ文脈に依存して変わる点です。

LLM-as-Judge の信頼性

LLM を評価者(judge)として使う場合、その判断の一貫性自体が問題になります。

関連ページ

参考資料