LLMの評価（Evaluation）

概要

LLMの評価は、大規模言語モデルの性能・品質・適合性を測定するプロセスです。単純な精度メトリックだけでは捉えきれない側面が多く、タスクやコンテキストに応じた多面的な評価が求められます。

論文「How Human-Like Are LLMs?」（How_Human-Like_Are_LLMs_Register-Aware_Evaluation）は、レジスタ（言語の使用場面）を考慮した言語学的評価枠組み を提案しました。

LLM を統計分析に統合する研究も進んでいます。たとえば RCT（ランダム化比較試験）の精度向上に LLM の予測を組み込む方法論（Leveraging_LLMs_Improve_Precision_RCTs）では、予測変数が限定的な場合やテキストデータを扱う場合に精度向上が示されました。

評価をさらに難しくするのが、モデルの振る舞いがデプロイ文脈に依存して変わる点です。

LLMs Contain Multitudes（68 ページの大規模分析）— 単一モデルでも、デプロイ環境や入力文脈によって振る舞い・選好が根本的に変わることを実証。統一的な「性格」を仮定する評価の限界を示し、文脈適応型の評価・設計を促す。LLMs_Contain_Multitudes_Deployment_Context_Model_Preferences
SteerEval（How Controllable Are LLMs?） — モデルが言語特性や性格特性にわたって振る舞い指示に確実に従うか（制御可能性・steerability）を測るベンチマーク。上の「文脈で選好が変わる」問題と表裏で、狙った振る舞いをどこまで安定して引き出せるかを問う。How_Controllable_Are_Large_Language_Models

LLM を評価者（judge）として使う場合、その判断の一貫性自体が問題になります。

SEMJ（Self-Evolving Multilingual Judge） — 多言語モデルが言語ごとに矛盾した判断を出す現象を、ノイズとして捨てるのではなく「補完的な評価シグナル」として活用。入力を多言語化して独立評価を集め、不一致を自己反省と再評価のトリガー にする。投票や反省ベースラインより精度・言語間一貫性が向上する（自己改善エージェントの自己進化とも通じる）。When_Languages_Disagree_Self-Evolving_Multilingual_LLM_Judges