スケーリング則(Scaling Laws)
概要
スケーリング則(Scaling Laws)は、大規模言語モデル の性能(損失)が、モデルのパラメータ数・データ量・計算量 に対して予測可能なべき乗則で改善する、という経験的法則です。Kaplan ら(2020)が示し、「大きくすれば賢くなる」という LLM 開発の指針を裏づけました。
何を主張するか
- テスト損失は、パラメータ数 N・データ量 D・計算量 C に対して滑らかなべき乗則で減少する
- どれか一つを増やすだけでは頭打ちになり、バランスが重要
Chinchilla 則(計算最適性)
DeepMind の Chinchilla(2022)は、与えられた計算予算では、モデルサイズとデータ量をバランスよく増やすべき(多くの既存モデルはデータ不足だった)と示しました。これにより「むやみに大きくする」より「データも十分に」という設計へ転換しました。
含意
- 性能向上の投資対効果を見積もれる(基盤モデル 開発の計画)
- 規模拡大に伴い 創発的能力 が現れる
- 一方で、データの枯渇(事前学習 の課題)や、コスト・環境負荷の議論も生む(技術バブル の冷静な視点とも関連)
- 推論時に計算を増やすアプローチ(推論時計算)も性能向上の別軸として注目