知識蒸留(Knowledge Distillation)
概要
知識蒸留(Knowledge Distillation)は、大きく高性能な 教師モデル(Teacher) の振る舞いを、より小さな 生徒モデル(Student) に学習させて、性能を保ちつつ軽量化する手法です。大規模言語モデル の推論コスト削減や、エッジでの実行を可能にします。書籍『実践 LLM アプリケーション開発』でも蒸留(Distillation)が軽量化手法として触れられています。
仕組み
- 教師モデルの出力(ソフトラベル、確率分布)や中間表現を、生徒モデルが模倣するよう学習
- 単なる正解ラベルより豊かな「教師の知識」を伝えられる
LLM での応用
- 推論能力の蒸留 — 大モデルの Chain-of-Thought 的な推論を小モデルへ移す(例:HEAL)
- 自己蒸留(Self-Distillation) — モデル自身の出力を使って自らを改善(Apple のコード生成における簡潔な自己蒸留など)
- 特定信号の蒸留 — ハルシネーション信号を表現へ蒸留する研究(ハルシネーション)
関連する軽量化技術
- 量子化 — 数値精度を落として軽量化
- プルーニング — 重要度の低いパラメータ・ヘッドを除去して軽量化
- 小型モデルの ファインチューニング — 用途特化で効率化
研究テーマ(Daily フィード)
- “HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation”
- “Weakly Supervised Distillation of Hallucination Signals into Transformer Representations”
- “Apple: Embarrassingly Simple Self-Distillation Improves Code Generation”