知識蒸留（Knowledge Distillation）

概要

知識蒸留（Knowledge Distillation）は、大きく高性能な 教師モデル（Teacher） の振る舞いを、より小さな 生徒モデル（Student） に学習させて、性能を保ちつつ軽量化する手法です。大規模言語モデルの推論コスト削減や、エッジでの実行を可能にします。書籍『実践 LLM アプリケーション開発』でも蒸留（Distillation）が軽量化手法として触れられています。

仕組み

教師モデルの出力（ソフトラベル、確率分布）や中間表現を、生徒モデルが模倣するよう学習
単なる正解ラベルより豊かな「教師の知識」を伝えられる

LLM での応用

推論能力の蒸留 — 大モデルの Chain-of-Thought 的な推論を小モデルへ移す（例：HEAL）
自己蒸留（Self-Distillation） — モデル自身の出力を使って自らを改善（Apple のコード生成における簡潔な自己蒸留など）
特定信号の蒸留 — ハルシネーション信号を表現へ蒸留する研究（ハルシネーション）

研究テーマ（Daily フィード）

“HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation”
“Weakly Supervised Distillation of Hallucination Signals into Transformer Representations”
“Apple: Embarrassingly Simple Self-Distillation Improves Code Generation”

知識蒸留（Knowledge Distillation）

概要

仕組み

LLM での応用

関連する軽量化技術

研究テーマ（Daily フィード）

関連ページ