量子化(Quantization)
概要
量子化(Quantization)は、大規模言語モデル の重みや活性値を より少ないビット数の数値で表現 することで、メモリ使用量と計算コストを削減する手法です。FP16 や FP32 を INT8・INT4 などへ落とすことで、モデルを軽量化し、ローカルやエッジでの実行を可能にします。書籍『実践 LLM アプリケーション開発』でも量子化が軽量化手法として取り上げられています。
ねらい
- メモリ削減 — 大きなモデルを少ないVRAMで動かす
- 高速化 — 低ビット演算で推論を速く
- 省電力・エッジ実行 — ローカルでの LLM 実行(“Can I run AI locally?” のような関心)
種類
- 学習後量子化(PTQ, Post-Training Quantization) — 学習済みモデルを後から量子化
- 量子化を考慮した学習(QAT, Quantization-Aware Training) — 量子化前提で学習
- 重みのみ量子化 / 重み+活性量子化 など