量子化（Quantization）

概要

量子化（Quantization）は、大規模言語モデルの重みや活性値を より少ないビット数の数値で表現 することで、メモリ使用量と計算コストを削減する手法です。FP16 や FP32 を INT8・INT4 などへ落とすことで、モデルを軽量化し、ローカルやエッジでの実行を可能にします。書籍『実践 LLM アプリケーション開発』でも量子化が軽量化手法として取り上げられています。

ねらい

メモリ削減 — 大きなモデルを少ないVRAMで動かす
高速化 — 低ビット演算で推論を速く
省電力・エッジ実行 — ローカルでの LLM 実行（“Can I run AI locally?” のような関心）

種類

学習後量子化（PTQ, Post-Training Quantization） — 学習済みモデルを後から量子化
量子化を考慮した学習（QAT, Quantization-Aware Training） — 量子化前提で学習
重みのみ量子化 / 重み＋活性量子化など

トレードオフ

ビット数を下げるほど軽くなるが、精度が劣化しうる
知識蒸留やプルーニングと組み合わせて、軽量かつ高性能なモデルを得ることが多い

参考資料

実践 LLM アプリケーション開発 --- プロトタイプを脱却し、実用的な実装に迫るための包括的な手引き（11章で量子化を解説）

量子化（Quantization）

概要

ねらい

種類

トレードオフ

関連ページ

参考資料