[Wiki] [一覧]

量子化(Quantization)

概要

量子化(Quantization)は、大規模言語モデル の重みや活性値を より少ないビット数の数値で表現 することで、メモリ使用量と計算コストを削減する手法です。FP16 や FP32 を INT8・INT4 などへ落とすことで、モデルを軽量化し、ローカルやエッジでの実行を可能にします。書籍『実践 LLM アプリケーション開発』でも量子化が軽量化手法として取り上げられています。

ねらい

種類

トレードオフ

関連ページ

参考資料