[Wiki] [一覧]

プルーニング(Pruning, 枝刈り)

概要

プルーニング(Pruning, 枝刈り)は、大規模言語モデル重要度の低いパラメータ・アテンションヘッド・ニューロンを除去 して、性能をできるだけ保ちながら計算量とメモリを削減する軽量化手法です。量子化(数値精度を落とす)や 知識蒸留(小モデルに知識を移す)と並ぶモデル圧縮技術の一つで、これらと組み合わせて使われることもあります。

重要度の測り方

従来は 大きさ(magnitude)ベース — 値の小さい重みを「重要でない」とみなして削る方法が主流でした。しかしこれは推論タスクでの実際の寄与を反映しないことがあり、近年は 因果的な寄与 を測るアプローチが提案されています。

因果帰属プルーニング(CAP, Daily フィード)

トレードオフ

関連ページ

参考資料