LoRA(Low-Rank Adaptation)
概要
LoRA(Low-Rank Adaptation)は、大規模言語モデル の ファインチューニング を 少数の追加パラメータだけで行う 手法です。元の重みを凍結したまま、低ランクの差分行列だけを学習することで、メモリと計算を大幅に削減します。PEFT(Parameter-Efficient Fine-Tuning, パラメータ効率的微調整) の代表格です。
仕組み
- 重み行列 W は凍結し、その差分を低ランク分解
ΔW = B·A(A, B は小さい行列)として学習 - 学習対象は A, B のみ → 学習パラメータが激減
- 推論時は
W + ΔWを使う(複数の LoRA を差し替え可能)
利点
- 省メモリ・低コスト — フルファインチューニングより遥かに軽い
- 差し替え可能 — タスクごとの小さなアダプタを切り替えられる
- 小型化との親和性 — 量子化 と組み合わせた QLoRA など
研究フィード(Daily/)では、ごく少数のパラメータで推論を学ぶ極端な例(TinyLoRA など)も話題になっています。
関連手法
- PEFT 全般(Prefix Tuning, Adapter など)
- ファインチューニング のフル微調整との対比
- 量子化 / 知識蒸留 と並ぶ効率化技術