GPT(Generative Pre-trained Transformer)
概要
GPT は OpenAI が開発した デコーダのみ(Decoder-only) の Transformer に基づく生成型 大規模言語モデル の系列です。大規模テキストで 事前学習 したベースモデルが、追加学習なしに多様なタスクをこなせること、そして規模の拡大とともに性能が向上することを実証し、現在の LLM の設計思想を方向づけました。
モデルの系譜
GPT-2 — Language Models are Unsupervised Multitask Learners(2019)
- WebText と呼ばれる多様なウェブページのデータセットで学習
- 明示的なタスク固有の訓練なしに、質問応答・要約などを実行できる ゼロショットタスク転移 を実証
- モデルサイズが大きくなるほど性能が向上し、いくつかのベンチマークで当時の最先端を達成
- 「十分に大きな言語モデルは、次の単語を予測するよう学習させるだけで複数タスクを学習できる」ことを示唆
GPT-3 — Language Models are Few-Shot Learners(2020)
- 1750億パラメータの大規模モデル
- Few-shot Learning / In-context Learning を実証
- プロンプト設計が性能に大きく影響することを示し、プロンプトエンジニアリング の起点となった
以降
- ChatGPT・GPT-4 など、指示追従と対話に最適化したモデルへ発展
- ファインチューニング(特に RLHF)により指示追従能力を獲得
アーキテクチャ上の特徴
- オリジナルの Transformer のうち デコーダモジュールのみ を実装したシンプルな構成
- 因果的(Causal)な Attention により、過去のトークンのみを参照して次トークンを予測
- 学習目的は 完全言語モデリング(FLM):系列の次トークン予測
意義
- 「規模を拡大すれば創発的能力が現れる」というスケーリングの考え方を広めた
- ファインチューニング不要のタスク適応(In-context Learning)を実用化
- Claude・Gemini など後続の Decoder-only LLM の基本形となった
関連ページ
参考資料
- Radford, A., et al. (2019). “Language Models are Unsupervised Multitask Learners.”
- Brown, T., et al. (2020). “Language Models are Few-Shot Learners.” arXiv:2005.14165.
- Language Models are Unsupervised Multitask Learners
- Language Models are Few-Shot Learners