GPT（Generative Pre-trained Transformer）

概要

GPT は OpenAI が開発した デコーダのみ（Decoder-only） の Transformer に基づく生成型大規模言語モデルの系列です。大規模テキストで事前学習したベースモデルが、追加学習なしに多様なタスクをこなせること、そして規模の拡大とともに性能が向上することを実証し、現在の LLM の設計思想を方向づけました。

モデルの系譜

GPT-2 — Language Models are Unsupervised Multitask Learners（2019）

WebText と呼ばれる多様なウェブページのデータセットで学習
明示的なタスク固有の訓練なしに、質問応答・要約などを実行できる ゼロショットタスク転移 を実証
モデルサイズが大きくなるほど性能が向上し、いくつかのベンチマークで当時の最先端を達成
「十分に大きな言語モデルは、次の単語を予測するよう学習させるだけで複数タスクを学習できる」ことを示唆

GPT-3 — Language Models are Few-Shot Learners（2020）

1750億パラメータの大規模モデル
Few-shot Learning / In-context Learning を実証
プロンプト設計が性能に大きく影響することを示し、プロンプトエンジニアリングの起点となった

以降

ChatGPT・GPT-4 など、指示追従と対話に最適化したモデルへ発展
ファインチューニング（特に RLHF）により指示追従能力を獲得

アーキテクチャ上の特徴

オリジナルの Transformer のうち デコーダモジュールのみ を実装したシンプルな構成
因果的（Causal）な Attention により、過去のトークンのみを参照して次トークンを予測
学習目的は 完全言語モデリング（FLM）：系列の次トークン予測

意義

「規模を拡大すれば創発的能力が現れる」というスケーリングの考え方を広めた
ファインチューニング不要のタスク適応（In-context Learning）を実用化
Claude・Gemini など後続の Decoder-only LLM の基本形となった

関連ページ

参考資料

Radford, A., et al. (2019). “Language Models are Unsupervised Multitask Learners.”
Brown, T., et al. (2020). “Language Models are Few-Shot Learners.” arXiv:2005.14165.
Language Models are Unsupervised Multitask Learners
Language Models are Few-Shot Learners