Transformer
概要
Transformerは、2017年にVaswani et al.が「Attention Is All You Need」論文で提案したニューラルネットワークアーキテクチャです。自己注意機構(Self-Attention)により、シーケンスの並列処理と長距離依存の処理を実現し、現在のすべての大規模言語モデル(LLM)の基礎となっています。
主な特徴
1. 自己注意機構(Self-Attention)
- 入力シーケンス内の各要素が他のすべての要素との関係性を計算
- 並列処理が可能で、RNNより高速
- 長距離依存を効率的に捉えられる
2. エンコーダ-デコーダ構造
- エンコーダ: 入力シーケンスを意味表現に変換
- デコーダ: 意味表現から出力シーケンスを生成
- 機械翻訳やテキスト要約などに適用
3. 位置エンコーディング
- シーケンス内での位置情報を埋め込む
- 注意機構の補完として機能
歴史的影響
| 年度 | モデル | 特徴 |
|---|---|---|
| 2017 | Transformer(元論文) | 基本的なアーキテクチャの提案 |
| 2018 | BERT | 双方向の事前学習を実現 |
| 2018 | GPT | 単方向の生成型言語モデル |
| 2020 | GPT-3 | Few-shot学習の実証 |
| 2023-現在 | GPT-4, Claude, Gemini他 | 大規模化と性能向上 |
応用分野
- 機械翻訳
- テキスト分類
- 質問応答システム
- 大規模言語モデル(LLM)
- マルチモーダルモデル(ViT, CLIPなど)
参考資料
- Vaswani, A., et al. (2017). “Attention Is All You Need.” Advances in Neural Information Processing Systems.
- Attention
- Few-shot Learning