Transformer

概要

Transformerは、2017年にVaswani et al.が「Attention Is All You Need」論文で提案したニューラルネットワークアーキテクチャです。自己注意機構（Self-Attention）により、シーケンスの並列処理と長距離依存の処理を実現し、現在のすべての大規模言語モデル（LLM）の基礎となっています。

主な特徴

1. 自己注意機構（Self-Attention）

入力シーケンス内の各要素が他のすべての要素との関係性を計算
並列処理が可能で、RNNより高速
長距離依存を効率的に捉えられる

2. エンコーダ-デコーダ構造

エンコーダ: 入力シーケンスを意味表現に変換
デコーダ: 意味表現から出力シーケンスを生成
機械翻訳やテキスト要約などに適用

3. 位置エンコーディング

シーケンス内での位置情報を埋め込む
注意機構の補完として機能

歴史的影響

年度	モデル	特徴
2017	Transformer（元論文）	基本的なアーキテクチャの提案
2018	BERT	双方向の事前学習を実現
2018	GPT	単方向の生成型言語モデル
2020	GPT-3	Few-shot学習の実証
2023-現在	GPT-4, Claude, Gemini他	大規模化と性能向上

応用分野

機械翻訳
テキスト分類
質問応答システム
大規模言語モデル（LLM）
マルチモーダルモデル（ViT, CLIPなど）

参考資料

Vaswani, A., et al. (2017). “Attention Is All You Need.” Advances in Neural Information Processing Systems.
Attention
Few-shot Learning