[Wiki] [一覧]

Transformer

概要

Transformerは、2017年にVaswani et al.が「Attention Is All You Need」論文で提案したニューラルネットワークアーキテクチャです。自己注意機構(Self-Attention)により、シーケンスの並列処理と長距離依存の処理を実現し、現在のすべての大規模言語モデル(LLM)の基礎となっています。

主な特徴

1. 自己注意機構(Self-Attention)

2. エンコーダ-デコーダ構造

3. 位置エンコーディング

歴史的影響

年度モデル特徴
2017Transformer(元論文)基本的なアーキテクチャの提案
2018BERT双方向の事前学習を実現
2018GPT単方向の生成型言語モデル
2020GPT-3Few-shot学習の実証
2023-現在GPT-4, Claude, Gemini他大規模化と性能向上

応用分野

参考資料