Attention(アテンション機構)
概要
Attentionは、ニューラルネットワークが入力シーケンスの異なる部分に選択的に焦点を当てるメカニズムです。Bahdanau et al.(2015)によって初めて導入され、現代の深層学習において最も重要な技術の一つとなりました。
歴史的発展
初期のAttention(2015)
「Neural Machine Translation by Jointly Learning to Align and Translate」 (Bahdanau et al., 2015)
- 機械翻訳で動的に関連する入力に注目する仕組みを提案
- 翻訳の各ステップで、入力文の重要な部分を選択的に参照
- 長い文での翻訳性能が大幅に向上
Self-Attention/マルチヘッドアテンション(2017)
「Attention Is All You Need」 (Vaswani et al., 2017)
- 同一シーケンス内の要素間の関係を計算
- 複数の「ヘッド」で並列に異なるパターンを学習
- これにより Transformer アーキテクチャが実現
仕組み
基本的な計算過程
- Query(Q)、Key(K)、Value(V)の生成: 入力から線形変換で生成
- スコア計算: Query と Key の内積で関連度を計算
- 正規化: Softmaxで各スコアを0~1に正規化
- 出力: スコアで重み付けた Value の合計
数式
Attention(Q, K, V) = softmax(Q * K^T / √d_k) * V
マルチヘッドアテンション
- 複数の異なる「視点」で Attention を並列実行
- 異なるパターンを同時に学習
- 表現能力が飛躍的に向上
応用と影響
直接の応用
- 機械翻訳
- テキスト要約
- 質問応答
拡張的な応用
- Transformer ベースのすべてのモデル
- BERT、GPT、Claudeなど現代のLLM全般
- マルチモーダル学習(画像+テキストなど)
計算効率の課題
- 標準的なAttentionは O(n²) の計算量
- 長いシーケンスでは計算負荷が増加
- 解決策: Linear Attention、Sparse Attention、Flash Attentionなどの工夫 → 詳細は 効率的なアテンション機構
参考資料
- Bahdanau, D., et al. (2015). “Neural Machine Translation by Jointly Learning to Align and Translate.”
- Vaswani, A., et al. (2017). “Attention Is All You Need.”
- Transformer
- Few-shot Learning