Attention（アテンション機構）

概要

Attentionは、ニューラルネットワークが入力シーケンスの異なる部分に選択的に焦点を当てるメカニズムです。Bahdanau et al.（2015）によって初めて導入され、現代の深層学習において最も重要な技術の一つとなりました。

歴史的発展

初期のAttention（2015）

「Neural Machine Translation by Jointly Learning to Align and Translate」 (Bahdanau et al., 2015)

機械翻訳で動的に関連する入力に注目する仕組みを提案
翻訳の各ステップで、入力文の重要な部分を選択的に参照
長い文での翻訳性能が大幅に向上

Self-Attention/マルチヘッドアテンション（2017）

「Attention Is All You Need」 (Vaswani et al., 2017)

同一シーケンス内の要素間の関係を計算
複数の「ヘッド」で並列に異なるパターンを学習
これにより Transformer アーキテクチャが実現

仕組み

基本的な計算過程

Query（Q）、Key（K）、Value（V）の生成: 入力から線形変換で生成
スコア計算: Query と Key の内積で関連度を計算
正規化: Softmaxで各スコアを0～1に正規化
出力: スコアで重み付けた Value の合計

数式

Attention(Q, K, V) = softmax(Q * K^T / √d_k) * V

マルチヘッドアテンション

複数の異なる「視点」で Attention を並列実行
異なるパターンを同時に学習
表現能力が飛躍的に向上

応用と影響

直接の応用

機械翻訳
テキスト要約
質問応答

拡張的な応用

Transformer ベースのすべてのモデル
BERT、GPT、Claudeなど現代のLLM全般
マルチモーダル学習（画像+テキストなど）

計算効率の課題

標準的なAttentionは O(n²) の計算量
長いシーケンスでは計算負荷が増加
解決策: Linear Attention、Sparse Attention、Flash Attentionなどの工夫 → 詳細は効率的なアテンション機構

参考資料

Bahdanau, D., et al. (2015). “Neural Machine Translation by Jointly Learning to Align and Translate.”
Vaswani, A., et al. (2017). “Attention Is All You Need.”
Transformer
Few-shot Learning