[Wiki] [一覧]

Attention(アテンション機構)

概要

Attentionは、ニューラルネットワークが入力シーケンスの異なる部分に選択的に焦点を当てるメカニズムです。Bahdanau et al.(2015)によって初めて導入され、現代の深層学習において最も重要な技術の一つとなりました。

歴史的発展

初期のAttention(2015)

「Neural Machine Translation by Jointly Learning to Align and Translate」 (Bahdanau et al., 2015)

Self-Attention/マルチヘッドアテンション(2017)

「Attention Is All You Need」 (Vaswani et al., 2017)

仕組み

基本的な計算過程

  1. Query(Q)、Key(K)、Value(V)の生成: 入力から線形変換で生成
  2. スコア計算: Query と Key の内積で関連度を計算
  3. 正規化: Softmaxで各スコアを0~1に正規化
  4. 出力: スコアで重み付けた Value の合計

数式

Attention(Q, K, V) = softmax(Q * K^T / √d_k) * V

マルチヘッドアテンション

応用と影響

直接の応用

拡張的な応用

計算効率の課題

参考資料