Seq2Seq(Sequence to Sequence)
概要
Seq2Seq(系列から系列への学習)は、Sutskever et al.(2014)が「Sequence to Sequence Learning with Neural Networks」で提案した、エンコーダ-デコーダ 型のニューラルネットワーク手法です。可変長の入力シーケンスを可変長の出力シーケンスへ変換する枠組みであり、機械翻訳をはじめとする系列生成タスクの基礎となりました。Transformer 以前の重要なマイルストーンです。
仕組み
2つの LSTM(長・短期記憶) ネットワークを用います。
- エンコーダ LSTM:入力系列を固定次元のベクトル(文脈ベクトル)に符号化
- デコーダ LSTM:そのベクトルから目的の系列を復号(生成)
入力系列 → [Encoder LSTM] → 固定長ベクトル → [Decoder LSTM] → 出力系列
主な成果
- 英語→フランス語の翻訳タスクで BLEU スコア 34.8 を達成し、当時のフレーズベース統計的機械翻訳を上回った
- ソース文の単語順を逆順にする と性能が向上することを発見(依存関係の距離が縮まるため)
限界とその後の発展
- 入力系列をひとつの 固定長ベクトル に押し込むため、長い文では情報がボトルネックになる
- この制約に対処したのが Attention 機構(Bahdanau et al., 2015)であり、翻訳時に関連するソース文の部分を動的に参照できるようにした
- さらに RNN/LSTM の逐次処理を廃し、Attention のみで構成したのが Transformer(2017)
系譜における位置づけ
Seq2Seq → Attention → Transformer → GPT / 大規模言語モデル
関連ページ
参考資料
- Sutskever, I., Vinyals, O., & Le, Q. V. (2014). “Sequence to Sequence Learning with Neural Networks.” arXiv:1409.3215.
- Sequence to Sequence Learning with Neural Networks