BERT
概要
BERT(Bidirectional Encoder Representations from Transformers)は、Google が2018年に発表した、Transformer の エンコーダのみ(Encoder-only) を用いた言語モデルです。文脈を 双方向 に捉える事前学習により、文の理解・分類タスクで当時の最先端を更新し、GPT と並んで現代 大規模言語モデル の出発点となりました。
特徴
- 双方向の文脈理解 — ある単語を、左右両方の文脈から理解する
- エンコーダのみ — 生成ではなく「理解・表現」に強い(大規模言語モデル のアーキテクチャ比較を参照)
事前学習タスク
- マスク言語モデリング(MLM) — 文中の一部を隠し、その単語を予測する(事前学習 の学習目的の一つ)
- 次文予測(NSP) — 2文が連続しているかを判定
GPT との対比
| BERT | GPT | |
|---|---|---|
| 構成 | Encoder-only | Decoder-only |
| 文脈 | 双方向 | 単方向(因果的) |
| 得意 | 分類・抽出・理解 | 生成・対話 |
近年は生成系(Decoder-only)が主流となり、エンコーダのみのモデルは「時代遅れ」との見方もありますが、埋め込み や検索・分類では依然有用です。
関連ページ
参考資料
- つくりながら学ぶ!LLM自作入門(Encoder-only / MLM の解説)