BERT

概要

BERT（Bidirectional Encoder Representations from Transformers）は、Google が2018年に発表した、Transformer の エンコーダのみ（Encoder-only） を用いた言語モデルです。文脈を 双方向 に捉える事前学習により、文の理解・分類タスクで当時の最先端を更新し、GPT と並んで現代大規模言語モデルの出発点となりました。

特徴

双方向の文脈理解 — ある単語を、左右両方の文脈から理解する
エンコーダのみ — 生成ではなく「理解・表現」に強い（大規模言語モデルのアーキテクチャ比較を参照）

事前学習タスク

マスク言語モデリング（MLM） — 文中の一部を隠し、その単語を予測する（事前学習の学習目的の一つ）
次文予測（NSP） — 2文が連続しているかを判定

GPT との対比

	BERT	GPT
構成	Encoder-only	Decoder-only
文脈	双方向	単方向（因果的）
得意	分類・抽出・理解	生成・対話

近年は生成系（Decoder-only）が主流となり、エンコーダのみのモデルは「時代遅れ」との見方もありますが、埋め込みや検索・分類では依然有用です。

参考資料

つくりながら学ぶ！LLM自作入門（Encoder-only / MLM の解説）

BERT

概要

特徴

事前学習タスク

GPT との対比

関連ページ

参考資料