大規模言語モデル(LLM)
概要
大規模言語モデル(Large Language Model, LLM)は、膨大なテキストデータで学習した大規模なニューラルネットワークであり、人間の言語を理解・生成・翻訳する能力を持ちます。Transformer アーキテクチャを基盤とし、次の単語を予測するというシンプルな学習目的から、要約・翻訳・分類・推論といった多様な創発的能力が立ち現れる点が特徴です。
LLM の登場以前、自然言語処理(NLP)はルールベースのシステムや単純な統計的手法に頼ることが多くありました。LLM はこの分野を一変させ、ディープラーニング主導の新しいアプローチをもたらしました。
学習の2ステップ
現代の LLM は主に2つのステップで訓練されます。
- 事前学習(Pre-training)
- ラベルづけされていない大規模テキストコーパスを使用
- 文中の次の単語を予測することを学習目的(自己教師あり学習)とする
- ファインチューニング(Fine-tuning)
- ラベルづけされた小さなターゲットデータセットで調整
- 指示への追従や特定タスク(分類など)への適応を行う
事前学習で得られる ベースモデル は、様々な下流タスクに効率よく適応できます。カスタムデータでファインチューニングした LLM は、特定タスクで汎用 LLM の性能を凌駕することがあります。
アーキテクチャの系譜
オリジナルの Transformer はテキストを解析する エンコーダ と生成する デコーダ で構成されていました。一方、GPT や ChatGPT などのテキスト生成・指示追従向け LLM は、デコーダのみ(Decoder-only) のシンプルな構成を採用しています。
| 構成 | 代表モデル | 得意なタスク |
|---|---|---|
| Encoder-only | BERT, RoBERTa | 分類(2021年以降ほぼ開発されず) |
| Encoder-Decoder | T5 | 翻訳・要約 |
| Decoder-only | GPT, Claude, Gemini | 生成・指示追従(主流) |
主要な構成要素
- Transformer — 基盤アーキテクチャ
- Attention — 入力シーケンス全体への選択的アクセス
- トークン化 — テキストを語彙の単位(トークン)へ変換
- 位置符号化 — 並列処理で失われる位置情報を補う
- 語彙(Vocabulary)と学習目的(FLM / PrefixLM / MLM)
実用化への道
- Few-shot Learning / In-context Learning — 少数例からタスクを学習
- プロンプトエンジニアリング — モデルへの指示設計
- RAG — 外部知識による生成のグラウンディング
- AIエージェント — LLM を中核とした自律的システム
- LLMの評価 — 性能・品質の測定
歴史的マイルストーン
| 年 | 出来事 |
|---|---|
| 2014 | Seq2Seq によるエンコーダ-デコーダの提案 |
| 2015 | Bahdanau らの Attention 機構 |
| 2017 | Transformer(Attention Is All You Need) |
| 2018 | GPT / BERT |
| 2019 | GPT-2(Language Models are Unsupervised Multitask Learners) |
| 2020 | GPT-3(Few-shot Learning の実証) |
| 2023-現在 | GPT-4, Claude, Gemini による大規模化と高性能化 |
参考資料
- つくりながら学ぶ!LLM自作入門(Build A Large Language Model From Scratch)
- 実践 LLM アプリケーション開発 --- プロトタイプを脱却し、実用的な実装に迫るための包括的な手引き
- LLMに関する論文
- Top_Articles_for_LLM