大規模言語モデル（LLM）

概要

大規模言語モデル（Large Language Model, LLM）は、膨大なテキストデータで学習した大規模なニューラルネットワークであり、人間の言語を理解・生成・翻訳する能力を持ちます。Transformer アーキテクチャを基盤とし、次の単語を予測するというシンプルな学習目的から、要約・翻訳・分類・推論といった多様な創発的能力が立ち現れる点が特徴です。

LLM の登場以前、自然言語処理（NLP）はルールベースのシステムや単純な統計的手法に頼ることが多くありました。LLM はこの分野を一変させ、ディープラーニング主導の新しいアプローチをもたらしました。

学習の2ステップ

現代の LLM は主に2つのステップで訓練されます。

事前学習（Pre-training）
- ラベルづけされていない大規模テキストコーパスを使用
- 文中の次の単語を予測することを学習目的（自己教師あり学習）とする
ファインチューニング（Fine-tuning）
- ラベルづけされた小さなターゲットデータセットで調整
- 指示への追従や特定タスク（分類など）への適応を行う

事前学習で得られる ベースモデル は、様々な下流タスクに効率よく適応できます。カスタムデータでファインチューニングした LLM は、特定タスクで汎用 LLM の性能を凌駕することがあります。

アーキテクチャの系譜

オリジナルの Transformer はテキストを解析する エンコーダ と生成する デコーダ で構成されていました。一方、GPT や ChatGPT などのテキスト生成・指示追従向け LLM は、デコーダのみ（Decoder-only） のシンプルな構成を採用しています。

構成	代表モデル	得意なタスク
Encoder-only	BERT, RoBERTa	分類（2021年以降ほぼ開発されず）
Encoder-Decoder	T5	翻訳・要約
Decoder-only	GPT, Claude, Gemini	生成・指示追従（主流）

主要な構成要素

Transformer — 基盤アーキテクチャ
Attention — 入力シーケンス全体への選択的アクセス
トークン化 — テキストを語彙の単位（トークン）へ変換
位置符号化 — 並列処理で失われる位置情報を補う
語彙（Vocabulary）と学習目的（FLM / PrefixLM / MLM）

実用化への道

Few-shot Learning / In-context Learning — 少数例からタスクを学習
プロンプトエンジニアリング — モデルへの指示設計
RAG — 外部知識による生成のグラウンディング
AIエージェント — LLM を中核とした自律的システム
LLMの評価 — 性能・品質の測定

歴史的マイルストーン

年	出来事
2014	Seq2Seq によるエンコーダ-デコーダの提案
2015	Bahdanau らの Attention 機構
2017	Transformer（Attention Is All You Need）
2018	GPT / BERT
2019	GPT-2（Language Models are Unsupervised Multitask Learners）
2020	GPT-3（Few-shot Learning の実証）
2023-現在	GPT-4, Claude, Gemini による大規模化と高性能化

参考資料

つくりながら学ぶ！LLM自作入門（Build A Large Language Model From Scratch）
実践 LLM アプリケーション開発 --- プロトタイプを脱却し、実用的な実装に迫るための包括的な手引き
LLMに関する論文
Top_Articles_for_LLM