[Wiki] [一覧]

大規模言語モデル(LLM)

概要

大規模言語モデル(Large Language Model, LLM)は、膨大なテキストデータで学習した大規模なニューラルネットワークであり、人間の言語を理解・生成・翻訳する能力を持ちます。Transformer アーキテクチャを基盤とし、次の単語を予測するというシンプルな学習目的から、要約・翻訳・分類・推論といった多様な創発的能力が立ち現れる点が特徴です。

LLM の登場以前、自然言語処理(NLP)はルールベースのシステムや単純な統計的手法に頼ることが多くありました。LLM はこの分野を一変させ、ディープラーニング主導の新しいアプローチをもたらしました。

学習の2ステップ

現代の LLM は主に2つのステップで訓練されます。

  1. 事前学習(Pre-training)
    • ラベルづけされていない大規模テキストコーパスを使用
    • 文中の次の単語を予測することを学習目的(自己教師あり学習)とする
  2. ファインチューニング(Fine-tuning)
    • ラベルづけされた小さなターゲットデータセットで調整
    • 指示への追従や特定タスク(分類など)への適応を行う

事前学習で得られる ベースモデル は、様々な下流タスクに効率よく適応できます。カスタムデータでファインチューニングした LLM は、特定タスクで汎用 LLM の性能を凌駕することがあります。

アーキテクチャの系譜

オリジナルの Transformer はテキストを解析する エンコーダ と生成する デコーダ で構成されていました。一方、GPT や ChatGPT などのテキスト生成・指示追従向け LLM は、デコーダのみ(Decoder-only) のシンプルな構成を採用しています。

構成代表モデル得意なタスク
Encoder-onlyBERT, RoBERTa分類(2021年以降ほぼ開発されず)
Encoder-DecoderT5翻訳・要約
Decoder-onlyGPT, Claude, Gemini生成・指示追従(主流)

主要な構成要素

実用化への道

歴史的マイルストーン

出来事
2014Seq2Seq によるエンコーダ-デコーダの提案
2015Bahdanau らの Attention 機構
2017Transformer(Attention Is All You Need)
2018GPT / BERT
2019GPT-2(Language Models are Unsupervised Multitask Learners)
2020GPT-3(Few-shot Learning の実証)
2023-現在GPT-4, Claude, Gemini による大規模化と高性能化

参考資料