拡散モデル(Diffusion Model)
概要
拡散モデル(Diffusion Model)は、データに少しずつノイズを加える過程(拡散)を学習し、その 逆過程(ノイズ除去)でデータを生成する 生成モデルです。画像生成(Stable Diffusion など)で大きな成功を収め、生成AI の主要技術の一つとなりました。近年は言語生成やゲーム世界の生成にも応用が広がっています。
仕組み(概略)
- 前向き過程 — データに段階的にノイズを加え、最終的にほぼ純粋なノイズにする
- 逆向き過程 — ノイズから少しずつ「ノイズを除去」してデータを復元するよう学習
- 生成時はランダムノイズから出発し、逆過程を辿ってサンプルを生成
自己回帰モデルとの対比
- GPT などの 自己回帰モデル はトークンを左から順に生成
- 拡散モデルは全体を並列に少しずつ精緻化していく
- 両者を組み合わせた 拡散言語モデル(自己回帰的な計画で拡散の推論を改善)も研究されている
応用(Daily フィード)
- “MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines”
- “Multiverse: Language-Conditioned Multi-Game Level Blending”
- “Think First, Diffuse Fast: Improving Diffusion Language Model Reasoning via Autoregressive Plan Conditioning”
- Cola DLM(ByteDance)— 自己回帰型テキスト生成の代替を狙う連続潜在拡散言語モデル。デコード前に 潜在空間で計画 を行ってから生成する。拡散の発想を言語生成に持ち込む試みの一つ(GPT の逐次生成との対比)。Cola_DLM_Continuous_Latent_Diffusion_Language_Model