マルチモーダルLLM(Multimodal LLM)
概要
マルチモーダルLLM(Multimodal Large Language Model)は、テキストに加えて 画像・音声・動画 などの複数モダリティを理解・生成できる 大規模言語モデル です。Transformer の枠組みを画像・音声へ拡張し、モダリティをまたいだ推論を可能にします。GUIエージェント(画面理解)や音声アシスタント(音声AI)の基盤になります。
モダリティの例
- 画像+テキスト(Vision-Language) — 画像説明、視覚的質問応答、画面理解
- 音声+テキスト(Audio Language Models) — 音声理解・対話・感情認識
- 動画 — 時系列の視覚情報の理解
技術的アプローチ
評価の論点
理解と生成の統合
近年は、マルチモーダルの「理解」と「生成」を単一モデルで扱う統合アーキテクチャが活発化しています。
- SenseNova-U1 — NEO-unify アーキテクチャで、画像合成・動作推論・マルチモーダル理解を 1 モデルに統合(SenseNova)。SenseNova_U1_Unifying_Multimodal_Understanding_and_Generation
- Cosmos 3(NVIDIA)— 言語・画像・動画・音声・行動系列を「統一 Mixture-of-Transformers」で扱う オムニモーダル世界モデル。Vision-Language・動画生成・世界シミュレーション・ロボット制御を 1 つの基盤に統合し、Physical AI(具体化エージェント)向けの汎用バックボーンを志向。公開時点でオープンソース最高位の text-to-image / image-to-video(基盤モデル)。Cosmos_3_Omnimodal_World_Models_for_Physical_AI
- DeepSeek V4 Vision — V4 がネイティブにマルチモーダル化(事前学習段階で画像・動画理解を統合)し、VQA・文脈認識 OCR・マルチモーダル対話に対応。画像あたり約 90 の KV キャッシュエントリで Claude Sonnet 4.6(約 870)の 約 10 倍メモリ効率 とされ、中国勢の AI 価格競争を加速。参考: DeepSeek Introduces Vision
研究テーマ(Daily フィード)
- “DEAF: A Benchmark for Diagnostic Evaluation of Acoustic Faithfulness in Audio Language Models”
- “Dynamic Fusion-Aware Graph Convolutional Neural Network for Multimodal Emotion Recognition in Conversations”
- CORA — マルチモーダル RLVR における「思考」と「回答」のギャップを定量化し橋渡し(強化学習)。CORA_Analyzing_Thinking_Answer_Gap_Multimodal_RLVR
- Robust-U1 — 破損した視覚コンテンツをモデル自身が修復・補完する、ロバストな MLLM。ノイズの多い実環境での堅牢性を向上。Robust_U1_MLLMs_Self_Recovering_Corrupted_Visual_Content