マルチモーダルLLM（Multimodal LLM）

概要

マルチモーダルLLM（Multimodal Large Language Model）は、テキストに加えて 画像・音声・動画 などの複数モダリティを理解・生成できる大規模言語モデルです。Transformer の枠組みを画像・音声へ拡張し、モダリティをまたいだ推論を可能にします。GUIエージェント（画面理解）や音声アシスタント（音声AI）の基盤になります。

モダリティの例

画像＋テキスト（Vision-Language） — 画像説明、視覚的質問応答、画面理解
音声＋テキスト（Audio Language Models） — 音声理解・対話・感情認識
動画 — 時系列の視覚情報の理解

技術的アプローチ

各モダリティをエンコーダでベクトル化し、共有表現空間へ写像（埋め込み）
モダリティ間の融合（Fusion）を Attention で行う

評価の論点

音声モデルが入力音声に忠実か（Acoustic Faithfulness）といった、モダリティ特有の評価が必要（LLMの評価 / ベンチマーク）

理解と生成の統合

近年は、マルチモーダルの「理解」と「生成」を単一モデルで扱う統合アーキテクチャが活発化しています。

SenseNova-U1 — NEO-unify アーキテクチャで、画像合成・動作推論・マルチモーダル理解を 1 モデルに統合（SenseNova）。SenseNova_U1_Unifying_Multimodal_Understanding_and_Generation
Cosmos 3（NVIDIA）— 言語・画像・動画・音声・行動系列を「統一 Mixture-of-Transformers」で扱う オムニモーダル世界モデル。Vision-Language・動画生成・世界シミュレーション・ロボット制御を 1 つの基盤に統合し、Physical AI（具体化エージェント）向けの汎用バックボーンを志向。公開時点でオープンソース最高位の text-to-image / image-to-video（基盤モデル）。Cosmos_3_Omnimodal_World_Models_for_Physical_AI
DeepSeek V4 Vision — V4 がネイティブにマルチモーダル化（事前学習段階で画像・動画理解を統合）し、VQA・文脈認識 OCR・マルチモーダル対話に対応。画像あたり約 90 の KV キャッシュエントリで Claude Sonnet 4.6（約 870）の 約 10 倍メモリ効率 とされ、中国勢の AI 価格競争を加速。参考: DeepSeek Introduces Vision

研究テーマ（Daily フィード）

“DEAF: A Benchmark for Diagnostic Evaluation of Acoustic Faithfulness in Audio Language Models”
“Dynamic Fusion-Aware Graph Convolutional Neural Network for Multimodal Emotion Recognition in Conversations”
CORA — マルチモーダル RLVR における「思考」と「回答」のギャップを定量化し橋渡し（強化学習）。CORA_Analyzing_Thinking_Answer_Gap_Multimodal_RLVR
Robust-U1 — 破損した視覚コンテンツをモデル自身が修復・補完する、ロバストな MLLM。ノイズの多い実環境での堅牢性を向上。Robust_U1_MLLMs_Self_Recovering_Corrupted_Visual_Content