[Wiki] [一覧]

マルチモーダルLLM(Multimodal LLM)

概要

マルチモーダルLLM(Multimodal Large Language Model)は、テキストに加えて 画像・音声・動画 などの複数モダリティを理解・生成できる 大規模言語モデル です。Transformer の枠組みを画像・音声へ拡張し、モダリティをまたいだ推論を可能にします。GUIエージェント(画面理解)や音声アシスタント(音声AI)の基盤になります。

モダリティの例

技術的アプローチ

評価の論点

理解と生成の統合

近年は、マルチモーダルの「理解」と「生成」を単一モデルで扱う統合アーキテクチャが活発化しています。

研究テーマ(Daily フィード)

関連ページ