音声AI(Voice AI)
概要
音声AI(Voice AI)は、音声の認識(音声→テキスト)・合成(テキスト→音声)・音声対話を扱う AI 分野です。大規模言語モデル と マルチモーダルLLM の進展により、自然でリアルタイムな音声アシスタントが実現しつつあります。低レイテンシでの応答が体験の鍵になります。
主な構成要素
- 音声認識(ASR) — 音声をテキストに変換
- 言語理解・生成 — LLM が応答を生成
- 音声合成(TTS) — テキストを自然な音声に変換
- 音声対話(Audio Language Models) — 音声を直接扱う統合モデル
技術的な論点
- 低レイテンシ — 会話のテンポを保つためのストリーミング処理・最適化
- 音響的忠実性 — 入力音声に忠実か(マルチモーダルLLM の DEAF ベンチマーク)
- 安全性 — ケアホーム向け音声スマートスピーカーのような安全重視の評価枠組み(AIエージェントの安全性)
事例(Daily フィード)
- (HN)“How OpenAI delivers low-latency voice AI at scale”
- “Evaluating a Multi-Agent Voice-Enabled Smart Speaker for Care Homes: A Safety-Focused Framework”
- dots.tts — 多言語対応の連続自己回帰型 TTS(2B パラメータ)。低遅延音声生成向けの蒸留最適化を施し、リアルタイム・エッジ用途を狙う。dots_tts_Technical_Report