音声AI（Voice AI）

概要

音声AI（Voice AI）は、音声の認識（音声→テキスト）・合成（テキスト→音声）・音声対話を扱う AI 分野です。大規模言語モデルとマルチモーダルLLM の進展により、自然でリアルタイムな音声アシスタントが実現しつつあります。低レイテンシでの応答が体験の鍵になります。

（HN）“How OpenAI delivers low-latency voice AI at scale”
“Evaluating a Multi-Agent Voice-Enabled Smart Speaker for Care Homes: A Safety-Focused Framework”
dots.tts — 多言語対応の連続自己回帰型 TTS（2B パラメータ）。低遅延音声生成向けの蒸留最適化を施し、リアルタイム・エッジ用途を狙う。dots_tts_Technical_Report