阿里通义Qwen团队发布新版Qwen3-Omni-Flash-2025-12-01,作为新一代全模态大模型,能高效处理文本、图像、音频和视频输入,实现实时流式响应,生成文本与自然语音输出。升级重点提升了音视频交互体验,增强了对音视频指令的理解和执行能力,优化了口语化场景中的表现。
阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01,支持文本、图像、音频和视频的无缝输入,并能实时流式同步生成高质量文本与自然语音,语音自然度接近真人。该模型采用实时流式架构,支持119种文本语言交互。
Meta收购AI可穿戴设备公司Limitless,其智能吊坠支持语音交互、实时录音转录和语音搜索,旨在提升用户专注力和记忆力。Limitless团队将加入Meta开发下一代AI硬件,此前Meta已进行战略调整。
理想汽车发布AI眼镜Livis,搭载自研AI助手“理想同学”,支持语音交互、实时翻译等功能,售价1999元起。
提供语音、视频和聊天API,用于实时交互,加速应用增长。
首个面向语境智能的人类级实时交互系统,支持多情感、多风格语音交互。
VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型
实时语音交互数字人,支持端到端语音方案
Anthropic
$7
Input tokens/M
$35
Output tokens/M
200
Context Length
Google
$2.1
$17.5
1k
$0.7
$2.8
Alibaba
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
-
Bytedance
$0.8
$2
128
$0.15
$1.5
256
Baidu
Openai
$0.35
400
$2.4
$12
8
Tencent
32
$3
$9
$1.6
$10
$6
$6.4
maitrix-org
Voila是一个大型语音-语言基础模型家族,旨在提升人机交互体验,支持实时、低延迟的语音交互和多语言处理。
VITA-MLLM
VITA-1.5是一个多模态交互模型,旨在实现GPT-4o级别的实时视觉与语音交互能力。
一个支持与Claude等LLM进行语音交互的MCP服务器,只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。