国产大模型Skywork发布移动端APP5.0,支持iOS和安卓。新版核心亮点是实现了“多Agent并行协作”功能,用户通过一句话语音笔记即可快速生成结构化要点、行动清单、脑图,并同步启动多个Agent一键制作PPT、社交媒体文案、播客脚本和宣传海报,显著提升了移动端AI生产力体验。
Google推出Gemini 2.5 Flash与Pro文本转语音预览模型,全面升级5月旧版。新模型支持24种语言的多角色对话,具备“情绪级”表达和自适应节奏功能,用户可一键切换“欢快乐观”或“阴郁严肃”等音色。开发者现可在Google AI Studio与Playground免费测试,预计2025年第一季度投入生产,适用于有声书、游戏NPC及本地化课程等场景。
Pebble创始人推出AI智能戒指Index01,售价75美元。用户按压戒指按钮即可快速记录备忘,无需依赖始终在线的AI设备。戒指通过手机上的开源语音转文本模型实现AI功能。
谷歌宣布与三星等合作,将于2026年推出两款AI眼镜:无屏版和单目显示版,均搭载Gemini模型。无屏版外观如普通眼镜,内置摄像头和音频设备,支持拍照、语音交互及环境识别功能。
AI音频API,提供文本转语音、语音克隆和声音转换功能。
DialLink是一个易于使用的云电话系统,为中小型企业和初创企业提供AI语音代理功能,自动化电话以提高客户满意度和推动增长。
Orate 是一个专注于语音的 AI 工具包,支持文本转语音、语音转文本等功能。
AI ContentCraft 是一个多功能内容创作工具,集成了文本生成、语音合成和图像生成能力。
Alibaba
-
Input tokens/M
Output tokens/M
Context Length
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
Baidu
Tencent
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
MCP服务工具集合,提供Hugging Face和Dify的AI服务API调用功能,支持多种NLP、CV和语音处理任务。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具,专门用于让AI模型(如Claude)管理TeamSpeak语音服务器。它提供39种功能工具,涵盖用户管理、频道控制、权限配置等全方位操作,支持多种部署方式(PyPI/Docker/本地),实现自动化TeamSpeak管理。
一个基于ClickSend API的MCP服务器,提供短信发送和文本转语音电话功能,支持AI模型程序化操作通讯服务。
一个基于Electron的Perplexity AI桌面应用,具备完整系统权限和功能,包括剪贴板操作、拖放功能、语音媒体权限等。
一个专为AI模拟面试场景设计的MCP服务器,提供交互式语音面试练习功能
Minimax MCP Tools是一个集成Minimax API的MCP服务器实现,提供AI图像生成和文本转语音功能,支持与Windsurf编辑器无缝集成。
Minimax MCP Tools是一个集成Minimax AI能力的MCP服务器实现,提供图像生成和文本转语音功能。
一个为macOS提供全面音频播放功能的MCP服务器,支持系统声音、文本转语音和自定义音频文件播放,适用于AI助手等MCP客户端。
一个基于Resemble AI语音生成API的服务器实现,支持通过MCP协议与Claude和Cursor集成,提供文本转语音功能。
一个基于Streamlit的智能聊天机器人,使用GPT-4o自动路由用户请求到不同工具(如聊天、图像生成、数据库查询、语音合成等),支持快速实验AI工具路由功能。
AI-StoryLab是一个基于Next.js的智能故事创作平台,提供故事生成、语音合成、音效添加和绘图提示词生成功能,支持中英文内容创作。
Tavus MCP服务器是一个基于Model Context Protocol的AI视频生成服务接口,提供完整的Tavus API v2功能,包括AI数字人创建、视频生成、对话式AI、唇形同步和语音合成等25个工具。
AivisSpeech的MCP协议服务器实现,提供与AivisSpeech Engine的接口,支持AI助手的语音合成功能。
这是一个MCP服务器项目,提供通过WhatsApp发送接收语音消息并与AI客户端Claude Desktop交互的功能。
Vavicky MCP服务器是一个完整的语音AI代理平台实现,提供用户管理、API密钥配置、助手管理、Twilio集成和通信功能,支持通过Claude桌面客户端进行交互。
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能,支持音色、音量、语速等参数调整。