Best AI Websites & Tools
zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
OpenVoiceChat
与大型语言模型进行自然的语音对话
普通产品
聊天
语音识别
文本到语音
打开网站
OpenVoiceChat是一个开源项目,旨在提供一个与大型语言模型(LLM)进行自然语音对话的平台。它支持多种语音识别(STT)、文本到语音(TTS)和LLM模型,允许用户通过语音与AI进行交互。项目采用Apache-2.0许可,强调开放性和易用性,目标是成为封闭商业实现的开源替代品。
网站截图
产品特色
需求人群
使用示例
使用教程
打开网站
支持多种STT、TTS和LLM模型,易于集成和替换。
支持对话中的打断,提供更自然的交流体验。
提供抽象化的API接口,易于使用和扩展。
目标是成为商业闭源解决方案的开源替代。
支持自定义功能和贡献,鼓励社区参与。
持续更新,包含最新的技术改进和功能增强。
目标受众为技术开发者、AI研究者和对自然语言处理有兴趣的用户。他们可以利用OpenVoiceChat快速构建语音交互应用,或在研究中探索LLM的潜力。
开发者使用OpenVoiceChat创建智能家居控制中心,通过语音指令控制家中设备。
教育机构利用该模型开发语言学习应用,帮助学生练习发音和语言理解。
企业集成OpenVoiceChat到客服系统中,提供24/7的AI语音客服服务。
访问OpenVoiceChat的GitHub页面,了解项目详情。
阅读文档,了解如何安装和配置所需的STT、TTS和LLM模型。
根据个人需求修改代码,实现特定功能的定制。
运行main.py文件,开始与LLM进行语音对话。
利用提供的API接口扩展功能,如增加新的语音识别引擎或TTS声音。
打开网站
OpenVoiceChat 替代品
speech-to-speech
— 开源的语音到语音转换模块
编程
•
语音识别
•
自然语言处理
516
WeST
— 300行代码实现基于LLM的语音转录。
编程
•
语音识别
•
自然语言处理
84
OuteTTS
— 一个实验性的文本到语音模型
生产力
•
文本到语音
•
语音合成
582
Tencent-Hunyuan-Large
— 业界领先的开源大型混合专家模型
生产力
•
自然语言处理
•
计算机视觉
198
Transcribro
— Android平台上的私有、设备端语音识别键盘和文字服务
生产力
•
Android
•
语音识别
120
MaskGCT TTS Demo
— 基于MaskGCT模型的文本到语音演示
其他
•
文本到语音
•
深度学习
492
llmc
— 将自然语言描述转化为可执行的shell命令的本地推理命令行工具。
编程
•
命令行工具
•
自然语言处理
60
Knowledge Table
— 开源工具,简化从非结构化文档中提取和探索结构化数据。
编程
•
自然语言处理
•
数据提取
210
Zamba2-7B
— 高效能小型语言模型
生产力
•
语言模型
•
自然语言处理
126
NotesGPT
— AI驱动的语音笔记应用,将语音转换为有组织的摘要和清晰的行动项。
国外精选
•
语音识别
•
笔记管理
318
TurboSeek
— 一个由Together.ai驱动的开源AI搜索引擎。
生产力
•
AI搜索引擎
•
自然语言处理
180
F5-TTS
— 基于深度学习的高质量文本到语音合成模型
生产力
•
文本到语音
•
深度学习
852
Chat with your Database
— 与数据库对话,用自然语言查询数据。
生产力
•
数据库
•
查询
138
SLM_Survey
— 小型语言模型调研、测量与洞察
教育
•
小型语言模型
•
Transformer
30
Reverb
— 开源的语音识别和说话人分割模型推理代码
编程
•
语音识别
•
说话人分割
210
Open NotebookLM
— 将任何PDF转换为播客集!
生产力
•
PDF转换
•
播客制作
318
EMOVA
— 情感丰富的多模态语言模型
其他
•
多模态
•
语音识别
126
OmniSenseVoice
— 极速语音识别,精准时间戳
生产力
•
语音识别
•
时间戳
318
VALL-E 2
— 微软亚洲研究院开发的语音合成技术
生产力
•
语音合成
•
文本到语音
300
Deepgram Voice Agent API
— 实时对话式人工智能,一键式API接入。
编程
•
语音识别
•
语音合成
348
讯飞星火
— 全面对标GPT-4 Turbo的AI大语言模型
中文精选
•
大模型
•
自然语言处理
306
心辰Lingo语音大模型
— 沟通无界,让每次对话都创造价值。
中文精选
•
语音识别
•
自然语言处理
222
Reflection Llama-3.1 70B
— 世界顶尖的开源大型语言模型
生产力
•
大型语言模型
•
自然语言处理
294
OLMoE-1B-7B
— 高效开源的大型语言模型
生产力
•
大型语言模型
•
开源
54
OLMoE
— 开源的专家混合语言模型,具有1.3亿活跃参数。
生产力
•
自然语言处理
•
专家混合模型
30
Aixploria
— AI工具目录,发现最佳AI工具
生产力
•
AI工具
•
AI导航
258
Awesome ChatGPT Prompts
— 一个用于与ChatGPT模型交互的提示集合
生产力
•
ChatGPT
•
自然语言处理
114
RWKV v6 Finch 14B
— RWKV v6 Finch 14B,开源大模型,高效处理长文本。
生产力
•
自然语言处理
•
机器学习
216
Mini-Omni
— 开源多模态大型语言模型,支持实时语音输入和流式音频输出。
生产力
•
多模态
•
语音识别
426