Best AI Websites & Tools
zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
OpenVoiceChat
与大型语言模型进行自然的语音对话
普通产品
聊天
语音识别
文本到语音
打开网站
OpenVoiceChat是一个开源项目,旨在提供一个与大型语言模型(LLM)进行自然语音对话的平台。它支持多种语音识别(STT)、文本到语音(TTS)和LLM模型,允许用户通过语音与AI进行交互。项目采用Apache-2.0许可,强调开放性和易用性,目标是成为封闭商业实现的开源替代品。
网站截图
产品特色
需求人群
使用示例
使用教程
社交网络
打开网站
支持多种STT、TTS和LLM模型,易于集成和替换。
支持对话中的打断,提供更自然的交流体验。
提供抽象化的API接口,易于使用和扩展。
目标是成为商业闭源解决方案的开源替代。
支持自定义功能和贡献,鼓励社区参与。
持续更新,包含最新的技术改进和功能增强。
目标受众为技术开发者、AI研究者和对自然语言处理有兴趣的用户。他们可以利用OpenVoiceChat快速构建语音交互应用,或在研究中探索LLM的潜力。
开发者使用OpenVoiceChat创建智能家居控制中心,通过语音指令控制家中设备。
教育机构利用该模型开发语言学习应用,帮助学生练习发音和语言理解。
企业集成OpenVoiceChat到客服系统中,提供24/7的AI语音客服服务。
访问OpenVoiceChat的GitHub页面,了解项目详情。
阅读文档,了解如何安装和配置所需的STT、TTS和LLM模型。
根据个人需求修改代码,实现特定功能的定制。
运行main.py文件,开始与LLM进行语音对话。
利用提供的API接口扩展功能,如增加新的语音识别引擎或TTS声音。
打开网站
OpenVoiceChat 替代品
speech-to-speech
— 开源的语音到语音转换模块
编程
•
语音识别
•
自然语言处理
588
WeST
— 300行代码实现基于LLM的语音转录。
编程
•
语音识别
•
自然语言处理
132
FireRedASR-AED-L
— 开源工业级自动语音识别模型,支持普通话、方言和英语,性能卓越。
生产力
•
语音识别
•
开源
72
FireRedASR
— 开源的工业级普通话自动语音识别模型,支持多种应用场景。
生产力
•
语音识别
•
开源
108
RAG-FiT
— RAG-FiT是一个用于提升LLMs利用外部信息能力的库,通过特别创建的RAG增强数据集对模型进行微调。
编程
•
自然语言处理
•
模型微调
84
s1-32B
— s1是一个基于Qwen2.5-32B-Instruct微调的推理模型,仅用1000个样本进行训练。
生产力
•
文本生成
•
推理模型
336
node-DeepResearch
— 持续搜索和阅读网页,直到找到答案(或超出token预算)。
编程
•
深度学习
•
信息检索
156
Tülu 3 405B
— Tülu 3 405B 是一个大规模开源语言模型,通过强化学习提升性能。
编程
•
自然语言处理
•
开源
522
Open R1
— 这是一个完全开放的 DeepSeek-R1 模型的复现项目,旨在帮助开发者复现和构建基于 R1 的模型。
生产力
•
深度学习
•
自然语言处理
1008
Janus-Pro-1B
— Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
图像
•
多模态
•
图像生成
504
SpeechGPT 2.0-preview
— 首个面向语境智能的人类级实时交互系统,支持多情感、多风格语音交互。
聊天
•
语音交互
•
自然语言处理
108
Baichuan-M1-14B
— 百川智能开发的专为医疗场景优化的开源大语言模型,具备卓越的通用能力和医疗领域性能。
生产力
•
大语言模型
•
医疗
270
DeepSeek-R1-Distill-Qwen-1.5B
— DeepSeek-R1-Distill-Qwen-1.5B 是一款高效推理的开源语言模型,适用于多种自然语言处理任务。
编程
•
自然语言处理
•
强化学习
3642
RealtimeSTT
— 一个具有先进语音活动检测、唤醒词激活和即时转录功能的稳健、高效、低延迟的语音到文本库。
生产力
•
语音识别
•
实时转录
198
xiaozhi-esp32
— 基于ESP32的AI聊天机器人项目,可实现多语言对话与声纹识别
编程
•
聊天机器人
•
ESP32
384
YuLan-Mini
— 一款高效率的2.4亿参数轻量级语言模型
编程
•
语言模型
•
自然语言处理
126
DeepSeek-V3
— 一款具有671B参数的Mixture-of-Experts语言模型。
中文精选
•
自然语言处理
•
深度学习
13992
Robo Blogger
— 将语音转换为博客文章的助手
写作
•
自然语言处理
•
内容创作
168
Moonshine Web
— 实时浏览器端语音识别应用
编程
•
语音识别
•
自动语音识别
156
OmniAudio-2.6B
— 世界上最快的边缘部署音频语言模型
生产力
•
音频处理
•
边缘计算
132
Megrez-3B-Omni
— 端侧全模态理解开源模型
生产力
•
全模态理解
•
图像识别
150
Q-RWKV-6 32B Instruct Preview
— 最强大的RWKV模型变体,打破多项英语基准测试。
编程
•
机器学习
•
自然语言处理
84
OLMo-2-1124-7B-SFT
— 高性能英文文本生成模型
生产力
•
文本生成
•
自然语言处理
48
OLMo 2 7B
— 7B参数的大型语言模型,提升自然语言处理能力
编程
•
大型语言模型
•
自然语言处理
66
Ai2 OpenScholar
— 科学文献综合检索增强型语言模型
生产力
•
科学文献
•
检索增强
60
Llama-3.1-Tulu-3-8B-RM
— 先进的指令遵循模型,提供全面后训练技术指南。
编程
•
自然语言处理
•
后训练技术
12
Llama-3.1-Tulu-3-70B-SFT
— 领先的指令遵循模型家族,提供开源数据、代码和指南。
编程
•
自然语言处理
•
文本生成
18
Llama-3.1-Tulu-3-8B-DPO
— 先进的文本生成模型,支持多样化任务
编程
•
文本生成
•
自然语言处理
66
playwright-ai
— 使用Anthropic API进行Playwright测试的AI工具
编程
•
Playwright
•
自动化测试
216