近日,总部位于美国加州旧金山的 AI 初创公司 smallest.ai 推出了其新产品 Lightning,一款能够在100毫秒内生成长达10秒音频的文本转语音(TTS)模型。此项技术的进步,使得全球开发者能够构建高仿真度的语音机器人应用,且延迟时间极短,降低了实施成本,提高了应用的可及性。
Lightning 目前支持英语和印地语的多种口音,团队还计划迅速添加更多语言,以满足市场需求。这款模型的定价为每分钟仅需0.02美元(约1.6印度卢比),为语音机器人开发者提供了一种极具成本效益的解决方案,应用的运行成本可控制在每分钟1卢比以下,大幅降低了语音机器人构建的费用,同时扩大了市场的可达性。
与传统的 TTS 模型依赖流媒体和网络套接字,增加服务器负担和复杂的可扩展性不同,Lightning 通过简单的 REST API 设计,使音频在大约100毫秒内交付,避免了持续流媒体带来的服务器压力。这种快速的处理能力和成本效率,使其在语音机器人行业中成为一个显著的替代选择。
Lightning 的产品功能特色可总结为以下几点
1. 速度与效率。号称全球最快的文本转语音,Lightning 模型在100毫秒内生成10秒的超现实音频,实现实时语音合成,满足快速响应需求。
2. 小巧与兼容性。小于1GB 的显存需求,该模型体积小,能够在大多数消费者及边缘设备上轻松运行,降低了硬件要求。
3. 多语言支持。多语言和口音的支持 ,当前支持英语和印地语多种口音,并计划快速增加更多语言,满足全球用户需求。
4. 高度可定制化。风格扩散器 ,使用特殊的风格扩散器,根据用户需求调整音频风格,使生成的语音更加自然、富有情感。
5. 简易集成。REST API 集成,提供简单的 REST API 接口,开发者可快速将闪电模型集成到现有系统中,省去复杂的 WebSocket 连接。
6. 亲民的定价 ,起价为每分钟0.04美元,适合各类企业使用,对于使用量大的企业提供定制化的定价方案。
smallest.ai 由印度理工学院古瓦哈提校友 Sudarshan Kamath 和 Akshat Mandloi 创立。Kamath 表示,smallest.ai 的低价策略得益于他们对数据质量和模型效率的关注。“我们的模型比竞争对手如 ElevenLabs 的小得多,但我们通过高度精炼的数据实现了高质量的语音输出。” 他解释道。
早期获得 Lightning 使用权的语音机器人开发者报告称,他们的运营成本降低了8倍,同时音频质量得到了提升。除了实时的语音机器人应用,Lightning 还可以用于制作有声书和社交媒体内容的配音,如 Instagram 和 YouTube 等平台。非开发者也可以通过 Waves Speech 平台访问 Lightning,体验包括声音克隆和口音转换等功能,这些功能目前处于测试阶段。
Kamath 在与《分析印度杂志》的独家互动中表示:“当我们开始构建时,我们意识到现有的语音机器人所需模型对于印度语言还不够成熟。非英语语言的现有模型根本无法达到生产要求。”
在今年6月,smallest.ai 还推出了 AWAAZ 模型,支持通过短音频片段进行声音克隆,且价格具有竞争力。该模型旨在满足区域语言市场的可扩展应用,并提供企业级的安全性和合规性。当被问及其使命时,Kamath 说:“为什么十亿人并没有每天与 AI 语音进行交流,尽管语音 AI 技术取得了巨大的进步?这是我们努力解决的问题。”
项目入口:https://smallest.ai/blog/lightning-fast-text-to-speech
划重点:
🌟 Lightning 文本转语音模型可在100毫秒内生成音频,支持英语和印地语多种口音,未来将扩展更多语言。
💰 以每分钟仅需0.02美元的低成本,显著降低语音机器人开发者的运营费用。
📱 Lightning 不仅适用于语音机器人,还可用于有声书和社交媒体配音,方便开发者和非开发者使用。