超快速文本转语音模型Lightning：超低延迟， 100毫秒生成10秒音频

近日，总部位于美国加州旧金山的 AI 初创公司 smallest.ai 推出了其新产品 Lightning，一款能够在100毫秒内生成长达10秒音频的文本转语音（TTS）模型。此项技术的进步，使得全球开发者能够构建高仿真度的语音机器人应用，且延迟时间极短，降低了实施成本，提高了应用的可及性。

Lightning 目前支持英语和印地语的多种口音，团队还计划迅速添加更多语言，以满足市场需求。这款模型的定价为每分钟仅需0.02美元（约1.6印度卢比），为语音机器人开发者提供了一种极具成本效益的解决方案，应用的运行成本可控制在每分钟1卢比以下，大幅降低了语音机器人构建的费用，同时扩大了市场的可达性。

与传统的 TTS 模型依赖流媒体和网络套接字，增加服务器负担和复杂的可扩展性不同，Lightning 通过简单的 REST API 设计，使音频在大约100毫秒内交付，避免了持续流媒体带来的服务器压力。这种快速的处理能力和成本效率，使其在语音机器人行业中成为一个显著的替代选择。

Lightning 的产品功能特色可总结为以下几点

1. 速度与效率。号称全球最快的文本转语音，Lightning 模型在100毫秒内生成10秒的超现实音频，实现实时语音合成，满足快速响应需求。

2. 小巧与兼容性。小于1GB 的显存需求，该模型体积小，能够在大多数消费者及边缘设备上轻松运行，降低了硬件要求。

3. 多语言支持。多语言和口音的支持，当前支持英语和印地语多种口音，并计划快速增加更多语言，满足全球用户需求。

4. 高度可定制化。风格扩散器，使用特殊的风格扩散器，根据用户需求调整音频风格，使生成的语音更加自然、富有情感。

5. 简易集成。REST API 集成，提供简单的 REST API 接口，开发者可快速将闪电模型集成到现有系统中，省去复杂的 WebSocket 连接。

6. 亲民的定价，起价为每分钟0.04美元，适合各类企业使用，对于使用量大的企业提供定制化的定价方案。

smallest.ai 由印度理工学院古瓦哈提校友 Sudarshan Kamath 和 Akshat Mandloi 创立。Kamath 表示，smallest.ai 的低价策略得益于他们对数据质量和模型效率的关注。“我们的模型比竞争对手如 ElevenLabs 的小得多，但我们通过高度精炼的数据实现了高质量的语音输出。” 他解释道。

早期获得 Lightning 使用权的语音机器人开发者报告称，他们的运营成本降低了8倍，同时音频质量得到了提升。除了实时的语音机器人应用，Lightning 还可以用于制作有声书和社交媒体内容的配音，如 Instagram 和 YouTube 等平台。非开发者也可以通过 Waves Speech 平台访问 Lightning，体验包括声音克隆和口音转换等功能，这些功能目前处于测试阶段。

Kamath 在与《分析印度杂志》的独家互动中表示:“当我们开始构建时，我们意识到现有的语音机器人所需模型对于印度语言还不够成熟。非英语语言的现有模型根本无法达到生产要求。”

在今年6月，smallest.ai 还推出了 AWAAZ 模型，支持通过短音频片段进行声音克隆，且价格具有竞争力。该模型旨在满足区域语言市场的可扩展应用，并提供企业级的安全性和合规性。当被问及其使命时，Kamath 说:“为什么十亿人并没有每天与 AI 语音进行交流，尽管语音 AI 技术取得了巨大的进步?这是我们努力解决的问题。”

项目入口:https://smallest.ai/blog/lightning-fast-text-to-speech

划重点:
🌟 Lightning 文本转语音模型可在100毫秒内生成音频，支持英语和印地语多种口音，未来将扩展更多语言。
💰 以每分钟仅需0.02美元的低成本，显著降低语音机器人开发者的运营费用。
📱 Lightning 不仅适用于语音机器人，还可用于有声书和社交媒体配音，方便开发者和非开发者使用。