Groq 最新上线了 Whisper Large-V3模型,用户可以在 Playground 或本地项目中使用 API,实现语音转录和翻译功能。该模型支持多种语言的转录,转录速度极快,且支持将其他语言翻译成英文。
Playground链接:https://console.groq.com/playground
目前,用户可以在 Playground 上体验并免费使用该功能,转录一段4分30秒的视频只需要大约3秒的时间。同时,Groq 还提供了 API 接口,用户可以在本地项目中集成使用。
Whisper API的接口设计遵循了与OpenAI的兼容性标准,为用户提供了两个核心功能的访问路径:语音转文本和语音翻译。用户可以轻松地将这些功能集成到自己的应用程序中,无论是开发智能助手还是自动化翻译系统,都能享受到便捷的开发体验。
在性能方面,Whisper API采用了先进的"whisper-large-v3"模型,确保了在语音转文本和翻译任务中的顶尖性能。
此外,API对音频文件的格式和大小也有明确的支持标准,包括mp3、mp4、wav等常见格式,但要求文件大小不超过25MB。特别值得注意的是,对于包含多个音轨的文件,Whisper API将仅处理第一个音轨,这要求用户在上传前进行适当的音频预处理。
为了提高转录的质量和效率,Whisper API在服务端会对音频进行下采样处理,降至16,000Hz的单声道。Groq推荐用户在客户端完成这一预处理步骤,这不仅有助于减小文件体积,还能使得更长的音频文件得以上传和处理。
API 接口:
语音转文本:https://api.groq.com/openai/v1/audio/transcriptions
语音翻译:https://api.groq.com/openai/v1/audio/translations