ElevenLabs全新功能上线，支持打造个性化对话式AI智能体了

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月19号 10:24

292

ElevenLabs 是一家专注于 AI 语音克隆和文本转语音 API 的初创公司，近日宣布推出用户可以构建完整对话式AI智能体的新功能。

用户现在可以在 ElevenLabs 的开发者平台上，依据自己的需求，定制对话智能体的多种变量，比如语音语调和回复长度。

ElevenLabs 过去主要提供不同的语音和文本转语音服务。公司增长主管 Sam Sklar 在接受 TechCrunch 采访时表示，许多客户早已在使用该平台创建对话式AI智能体。但在集成知识库和处理客户中断方面是最大的挑战。因此，ElevenLabs 决定构建一个完整的对话机器人管道，以便简化这一过程。

用户可以通过登录 ElevenLabs 账号，选择模板或创建新项目来开始构建对话智能体。他们可以选择智能体的主要语言、首条消息和系统提示，以确定智能体的个性。

此外，开发者还需选择大型语言模型（如 Gemini、GPT 或 Claude）、响应的温度(决定创意性)以及令牌使用限制。

用户还可以根据自己的需求添加知识库，如文件、URL 或文本块，以增强对话机器人的能力。同时，他们可以将自己的自定义大型语言模型与该机器人集成。ElevenLabs 的 SDK 兼容 Python、JavaScript、React 和 Swift，此外，该公司还提供 WebSocket API，便于进一步定制。

公司还允许用户定义数据收集标准，例如与智能体对话的客户姓名和电子邮件，并使用自然语言定义通话的成功与否评估标准。

ElevenLabs 正在利用其现有的文本转语音管道，同时也在为新对话式人工智能产品开发语音转文本功能。目前，该公司并未单独提供语音转文本 API，但未来可能会推出，从而与谷歌、微软和亚马逊等公司的语音转文本 API 竞争，以及与 OpenAI 的 Whisper、AssemblyAI、Deepgram、Speechmatics 和 Gladia 等专业 API 展开竞争。

该公司计划以超过30亿美元的估值筹集新一轮资金，且正与其他语音 AI 初创企业如 Vapi 和 Retell 展开竞争，这些公司同样在构建对话智能体。更重要的是，ElevenLabs 将与 OpenAI 的实时对话 API 竞争。不过，ElevenLabs 相信其定制化能力和切换模型的灵活性，将使其在竞争中占据优势。

划重点:
💬 ElevenLabs 推出了构建对话式AI智能体的新功能，允许用户自定义多种变量。
📚 用户可以添加知识库以增强智能体能力，并将自定义大型语言模型与之集成。
🚀 ElevenLabs 计划以超过30亿美元的估值筹集资金，并与 OpenAI 等竞争对手展开竞争。

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

在人工智能的快速发展中，语音合成技术正日益受到关注。近日，名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布，该模型具有8200万参数，标志着语音合成领域的一个重要里程碑。Kokoro v0.19在发布之前的几周里，在 TTS（文本转语音）领域的排行榜上位列第一，其表现甚至超过了其他参数更多的模型。这一模型在单声道设置下，仅用不到100小时的音频数据，便实现了与467M 参数的 XTTS v2和1.2B 参数的 MetaVoice 等模型相媲美的效果。这一成就表明，传统语音合成模型的性能与参数、

闪速！ElevenLabs推Flash语音对话模型：仅75毫秒延迟支持32种语言

ElevenLabs 于近日正式推出其最新的人声合成模型 Flash，声称这是迄今为止最快的文本转语音（TTS）解决方案，生成语音的延迟仅为75毫秒(加上应用和网络延迟)。Flash 特别适合低延迟的对话式语音助手，用户可以在 ElevenLabs 的对话 AI 平台上立即体验这一新功能。Flash 模型分为两个版本，其中 Flash v2仅支持英语，而 Flash v2.5则支持32种语言。使用这两种模型时，用户每生成两个字符将消耗1个积分点。尽管 Flash 模型在音质和情感深度上稍逊于 Turbo 模型，但其低延迟性能使其在盲测中超越了其他

海螺AI海外版上线超强AI语音克隆功能 60秒内复刻你的声音

最近，中文 AI 语音克隆技术迎来了一个突破性进展。海螺 AI 海外版推出的音频克隆模块，只需10到60秒的音频样本，便能完美复刻用户的声音。海螺 AI 海外版的音频克隆效果让许多用户感到惊喜，因为以往在中文语音克隆领域，虽然有不少产品，但效果往往不如人意。海螺 AI 的音频克隆功能非常简单易用，支持用户可以创建多个声音模型，用户只要进入“voice”模块，选择创建声音，并上传10秒至60秒长度的音频素材，就能对声音进行克隆。另外，系统支持12种语言，包括中文、粤语、英语

Pocket FM：用 AI 助力音频平台爆发，内容生产不再是个慢活儿！

印度音频平台 Pocket FM 最近大展拳脚，现已拥有超过20万小时的丰富内容。然而，公司的首席执行官 Rohan Nayak 却觉得自己还有更大的提升空间。他认为，Pocket FM 在原创内容的开发以及多种类和子类的扩展方面还有很多可以做的。而实现这一目标的最快方式就是借助 AI 工具，来帮助音频制作、撰写策略，以及将故事适应不同地区。Nayak 在与《TechCrunch》通话时表示:“我觉得我们的内容目录对用户来说还不够丰富。我们的库里缺少很多类型和子类型的内容，尤其是在成熟娱乐的领域中。” 目前

AI新闻资讯