AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

VoiceCraft：支持克隆语音及修改音频文本的语音模型

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Mar 25, 2024

VoiceCraft是一款新型语音模型，支持克隆语音和修改音频文本。据称其性能超越了XTTS，引起了业界关注。模型具有强大的音频克隆能力和编辑功能，虽未有详细试用报告，但已公开的演示效果显示出了潜力。

VoiceCraft 语音模型音频处理

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

亚马逊推出革命性 AI 语音模型 Nova Sonic，价格更具竞争力！

亚马逊近日发布了其最新的 AI 语音模型 ——Nova Sonic，这一新技术标志着该公司在人工智能语音领域的重要进展。Nova Sonic 能够快速处理语音输入并生成自然流畅的语音输出，其在速度、识别准确性以及对话质量等方面已达到了与 OpenAI 和谷歌等行业领军企业的顶尖水平。与其他 AI 语音模型相比，Nova Sonic 在性价比方面表现突出，价格竟然比 OpenAI 的 GPT-4o 便宜约 80%。这种经济实惠的解决方案无疑为企业开发 AI 应用提供了更具吸引力的选择。Nova Sonic 通过亚马逊 Bedrock 开发者平台进行服务，

2025年4月9号 11:13

1.2k

亚马逊推新一代AI语音模型Nova Sonic，捕捉语气、语调变化和节奏

亚马逊近日推出了一款新型 AI 语音模型 ——Nova Sonic，旨在提升其语音助手 Alexa + 的性能。Nova Sonic 被设计用于本地处理语音并生成自然流畅的回复，标志着亚马逊在语音识别技术领域的又一次突破。Nova Sonic 采取了一种全新的整合方式，将语音理解和生成的能力统一到一个模型中。这一创新不仅简化了语音应用的开发过程，还能根据语音输入的声学背景（如语调和风格）来调整生成的语音响应，从而实现更加自然的对话。Nova Sonic 甚至能够理解人类对话中的细微之处，包括说话者的自然停

2025年4月9号 10:42

3.1k

AI日报：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、阿里通义千问Qwen2.5-Omni登顶全球开源模型榜单2024年4月2日，HuggingFace发布了最新的大模型榜单，阿里巴巴的Qwen2.5-Omni凭借其卓越的性能和多模态能力，成功登顶，成为全球开源模型的领军者。尽管没有进行大规模宣传，这一举措被认为是OpenAI在推动AI教育普及方面的重要一步，受到业内人士的广泛欢迎。

2025年4月2号 15:21

8.3k

MiniMax Audio推Speech- 02语音模型，一次性可以输入20万字符

备受关注的音频技术创新者MiniMax Audio正式发布了其全新的Speech-02系列语音模型，支持30多种语音，一次性可以输入20万字符。为用户带来更真实、更流畅、更便捷的音频体验。全新的Speech-02系列是本次更新的核心亮点。据官方介绍，该系列在多语言覆盖能力上实现了显著提升，能够更准确、更地道地呈现多种语言的发音。更令人惊喜的是，Speech-02的人声相似度高达99%，这意味着合成的语音听起来更加自然、贴近真人. 此外，该模型还实现了零节奏故障，彻底解决了音频播放过程中可能出现的

2025年4月2号 10:34

6.1k

ElevenLabs发布全球首款犬类AI文本转语音模型“Text To Bark”

近日，人工智能音频技术领域的先锋企业ElevenLabs宣布推出全球首款专为犬类设计的AI文本转语音模型“Text To Bark”，引发了科技界和宠物爱好者的广泛关注。这一创新技术号称能够将人类输入的文字转化为高度逼真的狗吠声，据称其真实度之高，甚至有95%的狗无法分辨这些声音是由AI生成而非真实犬类发出的。此举被视为推动人类与宠物之间“沟通”的一次大胆尝试，尽管狗狗可能仍无法理解人类的具体意图，但这一技术至少让人类能够以“狗语”表达自己。据介绍，“Text To Bark”模型的

2025年4月2号 9:52

2.8k

AI日报：OpenAI发布三个新语音模型；快手搜索全面接入DeepSeek R1；Claude上线联网搜索功能

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升OpenAI近期推出了三款新语音模型，分别为:gpt-4o-transcribe，gpt-4o-mini-transcribeandgpt-4o-mini-tts，其中gpt-4o-transcribe备受关注。百川智能还推出了“AI儿科医生”应用，结合国家区域医疗中心，推动人工智能在基层儿科医疗中的应用。

2025年3月21号 15:26

1.0k

Orpheus TTS:情感表达贴近人类的新一代TTS模型

3月19日，一款名为Orpheus TTS的开源文本转语音（TTS）模型正式亮相。这款模型以其接近人类的情感表达、自然流畅的语音效果以及超低延迟的实时输出流特性，迅速引起关注。据悉，Orpheus TTS在实时对话场景中表现出色，有望为智能语音交互带来新突破。Orpheus TTS主打低延迟和高情感表现，其核心特点包括: - **超低延迟**:默认延迟约200毫秒，通过输入流与模型的KV缓存优化，可将延迟压缩至25-50毫秒，满足实时对话需求。 - **情感表达**:语音输出自然流畅，能够贴近人类情感，支持丰富的语

2025年3月20号 10:26

4.2k

谷歌云重磅推出高清语音模型 Chirp 3，支持248种声音

谷歌云在位于伦敦的 DeepMind 总部举行了一场会，正式推出其高清语模型 Chirp3。该模型通过 Vertex AI 统一机器学习平台向开发者开放，提供了丰富的开发工具，助力程序的创新。Chirp3支持248种不同的声音，并可用31种语言进行语音合成。开发者可以利用这一模型创建多种应用，如智能语音助手、有声读物和视频配音等。谷歌表示，Chirp3的语音功能能够捕捉人类语调的细微差别，使得对话更加生动和引人入胜。除了使用现成的语音，用户还可以通过谷歌云的文本转语音 API 创建自定义语音。然

2025年3月18号 9:54

3.4k

播客平台 Podcastle 推出AI文本转语音模型：提供 450 种语音

在快速发展的播客领域，Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。这个新模型不仅为用户提供了超过450种不同的 AI 语音，还向开发者开放了 API 接口，以便于他们将这一文本转语音功能直接集成到自己的应用程序中。Podcastle 的创始人 Arto Yeritsyan 表示，公司一直希望能开发一个文本转语音模型，但由于过去高昂的训练成本和数据需求，这一愿望一直未能实现。然而，随着近年来大型语言模型技术的进步，Podcastle 终于在去年取得了突破，能够在不需要大量数据的情

2025年3月4号 11:19

1.9k

Sesame 发布 CSM 语音模型：跨越“恐怖谷”，逼真程度惊艳全球

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”（简称 CSM）近日在 X 平台上引发热议，被誉为“像真人说话一样的语音模型”。这款模型以其惊艳的自然度和情感表达能力，不仅让用户“已经无法分辨”其与人类的区别，还宣称成功跨越了语音领域的“恐怖谷效应”。随着演示视频和用户反馈的传播，CSM 正迅速成为 AI 语音技术的新标杆。跨越“恐怖谷”:CSM 的技术突破“恐怖谷效应”是指当人工合成的语音或形象接近真实人类但仍存细微差异时，会引发人类的不适感。Sesame 通

2025年3月3号 11:37

6.2k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图