快手旗下可灵AI推出首个“音画同出”模型可灵2.6,能同时生成画面、语音、音效和环境氛围,打通音画世界。该模型提供“文生音画”和“图生音画”两种创作路径,用户可通过一句话或图片快速生成完整视频,提升创作体验。
爱诗科技推出PixVerse V5.5(国内版“拍我AI V5.5”),实现全量升级并开放体验。该模型是国内首个支持“多镜头+音画同步一键直出”的AI视频大模型,推动AI生成视频从“单镜头素材”进入“完整叙事短片”阶段。基于自研MVL架构,V5.5能在5-10秒内自动完成脚本拆解、分镜调度及音效生成,显著提升视频制作的完整性与效率。
智谱AI发布清影2.0,支持文本生成1080P高清视频,并集成CogSound模型自动添加音效,实现视听一体创作。该产品被视为国产版“Sora”,为开发者提供创新AI应用工具。
智谱AI推出清影2.0,基于自研CogVideoX模型,可直接生成1080P高清视频,最长10秒。模型全面控制运动、镜头和风格,支持多视频同时生成及镜头指定。实测画质接近Sora,中文提示理解更准、生成更快。还集成CogSound音效模块,实现文本到视频的高效创作。
最新视频生成模型,更真实、可控,支持同步对话与音效。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
walterheart
Bark是由Suno创建的基于Transformer的文本转音频模型,可生成高度逼真的多语言语音、音乐、背景噪音和音效。
facebook
MAGNeT是一款基于非自回归Transformer的文本生成音乐与音效模型,能够根据文本描述生成高质量音频样本。
ylacombe
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
declare-lab
TANGO是基于潜在扩散模型的文本转音频生成工具,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
suno
TANGO是基于指令引导扩散的文本转音频模型,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
该项目通过Model Context Protocol(MCP)让大型语言模型直接理解和生成Max音频处理软件中的音效模块,支持解释、修改和创建音效模块,并提供与LLM的交互界面。