Sketch2Sound
通过时间变化信号和声音模仿生成可控音频的模型
普通产品音乐音频生成声音模仿
Sketch2Sound是一个生成音频的模型,能够从一组可解释的时间变化控制信号(响度、亮度、音高)以及文本提示中创建高质量的声音。该模型能够在任何文本到音频的潜在扩散变换器(DiT)上实现,并且只需要40k步的微调和每个控制一个单独的线性层,使其比现有的方法如ControlNet更加轻量级。Sketch2Sound的主要优点包括从声音模仿中合成任意声音的能力,以及在保持输入文本提示和音频质量的同时,遵循输入控制的大致意图。这使得声音艺术家能够结合文本提示的语义灵活性和声音手势或声音模仿的表现力和精确度来创造声音。
Sketch2Sound 最新流量情况
月总访问量
776
跳出率
39.50%
平均页面访问数
1.2
平均访问时长
00:01:37