声控未来！全新AI模型Sketch2Sound仅凭声音模仿和文本提示，即可生成高品质音频

用一段简单的哼唱、一段节奏的敲击，就能让AI生成一段高品质的音乐或音效，这不再是幻想。一项名为Sketch2Sound的创新研究成果，展示了一种全新的AI模型，它可以通过声音模仿和文本提示来生成高质量的音频，为声音创作领域带来了革命性的突破。

Sketch2Sound的核心技术在于，它能够从任何声音模仿（如人声模仿或参考声音）中提取出三个关键的、随时间变化的控制信号:响度、亮度(频谱质心)和音高。这些控制信号被编码后，会被添加到用于文本到声音生成的潜在扩散模型中，从而引导AI生成符合特定要求的声音。

这项技术最令人称道的地方在于它的轻量化和高效性。Sketch2Sound建立在现有的文本到音频潜在扩散模型之上，只需进行4万步的微调，并且每个控制信号仅需一个线性层，相比其他方法（如ControlNet）更加简洁高效。为了让模型能够从“草图”般的声音模仿中进行合成，研究人员在训练过程中还对控制信号应用了随机中值滤波器，使其能够适应具有灵活时间特性的控制信号。实验结果表明，Sketch2Sound不仅能合成出符合输入控制信号的声音，还能保持对文本提示的遵从，并达到与纯文本基线相当的音频质量。

Sketch2Sound为声音艺术家提供了一种全新的创作方式。他们可以利用文本提示的语义灵活性，结合声音姿态或模仿的表达性和精确性，来创造出前所未有的声音作品。这类似于传统Foley艺术家通过操作物体来制造音效，而Sketch2Sound则通过声音模仿来引导声音生成，为声音创作带来了“人性化”的触感，提高了声音作品的艺术价值。

与传统的文本到音频交互方式相比，Sketch2Sound能够克服其局限性。以往，声音设计师需要花费大量时间调整生成声音的时间特性，使其与视觉效果同步，而Sketch2Sound则可以通过声音模仿来自然地实现这种同步，并且不仅仅局限于人声模仿，任何类型的声音模仿都可以用来驱动这个生成模型。

研究人员还开发了一种技术，通过在训练过程中应用不同窗口大小的中值滤波器来调整控制信号的时间细节。这使得声音艺术家能够控制生成模型对控制信号时间精确度的遵循程度，从而提高那些难以完美模仿的声音的质量。在实际应用中，用户可以通过调整中值滤波器的大小，在严格遵守声音模仿和保证音频质量之间找到平衡。

Sketch2Sound的工作原理是，首先从输入音频信号中提取响度、频谱质心和音高三个控制信号。然后，将这些控制信号与文本到声音模型中的潜在信号对齐，并通过简单的线性投影层调节潜在扩散模型，最终生成符合要求的声音。实验结果显示，通过时变控制信号调节模型可以显著提高对该信号的遵守度，同时对音频质量和文本遵从度的影响微乎其微。

值得一提的是，研究人员还发现，控制信号可以操纵生成信号的语义。例如，在使用文本提示“森林氛围”时，如果在声音模仿中加入随机的响度爆发，模型就可以在这些响度爆发中合成鸟鸣声，而无需额外提示“鸟类”，这表明模型已经学会了响度爆发和鸟类存在之间的关联。

当然，Sketch2Sound也存在一些局限性，例如质心控制可能会将输入声音模仿的房间音调融入到生成的音频中，这可能是因为当输入音频中没有声音事件时，房间音调是由质心编码的。

总而言之，Sketch2Sound是一个强大的生成声音模型，它可以通过文本提示和时变控制（响度、亮度、音高）来生成声音。它能够通过声音模仿和“草图”式控制曲线来生成声音，并且具有轻量化、高效率的特点，为声音艺术家提供了一种可控、姿态化和富有表现力的工具，能够生成具有灵活时间特性的任意声音，未来在音乐创作、游戏音效设计等领域具有广阔的应用前景。

论文地址：https://arxiv.org/pdf/2412.08550