在 AI 时代,大型语言模型(LLM)就像武林秘籍,其训练过程耗费巨大算力、数据,就像闭关修炼多年的武林高手。而开源模型的发布,就像高手将秘籍公之于众,但会附带一些许可证(如 Apache2.0和 LLaMA2社区许可证)来保护其知识产权(IP)。

然而,江湖险恶,总有“套壳”事件发生。一些开发者声称自己训练了新的 LLM,实际上却是在其他基础模型(如 Llama-2和 MiniCPM-V)上进行包装或微调。 这就好像偷学了别人的武功,却对外宣称是自己原创的。为了防止这种情况发生,模型所有者和第三方迫需要一种方法来识别“套壳”模型。

image.png

现有的模型指纹识别方法主要有两类:

注入式指纹: 这就像是在秘籍中偷偷做上标记,比如水印方法。 这种方法会人为地在模型训练或微调过程中添加一些“触发器”,让模型在特定条件下生成特定的内容,从而识别模型来源。 但是,这种方法会增加训练成本,影响模型性能,甚至可能被移除。 而且,对于已经发布的模型,这种方法就无法应用了。

内在式指纹: 这就像是从秘籍本身的内容和风格来判断其来源。 这种方法利用模型本身的属性来进行识别,包括模型权重和特征表示。 其中,基于权重的指纹方法通过计算模型权重的相似度来进行识别。 但是,这种方法容易受到权重变化的影响,比如权重排列、剪枝和微调。 而基于语义分析的方法则通过统计分析模型生成的文本来进行识别。 但是,这两种方法都存在鲁棒性不足的问题。

那么,有没有一种方法既能有效识别“套壳”模型,又不影响模型性能,还能抵抗各种“花式”改造呢?

上海人工智能实验室等机构的研究人员提出了一种新的模型指纹识别方法——REEF。

image.png

REEF 的工作原理是:

REEF 是一种基于特征表示的指纹识别方法。 它不依赖于任何特定层的表示,而是利用 LLM 强大的表示建模能力,可以从各个层提取特征进行识别。

它会比较两个模型在相同样本上的特征表示的中心核对齐 (CKA) 相似度。 CKA 是一种基于 Hilbert-Schmidt 独立性准则 (HSIC) 的相似度指标,它可以衡量两组随机变量之间的独立性。

如果相似度高,说明嫌疑模型很可能是从受害模型衍生出来的;反之,则不太可能。

image.png

REEF 有哪些优点呢?

无需训练: 这意味着它不会影响模型的性能,也不会增加额外的训练成本。

鲁棒性强: 它对模型剪枝、微调、合并、排列和缩放变换等各种后续开发都具有鲁棒性。 即使嫌疑模型经过了大规模的微调 (高达700B token 的数据量),REEF 仍然可以有效地识别出它是否源自受害模型。

理论保证: 研究人员从理论上证明了 CKA 对列排列和缩放变换具有不变性。

实验结果表明,REEF 在识别“套壳”模型方面表现出色,优于现有的基于权重和语义分析的方法。

REEF 的出现,为保护 LLM 的知识产权提供了一种新的利器,有助于打击未经授权使用或复制模型等不道德或非法行为。

论文地址:https://arxiv.org/pdf/2410.14273