À l'ère de l'IA, les grands modèles linguistiques (LLM) sont comme des secrets de kung-fu, leur entraînement exigeant une puissance de calcul et des données considérables, à l'image d'un maître d'arts martiaux ayant passé des années en retraite. La publication de modèles open source est comparable à un maître qui rendrait son secret public, mais avec des licences (comme Apache2.0 et la licence communautaire LLaMA2) pour protéger sa propriété intellectuelle (PI).
Cependant, le monde numérique est impitoyable, et des cas de « plagiat » se produisent. Certains développeurs prétendent avoir entraîné de nouveaux LLM, alors qu'ils se contentent de les emballer ou de les peaufiner à partir d'autres modèles de base (comme Llama-2 et MiniCPM-V). C'est comme si on apprenait les techniques de combat d'autrui et qu'on les présentait comme une création originale. Pour éviter cela, les propriétaires de modèles et les tiers ont besoin d'une méthode pour identifier les modèles « plagiés ».
Les méthodes existantes d'identification des empreintes digitales des modèles sont principalement de deux types :
Empreintes digitales injectées : C'est comme si on ajoutait discrètement des marques dans un manuel secret, comme des filigranes. Cette méthode consiste à ajouter des « déclencheurs » artificiels lors de l'entraînement ou du réglage fin du modèle, afin que le modèle génère un contenu spécifique dans des conditions particulières, permettant ainsi d'identifier son origine. Cependant, cette méthode augmente les coûts d'entraînement, affecte les performances du modèle et peut même être supprimée. De plus, elle est inapplicable aux modèles déjà publiés.
Empreintes digitales intrinsèques : Il s'agit d'identifier l'origine à partir du contenu et du style du manuel lui-même. Cette méthode utilise les propriétés du modèle lui-même pour l'identification, y compris les poids et les représentations caractéristiques du modèle. Parmi celles-ci, les méthodes d'empreintes digitales basées sur les poids identifient en calculant la similarité des poids du modèle. Cependant, cette méthode est sensible aux variations de poids, telles que le réarrangement, l'élagage et le réglage fin. Les méthodes basées sur l'analyse sémantique identifient en analysant statistiquement le texte généré par le modèle. Cependant, ces deux méthodes souffrent d'un manque de robustesse.
Existe-t-il une méthode permettant d'identifier efficacement les modèles « plagiés », sans affecter les performances du modèle et en résistant aux différentes modifications ?
Des chercheurs du laboratoire d'intelligence artificielle de Shanghai et d'autres institutions ont proposé une nouvelle méthode d'identification des empreintes digitales des modèles : REEF.
Le principe de fonctionnement de REEF est le suivant :
REEF est une méthode d'identification des empreintes digitales basée sur la représentation des caractéristiques. Elle ne dépend pas d'une représentation de couche spécifique, mais utilise la puissante capacité de modélisation des représentations des LLM pour extraire des caractéristiques de différentes couches afin d'identifier.
Elle compare la similarité de l'alignement du noyau central (CKA) des représentations des caractéristiques de deux modèles sur les mêmes échantillons. Le CKA est un indicateur de similarité basé sur le critère d'indépendance de Hilbert-Schmidt (HSIC), qui mesure l'indépendance entre deux ensembles de variables aléatoires.
Si la similarité est élevée, cela signifie que le modèle suspect est probablement dérivé du modèle victime ; sinon, cela est peu probable.
Quels sont les avantages de REEF ?
Pas besoin d'entraînement : Cela signifie qu'il n'affecte pas les performances du modèle et n'augmente pas les coûts d'entraînement supplémentaires.
Forte robustesse : Il est robuste à divers développements ultérieurs, tels que l'élagage, le réglage fin, la fusion, le réarrangement et la transformation d'échelle du modèle. Même si le modèle suspect a subi un réglage fin à grande échelle (jusqu'à 700 milliards de jetons de données), REEF peut toujours identifier efficacement s'il provient du modèle victime.
Garantie théorique : Les chercheurs ont démontré théoriquement que le CKA est invariant aux permutations de colonnes et aux transformations d'échelle.
Les résultats expérimentaux montrent que REEF excelle dans l'identification des modèles « plagiés », surpassant les méthodes existantes basées sur les poids et l'analyse sémantique.
L'apparition de REEF fournit une nouvelle arme puissante pour protéger la propriété intellectuelle des LLM, contribuant à lutter contre les utilisations ou les copies non autorisées de modèles, ainsi que les comportements immoraux ou illégaux.
Adresse de l'article : https://arxiv.org/pdf/2410.14273