Na era da IA, os grandes modelos de linguagem (LLMs) são como manuais secretos de artes marciais, cujo treinamento exige enorme poder computacional e dados, semelhante ao treinamento de um mestre de artes marciais em reclusão por muitos anos. A publicação de modelos de código aberto é como um mestre que torna seu manual público, mas com algumas licenças (como Apache2.0 e a licença da comunidade LLaMA2) para proteger sua propriedade intelectual (IP).

No entanto, o mundo é perigoso, e sempre ocorrem eventos de "cópia". Alguns desenvolvedores afirmam ter treinado novos LLMs, mas na verdade estão apenas empacotando ou ajustando finamente outros modelos básicos (como Llama-2 e MiniCPM-V). Isso é como aprender as habilidades de artes marciais de outra pessoa e depois alegar que são originais. Para evitar isso, os proprietários de modelos e terceiros precisam de um método para identificar modelos "copiados".

image.png

Os métodos existentes de identificação de impressões digitais de modelos são divididos principalmente em duas categorias:

Impressão digital injetável: É como colocar secretamente uma marca no manual, como uma marca d'água. Este método adiciona artificialmente alguns "gatilhos" durante o treinamento ou ajuste fino do modelo, fazendo com que o modelo gere conteúdo específico sob certas condições, para identificar a origem do modelo. No entanto, este método aumenta o custo de treinamento, afeta o desempenho do modelo e pode até ser removido. Além disso, este método não pode ser aplicado a modelos já publicados.

Impressão digital intrínseca: É como julgar a origem a partir do conteúdo e estilo do próprio manual. Este método utiliza as propriedades do próprio modelo para identificação, incluindo pesos e representações de recursos do modelo. Entre eles, o método de impressão digital baseado em pesos identifica a semelhança calculando a similaridade dos pesos do modelo. No entanto, este método é suscetível a mudanças de peso, como permutação de pesos, poda e ajuste fino. O método baseado em análise semântica identifica por meio da análise estatística do texto gerado pelo modelo. No entanto, ambos os métodos têm o problema da falta de robustez.

Então, existe um método que possa identificar efetivamente modelos "copiados" sem afetar o desempenho do modelo e resistir a várias modificações "sofisticadas"?

Pesquisadores do Laboratório de Inteligência Artificial de Xangai e outras instituições propuseram um novo método de identificação de impressões digitais de modelos - REEF.

image.png

O princípio de funcionamento do REEF é:

REEF é um método de identificação de impressões digitais baseado em representação de recursos. Não depende de nenhuma representação de camada específica, mas utiliza a poderosa capacidade de modelagem de representação do LLM para extrair recursos de várias camadas para identificação.

Ele compara a similaridade de alinhamento central do núcleo (CKA) das representações de recursos de dois modelos nas mesmas amostras. CKA é um indicador de similaridade baseado no critério de independência de Hilbert-Schmidt (HSIC), que mede a independência entre dois conjuntos de variáveis aleatórias.

Se a similaridade for alta, significa que o modelo suspeito provavelmente é derivado do modelo vítima; caso contrário, é improvável.

image.png

Quais são as vantagens do REEF?

Sem treinamento: Isso significa que não afeta o desempenho do modelo e não aumenta o custo de treinamento adicional.

Alta robustez: É robusto para várias operações de desenvolvimento posterior, como poda de modelos, ajuste fino, mesclagem, permutação e transformação de escala. Mesmo que o modelo suspeito tenha passado por um ajuste fino em grande escala (até 700 bilhões de tokens de dados), o REEF ainda pode identificar efetivamente se ele é derivado do modelo vítima.

Garantia teórica: Os pesquisadores provaram teoricamente que o CKA é invariante à permutação de colunas e à transformação de escala.

Os resultados experimentais mostram que o REEF tem um desempenho excelente na identificação de modelos "copiados", superando os métodos existentes baseados em pesos e análise semântica.

O surgimento do REEF fornece uma nova ferramenta poderosa para proteger a propriedade intelectual do LLM, ajudando a combater o uso ou a replicação não autorizada de modelos e outros comportamentos antiéticos ou ilegais.

Endereço do artigo: https://arxiv.org/pdf/2410.14273