Na era da IA, os grandes modelos de linguagem (LLMs) são como manuais secretos de artes marciais, cujo treinamento exige enorme poder computacional e dados, semelhante ao treinamento de um mestre de artes marciais em reclusão por muitos anos. A publicação de modelos de código aberto é como um mestre que torna seu manual público, mas com algumas licenças (como Apache2.0 e a licença da comunidade LLaMA2) para proteger sua propriedade intelectual (IP).
No entanto, o mundo é perigoso, e sempre ocorrem eventos de "cópia". Alguns desenvolvedores afirmam ter treinado novos LLMs, mas na verdade estão apenas empacotando ou ajustando finamente outros modelos básicos (como Llama-2 e MiniCPM-V). Isso é como aprender as habilidades de artes marciais de outra pessoa e depois alegar que são originais. Para evitar isso, os proprietários de modelos e terceiros precisam de um método para identificar modelos "copiados".
Os métodos existentes de identificação de impressões digitais de modelos são divididos principalmente em duas categorias:
Impressão digital injetável: É como colocar secretamente uma marca no manual, como uma marca d'água. Este método adiciona artificialmente alguns "gatilhos" durante o treinamento ou ajuste fino do modelo, fazendo com que o modelo gere conteúdo específico sob certas condições, para identificar a origem do modelo. No entanto, este método aumenta o custo de treinamento, afeta o desempenho do modelo e pode até ser removido. Além disso, este método não pode ser aplicado a modelos já publicados.
Impressão digital intrínseca: É como julgar a origem a partir do conteúdo e estilo do próprio manual. Este método utiliza as propriedades do próprio modelo para identificação, incluindo pesos e representações de recursos do modelo. Entre eles, o método de impressão digital baseado em pesos identifica a semelhança calculando a similaridade dos pesos do modelo. No entanto, este método é suscetível a mudanças de peso, como permutação de pesos, poda e ajuste fino. O método baseado em análise semântica identifica por meio da análise estatística do texto gerado pelo modelo. No entanto, ambos os métodos têm o problema da falta de robustez.
Então, existe um método que possa identificar efetivamente modelos "copiados" sem afetar o desempenho do modelo e resistir a várias modificações "sofisticadas"?
Pesquisadores do Laboratório de Inteligência Artificial de Xangai e outras instituições propuseram um novo método de identificação de impressões digitais de modelos - REEF.
O princípio de funcionamento do REEF é:
REEF é um método de identificação de impressões digitais baseado em representação de recursos. Não depende de nenhuma representação de camada específica, mas utiliza a poderosa capacidade de modelagem de representação do LLM para extrair recursos de várias camadas para identificação.
Ele compara a similaridade de alinhamento central do núcleo (CKA) das representações de recursos de dois modelos nas mesmas amostras. CKA é um indicador de similaridade baseado no critério de independência de Hilbert-Schmidt (HSIC), que mede a independência entre dois conjuntos de variáveis aleatórias.
Se a similaridade for alta, significa que o modelo suspeito provavelmente é derivado do modelo vítima; caso contrário, é improvável.
Quais são as vantagens do REEF?
Sem treinamento: Isso significa que não afeta o desempenho do modelo e não aumenta o custo de treinamento adicional.
Alta robustez: É robusto para várias operações de desenvolvimento posterior, como poda de modelos, ajuste fino, mesclagem, permutação e transformação de escala. Mesmo que o modelo suspeito tenha passado por um ajuste fino em grande escala (até 700 bilhões de tokens de dados), o REEF ainda pode identificar efetivamente se ele é derivado do modelo vítima.
Garantia teórica: Os pesquisadores provaram teoricamente que o CKA é invariante à permutação de colunas e à transformação de escala.
Os resultados experimentais mostram que o REEF tem um desempenho excelente na identificação de modelos "copiados", superando os métodos existentes baseados em pesos e análise semântica.
O surgimento do REEF fornece uma nova ferramenta poderosa para proteger a propriedade intelectual do LLM, ajudando a combater o uso ou a replicação não autorizada de modelos e outros comportamentos antiéticos ou ilegais.
Endereço do artigo: https://arxiv.org/pdf/2410.14273