Laboratório de IA de Xangai apresenta método REEF de 'identificação de impressão digital' para modelos grandes, combatendo comportamentos de 'cópia'

Na era da IA, os grandes modelos de linguagem (LLMs) são como manuais secretos de artes marciais, cujo treinamento exige enorme poder computacional e dados, semelhante ao treinamento de um mestre de artes marciais em reclusão por muitos anos. A publicação de modelos de código aberto é como um mestre que torna seu manual público, mas com algumas licenças (como Apache2.0 e a licença da comunidade LLaMA2) para proteger sua propriedade intelectual (IP).

No entanto, o mundo é perigoso, e sempre ocorrem eventos de "cópia". Alguns desenvolvedores afirmam ter treinado novos LLMs, mas na verdade estão apenas empacotando ou ajustando finamente outros modelos básicos (como Llama-2 e MiniCPM-V). Isso é como aprender as habilidades de artes marciais de outra pessoa e depois alegar que são originais. Para evitar isso, os proprietários de modelos e terceiros precisam de um método para identificar modelos "copiados".

Os métodos existentes de identificação de impressões digitais de modelos são divididos principalmente em duas categorias:

Impressão digital injetável: É como colocar secretamente uma marca no manual, como uma marca d'água. Este método adiciona artificialmente alguns "gatilhos" durante o treinamento ou ajuste fino do modelo, fazendo com que o modelo gere conteúdo específico sob certas condições, para identificar a origem do modelo. No entanto, este método aumenta o custo de treinamento, afeta o desempenho do modelo e pode até ser removido. Além disso, este método não pode ser aplicado a modelos já publicados.

Impressão digital intrínseca: É como julgar a origem a partir do conteúdo e estilo do próprio manual. Este método utiliza as propriedades do próprio modelo para identificação, incluindo pesos e representações de recursos do modelo. Entre eles, o método de impressão digital baseado em pesos identifica a semelhança calculando a similaridade dos pesos do modelo. No entanto, este método é suscetível a mudanças de peso, como permutação de pesos, poda e ajuste fino. O método baseado em análise semântica identifica por meio da análise estatística do texto gerado pelo modelo. No entanto, ambos os métodos têm o problema da falta de robustez.

Então, existe um método que possa identificar efetivamente modelos "copiados" sem afetar o desempenho do modelo e resistir a várias modificações "sofisticadas"?

Pesquisadores do Laboratório de Inteligência Artificial de Xangai e outras instituições propuseram um novo método de identificação de impressões digitais de modelos - REEF.

O princípio de funcionamento do REEF é:

REEF é um método de identificação de impressões digitais baseado em representação de recursos. Não depende de nenhuma representação de camada específica, mas utiliza a poderosa capacidade de modelagem de representação do LLM para extrair recursos de várias camadas para identificação.

Ele compara a similaridade de alinhamento central do núcleo (CKA) das representações de recursos de dois modelos nas mesmas amostras. CKA é um indicador de similaridade baseado no critério de independência de Hilbert-Schmidt (HSIC), que mede a independência entre dois conjuntos de variáveis aleatórias.

Se a similaridade for alta, significa que o modelo suspeito provavelmente é derivado do modelo vítima; caso contrário, é improvável.

Quais são as vantagens do REEF?

Sem treinamento: Isso significa que não afeta o desempenho do modelo e não aumenta o custo de treinamento adicional.

Alta robustez: É robusto para várias operações de desenvolvimento posterior, como poda de modelos, ajuste fino, mesclagem, permutação e transformação de escala. Mesmo que o modelo suspeito tenha passado por um ajuste fino em grande escala (até 700 bilhões de tokens de dados), o REEF ainda pode identificar efetivamente se ele é derivado do modelo vítima.

Garantia teórica: Os pesquisadores provaram teoricamente que o CKA é invariante à permutação de colunas e à transformação de escala.

Os resultados experimentais mostram que o REEF tem um desempenho excelente na identificação de modelos "copiados", superando os métodos existentes baseados em pesos e análise semântica.

O surgimento do REEF fornece uma nova ferramenta poderosa para proteger a propriedade intelectual do LLM, ajudando a combater o uso ou a replicação não autorizada de modelos e outros comportamentos antiéticos ou ilegais.

Endereço do artigo: https://arxiv.org/pdf/2410.14273

Notícias e Informações de IA

Laboratório de IA de Xangai apresenta método REEF de 'identificação de impressão digital' para modelos grandes, combatendo comportamentos de 'cópia'

AIbase基地

Notícias de IA Relacionadas Recomendadas

xAI Grok-3 supera o GPT4.5 e conquista o topo da arena de modelos de linguagem grandes

ByteDance lança AIBrix: novo sistema de inferência de código aberto projetado para modelos de linguagem grandes

Baidu: Lançará a série de modelos de linguagem grandes Wenxin 4.5 nos próximos meses e abrirá o código-fonte em 30 de junho

Conhecimento histórico como ponto fraco da IA: modelos de linguagem grandes têm dificuldades com problemas históricos complexos