Dados Sintéticos Tóxicos! Equipe do Meta Confirma: 1% de Dados Podem Levar Modelos Grandes ao Colapso Total

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · Oct 14, 2024

262

Recentemente, algo estranho aconteceu no mundo da IA, como se um influenciador gastronômico começasse a comer seus próprios pratos, ficando cada vez mais viciado e a comida cada vez pior. É assustador, e o termo técnico para isso é colapso do modelo (model collapse).

O que é colapso do modelo? Simplificando, é quando um modelo de IA, durante o treinamento, usa uma grande quantidade de dados gerados por si mesmo, entrando em um ciclo vicioso que leva à deterioração da qualidade da geração, culminando em um fracasso completo.

É como um ecossistema fechado, onde o modelo de IA é o único organismo. A comida que ele produz são os dados. Inicialmente, ele encontra alguns ingredientes naturais (dados reais), mas com o tempo, começa a depender cada vez mais de ingredientes "artificiais" (dados sintéticos). O problema é que esses ingredientes "artificiais" são nutricionalmente deficientes e contêm defeitos do próprio modelo. Comendo muito, o "corpo" do modelo de IA entra em colapso, e suas gerações ficam cada vez mais absurdas.

Este artigo de pesquisa analisa o fenômeno do colapso do modelo e tenta responder a duas perguntas-chave:

O colapso do modelo é inevitável? É possível resolver o problema misturando dados reais e dados sintéticos?
Quanto maior o modelo, maior a probabilidade de colapso?

Para investigar essas questões, os autores do artigo projetaram uma série de experimentos e usaram um modelo de projeção aleatória para simular o processo de treinamento de uma rede neural. Eles descobriram que mesmo o uso de uma pequena porcentagem de dados sintéticos (como 1%) pode levar ao colapso do modelo. Pior ainda, à medida que o tamanho do modelo aumenta, o fenômeno do colapso do modelo se torna mais grave.

É como se um influenciador gastronômico, para chamar a atenção, começasse a experimentar ingredientes estranhos, e acabasse com problemas de saúde. Para compensar, ele aumenta a quantidade de comida, experimentando coisas ainda mais estranhas, piorando sua saúde e tendo que abandonar sua carreira.

Então, como podemos evitar o colapso do modelo?

Os autores do artigo sugerem algumas recomendações:

Priorizar dados reais: Os dados reais são como ingredientes naturais, ricos em nutrientes e essenciais para o crescimento saudável do modelo de IA.
Usar dados sintéticos com cautela: Os dados sintéticos são como ingredientes artificiais, que podem complementar a nutrição, mas não se deve depender excessivamente deles, pois isso pode ser contraproducente.
Controlar o tamanho do modelo: Quanto maior o modelo, maior o apetite, e maior a probabilidade de problemas. Ao usar dados sintéticos, é preciso controlar o tamanho do modelo, evitando a superalimentação.

O colapso do modelo é um novo desafio no desenvolvimento da IA, lembrando-nos de que, ao buscarmos a escala e a eficiência do modelo, também devemos nos preocupar com a qualidade dos dados e a saúde do modelo. Somente assim, podemos garantir o desenvolvimento contínuo e saudável dos modelos de IA, criando maior valor para a sociedade humana.

Artigo: https://arxiv.org/pdf/2410.04840

Modelo de linguagem grande de código aberto Hunyuan-large da Tencent, suporta sequências de texto de até 256K

A Tencent lançou hoje o modelo de linguagem grande MOE de código aberto Hunyuan-large, com um total de 398B de parâmetros e 52B de parâmetros ativados. Os resultados de avaliação pública mostram que o Tencent Hunyuan-Large está à frente em vários conjuntos de avaliação abrangentes multidisciplinares, como CMMLU, MMLU, CEva-1 e MATH, bem como em tarefas de PNL em chinês e inglês, código e matemática, em 9 dimensões principais, superando modelos de linguagem grandes de código aberto de primeira linha, como Llama 3.1 e Mixtral. De acordo com informações, este modelo apresenta inovações tecnológicas que permitem a produção de dados sintéticos de alta qualidade, através do uso de

Writer usa dados sintéticos para reduzir o custo de treinamento de modelos de IA, desafiando gigantes do setor

De acordo com a CNBC, a startup de inteligência artificial de São Francisco, Writer, lançou na quarta-feira um grande modelo de IA para competir com ofertas corporativas de empresas como OpenAI e Anthropic. O que é notável é que a Writer gastou apenas cerca de US$ 700.000 para treinar seu modelo mais recente, incluindo dados e GPUs, enquanto startups concorrentes gastaram milhões de dólares para construir seus próprios modelos. Nota da imagem: Imagem gerada por IA, fornecedora de licenças de imagens MidjourneyWriter

Pesquisadores da Meta AI: Texto online é 'lixo', Llama 3 é todo dados sintéticos

O mais recente projeto da Meta AI, Llama3, concentra-se no treinamento com dados sintéticos, em vez de respostas escritas por humanos, para otimizar o desempenho do modelo em áreas como geração de código, raciocínio matemático, processamento de várias línguas e processamento de texto longo. O Llama3 gera dados sintéticos usando três métodos para geração de código, métodos de pesquisa para raciocínio matemático e pré-treinamento multilíngue com anotações humanas de alta qualidade. Além disso, o treinamento do Llama3 foi aprimorado com o Brave Search, Wolfram Alpha e interpretador Python.

Equipe de Pesquisa da Apple revela a tecnologia WRAP: Pré-treinamento de modelos grandes com dados sintéticos, baixo custo e alta precisão

'Modelos de linguagem grandes têm chamado a atenção da comunidade de IA, demonstrando capacidades impressionantes.' 'A equipe de pesquisa da Apple revela a tecnologia WRAP para pré-treinamento de modelos grandes com dados sintéticos.' 'O WRAP melhora o desempenho do modelo, reformula documentos da web e aprimora os resultados do pré-treinamento.' 'O uso de dados sintéticos de alta qualidade acelera o treinamento, melhora o desempenho geral e abre novas possibilidades.'