No campo da inteligência artificial, as técnicas de pós-treinamento estão se tornando cada vez mais importantes para melhorar o desempenho dos modelos. Recentemente, o Instituto de Inteligência Artificial Allen (AI2) lançou a série de modelos Tülu3, um conjunto de modelos de linguagem avançados totalmente de código aberto, com desempenho comparável a modelos proprietários como o GPT-4o-mini. O Tülu3 não apenas inclui dados do modelo, código e receitas de treinamento, mas também fornece uma estrutura de avaliação, com o objetivo de impulsionar o desenvolvimento de técnicas de pós-treinamento de modelos de código aberto.

image.png

Tradicionalmente, modelos treinados apenas previamente muitas vezes não atendem às necessidades de aplicações reais de forma eficaz, podendo gerar informações tóxicas ou perigosas e dificilmente seguindo instruções humanas. Portanto, etapas de pós-treinamento, como ajuste fino de instruções e aprendizado com feedback humano, são extremamente importantes. No entanto, otimizar o processo de pós-treinamento ainda é um desafio técnico, especialmente porque melhorar uma habilidade do modelo pode afetar outras habilidades.

Para superar esse desafio, grandes empresas têm aumentado a complexidade dos métodos de pós-treinamento, experimentando treinamento em várias rodadas e combinando dados humanos e sintéticos, mas a maioria dos métodos ainda é proprietária. Em contraste, o lançamento da série Tülu3 superou a lacuna de desempenho entre modelos de código aberto e modelos proprietários, trazendo uma nova abordagem de treinamento.

image.png

O processo de treinamento do Tülu3 é dividido em quatro etapas: construção de dados, ajuste fino supervisionado, ajuste de preferências e aprendizado por reforço com recompensas verificáveis.

Primeiro, os pesquisadores se concentraram nas habilidades essenciais do modelo, usando uma combinação de dados humanos e sintéticos para construir os dados de treinamento.

Em segundo lugar, o ajuste fino supervisionado garante que o desempenho do modelo em habilidades específicas não seja inferior ao de outros modelos avançados.

Terceiro, um método de otimização de preferência direta é usado para melhorar ainda mais o desempenho geral do modelo. Finalmente, a introdução inovadora do aprendizado por reforço com recompensas verificáveis ajuda o modelo a concluir melhor tarefas com resultados verificáveis.

O modelo Tülu3 é construído com base no Llama3.1 e apresenta desempenho excelente em áreas como raciocínio, matemática, programação e seguimento de instruções. Em comparação com outros modelos de código aberto e proprietários, a capacidade abrangente do Tülu3 se destaca em vários testes de referência, marcando um grande avanço nas técnicas de pós-treinamento de código aberto.

Link do artigo:https://allenai.org/papers/tulu-3-report.pdf

Demo:https://playground.allenai.org/

Destaques:

🌟 Tülu3 é um modelo de linguagem de código aberto lançado pelo AI2, com desempenho comparável a modelos proprietários como o GPT-4o-mini.

🔧 As técnicas de pós-treinamento são cruciais para melhorar o desempenho do modelo em aplicações reais.

📊 O processo de treinamento do Tülu3 é inovador, dividido em quatro etapas: construção de dados, ajuste fino supervisionado, ajuste de preferências e aprendizado por reforço com recompensas verificáveis.