No campo da inteligência artificial, as técnicas de pós-treinamento estão se tornando cada vez mais importantes para melhorar o desempenho dos modelos. Recentemente, o Instituto de Inteligência Artificial Allen (AI2) lançou a série de modelos Tülu3, um conjunto de modelos de linguagem avançados totalmente de código aberto, com desempenho comparável a modelos proprietários como o GPT-4o-mini. O Tülu3 não apenas inclui dados do modelo, código e receitas de treinamento, mas também fornece uma estrutura de avaliação, com o objetivo de impulsionar o desenvolvimento de técnicas de pós-treinamento de modelos de código aberto.
Tradicionalmente, modelos treinados apenas previamente muitas vezes não atendem às necessidades de aplicações reais de forma eficaz, podendo gerar informações tóxicas ou perigosas e dificilmente seguindo instruções humanas. Portanto, etapas de pós-treinamento, como ajuste fino de instruções e aprendizado com feedback humano, são extremamente importantes. No entanto, otimizar o processo de pós-treinamento ainda é um desafio técnico, especialmente porque melhorar uma habilidade do modelo pode afetar outras habilidades.
Para superar esse desafio, grandes empresas têm aumentado a complexidade dos métodos de pós-treinamento, experimentando treinamento em várias rodadas e combinando dados humanos e sintéticos, mas a maioria dos métodos ainda é proprietária. Em contraste, o lançamento da série Tülu3 superou a lacuna de desempenho entre modelos de código aberto e modelos proprietários, trazendo uma nova abordagem de treinamento.
O processo de treinamento do Tülu3 é dividido em quatro etapas: construção de dados, ajuste fino supervisionado, ajuste de preferências e aprendizado por reforço com recompensas verificáveis.
Primeiro, os pesquisadores se concentraram nas habilidades essenciais do modelo, usando uma combinação de dados humanos e sintéticos para construir os dados de treinamento.
Em segundo lugar, o ajuste fino supervisionado garante que o desempenho do modelo em habilidades específicas não seja inferior ao de outros modelos avançados.
Terceiro, um método de otimização de preferência direta é usado para melhorar ainda mais o desempenho geral do modelo. Finalmente, a introdução inovadora do aprendizado por reforço com recompensas verificáveis ajuda o modelo a concluir melhor tarefas com resultados verificáveis.
O modelo Tülu3 é construído com base no Llama3.1 e apresenta desempenho excelente em áreas como raciocínio, matemática, programação e seguimento de instruções. Em comparação com outros modelos de código aberto e proprietários, a capacidade abrangente do Tülu3 se destaca em vários testes de referência, marcando um grande avanço nas técnicas de pós-treinamento de código aberto.
Link do artigo:https://allenai.org/papers/tulu-3-report.pdf
Demo:https://playground.allenai.org/
Destaques:
🌟 Tülu3 é um modelo de linguagem de código aberto lançado pelo AI2, com desempenho comparável a modelos proprietários como o GPT-4o-mini.
🔧 As técnicas de pós-treinamento são cruciais para melhorar o desempenho do modelo em aplicações reais.
📊 O processo de treinamento do Tülu3 é inovador, dividido em quatro etapas: construção de dados, ajuste fino supervisionado, ajuste de preferências e aprendizado por reforço com recompensas verificáveis.