Equipes de pesquisa da Universidade de Stanford e da Universidade de Washington recentemente publicaram em conjunto um método inovador de treinamento de IA, chamado S1. A ideia central é usar uma técnica de dimensionamento extremamente simples no momento do teste para melhorar significativamente a capacidade de raciocínio de modelos de linguagem. Diferentemente dos métodos anteriores que dependiam de grande poder computacional ou algoritmos complexos, o método S1 aumenta o desempenho de forma inteligente, controlando a alocação de recursos computacionais do modelo durante o teste.
O método S1 começa construindo um pequeno conjunto de dados chamado s1K, contendo 1000 problemas de raciocínio de alta qualidade. Os critérios de seleção para este conjunto de dados são rigorosos: alta dificuldade, grande diversidade e alta qualidade. A equipe de pesquisa validou a importância desses três critérios por meio de experimentos de ablação exaustivos. Os resultados mostraram que a seleção aleatória ou o foco em apenas um critério resultam em uma queda significativa no desempenho. É importante notar que, mesmo treinando com um superconjunto de 59.000 amostras, os resultados foram muito inferiores aos obtidos com as 1000 amostras cuidadosamente selecionadas, destacando a importância da seleção de dados.
Após o treinamento do modelo, os pesquisadores empregaram uma técnica chamada "restrição orçamentária" para controlar a quantidade de computação durante o teste. Simplificando, este método força a interrupção do processo de pensamento do modelo ou adiciona instruções de "espera" para prolongar o tempo de pensamento, guiando o modelo para uma exploração e verificação mais aprofundadas. Dessa forma, o modelo pode rever repetidamente as etapas de raciocínio, corrigindo erros de forma eficaz.
Os resultados experimentais mostram que, após o ajuste fino no conjunto de dados s1K e com a técnica de "restrição orçamentária", o modelo s1-32B superou o modelo o1-preview da OpenAI em impressionantes 27% em problemas matemáticos de nível competitivo. Ainda mais surpreendente, o dimensionamento com "restrição orçamentária" permitiu que o modelo s1-32B exibisse uma capacidade de generalização além de seu nível de treinamento, aumentando sua pontuação no conjunto de testes AIME24 de 50% para 57%.
A principal contribuição desta pesquisa é a apresentação de um método simples e eficiente para criar conjuntos de dados com alta capacidade de raciocínio e realizar dimensionamento de desempenho durante o teste. Com base nisso, a equipe de pesquisa criou o modelo s1-32B, cujo desempenho é comparável ou superior a modelos de código fechado, sendo também de código aberto e com alta eficiência de amostra. O código, o modelo e os dados da pesquisa foram disponibilizados publicamente no GitHub.
Os pesquisadores também realizaram experimentos de ablação aprofundados sobre os detalhes dos dados e a técnica de dimensionamento durante o teste. Em relação aos dados, eles descobriram que considerar simultaneamente a dificuldade, a diversidade e a qualidade é crucial. Quanto ao dimensionamento durante o teste, o método de "restrição orçamentária" mostrou excelente controlabilidade e melhoria de desempenho. A pesquisa também explorou dois métodos diferentes, dimensionamento paralelo e sequencial, e introduziu técnicas avançadas como REBASE, fornecendo insights importantes para futuras pesquisas.
Esta pesquisa não apenas traz uma nova abordagem de baixo custo e alta eficiência para o campo de treinamento de IA, mas também estabelece uma base sólida para aplicações mais amplas de IA.
Endereço do artigo: https://arxiv.org/pdf/2501.19393