Recentemente, pesquisadores de IA da Universidade de Stanford e da Universidade de Washington treinaram com sucesso um modelo de raciocínio de IA chamado s1, com um custo de treinamento inferior a US$ 50 e usando uma quantidade muito baixa de créditos de computação em nuvem. Este resultado de pesquisa, publicado na sexta-feira passada, mostra que o s1 se saiu tão bem quanto os modelos o1 da OpenAI e R1 da DeepSeek em testes de matemática e programação. O código e os dados do s1 foram disponibilizados publicamente no GitHub para outros pesquisadores.
A equipe de pesquisa disse que eles partiram de um modelo básico pronto, usando a técnica de destilação para ajustá-lo finamente e extrair a capacidade de raciocínio desejada. O processo de destilação do s1 utilizou o modelo Gemini2.0Flash Thinking Experimental do Google, um método semelhante ao usado por pesquisadores da UC Berkeley no mês passado para treinar outro modelo de raciocínio de IA, que custou cerca de US$ 450 para treinar.
Este resultado é animador para muitos, especialmente no atual cenário de IA, onde os pesquisadores podem inovar sem precisar de financiamento maciço. No entanto, o surgimento do s1 também levanta questões sobre a comercialização de modelos de IA. Se qualquer pessoa pode replicar modelos de milhões de dólares com um custo relativamente baixo, qual é a vantagem competitiva dessas grandes empresas?
Claramente, os grandes laboratórios de IA não estão satisfeitos com isso. A OpenAI já acusou a DeepSeek de usar indevidamente seus dados de API para destilação de modelos. A equipe de pesquisa do s1 espera encontrar uma maneira simples de alcançar um desempenho de raciocínio poderoso, melhorando também a capacidade de "expansão do tempo de teste", ou seja, dando ao modelo de IA mais tempo para pensar antes de responder a uma pergunta. Essas são conquistas do modelo o1 da OpenAI que a DeepSeek e outros laboratórios de IA estão tentando replicar usando métodos diferentes.
A pesquisa do s1 mostra que, usando um conjunto de dados relativamente pequeno, o método de ajuste fino supervisionado (SFT) pode destilar efetivamente modelos de raciocínio, e este método é geralmente mais barato do que o método de aprendizado por reforço em larga escala usado pela DeepSeek. O Google também oferece acesso gratuito ao Gemini2.0Flash Thinking Experimental, mas a plataforma tem limites de uso diário e seus termos proíbem a engenharia reversa de seu modelo para desenvolver serviços concorrentes.
Para treinar o s1, os pesquisadores construíram um conjunto de dados contendo 1000 perguntas cuidadosamente selecionadas e suas respostas correspondentes, juntamente com o processo de "pensamento" por trás das perguntas. O treinamento foi realizado usando 16 GPUs Nvidia H100 e levou menos de 30 minutos. De acordo com os pesquisadores, eles agora podem alugar os recursos computacionais necessários por cerca de US$ 20.
Além disso, a equipe de pesquisa usou uma técnica inteligente para adicionar a palavra "esperando" quando o s1 está raciocinando, melhorando assim a precisão das respostas.
Em 2025, a Meta, o Google e a Microsoft planejam investir centenas de bilhões de dólares em infraestrutura de IA, parte disso para treinar a próxima geração de modelos de IA. Embora a técnica de destilação tenha demonstrado ser eficaz na replicação de modelos de IA a um custo menor, ela não melhorou significativamente o desempenho de novos modelos de IA.
Artigo:https://arxiv.org/pdf/2501.19393
Código:https://github.com/simplescaling/s1
Destaques:
🌟 O custo de treinamento do modelo s1 é inferior a US$ 50, com desempenho comparável aos principais modelos de raciocínio.
🛠️ A equipe de pesquisa usou a técnica de destilação para extrair a capacidade de raciocínio de modelos existentes, com um processo de treinamento rápido e eficiente.
🚀 Os grandes laboratórios de IA estão preocupados com a replicação de modelos a baixo custo, e os investimentos futuros serão focados na infraestrutura de IA.