Recentemente, a equipe do Sky Computing Lab da Universidade da Califórnia, Berkeley, lançou o Sky-T1-32B-Preview, um modelo de inteligência artificial de raciocínio de código aberto, tornando o desenvolvimento de IA de raciocínio mais fácil e acessível. O modelo se destacou em vários benchmarks-chave, chegando a rivalizar com versões anteriores do o1 da OpenAI.

O custo de treinamento do Sky-T1 é impressionante: apenas US$ 450. Isso significa que a replicação de capacidades de raciocínio de alto nível tornou-se mais acessível e eficiente. Embora US$ 450 possam parecer uma quantia considerável, representa uma queda significativa em comparação com os custos de treinamento de milhões de dólares de alguns anos atrás. O uso de dados de treinamento sintéticos, ou seja, dados gerados por outros modelos, contribuiu significativamente para a redução de custos. A empresa de IA Writer, recentemente, lançou o Palmyra X004, que depende quase exclusivamente de dados sintéticos, com um custo de desenvolvimento de apenas US$ 700.000.

Cérebro, Modelo Grande, IA

Nota da imagem: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney

Diferentemente da maioria das IAs, os modelos de raciocínio podem efetivamente verificar a si mesmos, tornando-os mais confiáveis ​​ao lidar com problemas comuns. Os modelos de raciocínio geralmente levam mais tempo para chegar a uma solução, podendo levar de alguns segundos a alguns minutos, mas sua vantagem em confiabilidade é significativa em áreas como física, ciência e matemática.

A equipe NovaSky utilizou outro modelo de raciocínio – o QwQ-32B-Preview da Alibaba – para gerar os dados de treinamento iniciais do Sky-T1, "curadoria" dos dados e, em seguida, usando o GPT-4o-mini da OpenAI para reorganizá-los em um formato mais utilizável. Treinar o Sky-T1, com seus 3,2 bilhões de parâmetros, levou cerca de 19 horas usando um conjunto de 8 GPUs Nvidia H100. A quantidade de parâmetros está aproximadamente relacionada à capacidade do modelo de resolver problemas.

De acordo com a equipe NovaSky, o Sky-T1 superou a versão de pré-visualização anterior do o1 no MATH500, um conjunto de desafios matemáticos de "nível de competição". Além disso, o Sky-T1 superou a versão de pré-visualização do o1 em problemas difíceis encontrados no LiveCodeBench. No entanto, em problemas relacionados a física, biologia e química, o Sky-T1 teve um desempenho inferior à versão de pré-visualização do o1 no teste GPQA-Diamond.

É importante notar que a versão GA do o1 da OpenAI é mais poderosa do que a versão de pré-visualização, e a OpenAI espera lançar um modelo de raciocínio o3 ainda melhor nas próximas semanas. No entanto, a equipe NovaSky afirma que o Sky-T1 é apenas o começo de sua jornada para desenvolver modelos de código aberto com capacidades avançadas de raciocínio.

"No futuro, focaremos no desenvolvimento de modelos mais eficientes para manter um desempenho de raciocínio robusto e exploraremos tecnologias avançadas para melhorar ainda mais a eficiência e precisão do modelo", escreveu a equipe em seu blog. "Fiquem ligados para acompanhar nosso progresso nesses projetos emocionantes."