Na onda de desenvolvimento tecnológico, a inteligência artificial (IA) está em constante evolução. Recentemente, o novo modelo DeepCoder-14B-Preview, desenvolvido em conjunto e de código aberto pelas plataformas Together AI e Agentica, tem atraído muita atenção.
Com apenas 14 bilhões de parâmetros, o modelo alcançou uma pontuação de 60,6% na plataforma de testes de código LiveCodeBench, superando o modelo o1 da OpenAI (59,5%) e ficando ligeiramente abaixo do o3-mini (60,9%). Este desempenho também foi excelente nas avaliações do Codeforces e AIME2024, se mostrando comparável ao o1 e o3-mini.
DeepCoder não é apenas um novo modelo; seu código aberto é abrangente, incluindo pesos do modelo, conjuntos de dados de treinamento, métodos de treinamento, logs de treinamento e estratégias de otimização, facilitando muito a compreensão do processo de desenvolvimento do modelo pelos desenvolvedores. O endereço de código aberto e os links relacionados do GitHub já foram publicados para que desenvolvedores interessados possam explorar e pesquisar.
DeepCoder foi criado com base no Deepseek-R1-Distilled-Qwen-14B e ajustado por meio de aprendizado por reforço distribuído (RL). Para construir um conjunto de dados de treinamento de alta qualidade, a equipe de pesquisa coletou 24.000 problemas de programação verificáveis e, por meio de verificação de programas, filtragem de testes e remoção de duplicatas, garantiu a qualidade dos dados. Todos os problemas foram verificados por meio de soluções oficiais externas e atendem a rigorosos padrões de teste unitário.
No processo de treinamento de aprendizado por reforço de código, o DeepCoder utilizou dois ambientes sandbox para executar testes unitários e calcular recompensas. O ambiente Together Code Interpreter é eficiente e escalável, capaz de suportar um grande número de sandboxes concorrentes; outro sandbox de código local garante a consistência com as classificações existentes.
No design da função de recompensa, o DeepCoder adotou um modelo de recompensa de resultado esparso, garantindo que o modelo se concentre na geração de código de alta qualidade, em vez de obter recompensas por meio da memorização de casos de teste. Ao mesmo tempo, para alcançar um processo de treinamento mais estável, o modelo utilizou um algoritmo GRPO aprimorado e introduziu a técnica de extensão de contexto iterativa, melhorando significativamente a capacidade de raciocínio do modelo.
Para acelerar o treinamento RL de ponta a ponta, a equipe DeepCoder também lançou o verl-pipeline de extensão otimizada, que, por meio da tecnologia de pipeline único, torna o processo de treinamento, cálculo de recompensas e amostragem totalmente em pipeline, aumentando significativamente a eficiência do treinamento.
Embora o DeepCoder tenha sido recentemente lançado como código aberto, os usuários têm elogiado seu desempenho, considerando-o um projeto de código aberto promissor. A Together AI, fundada em 2022, dedica-se a fornecer modelos e serviços de IA de alto desempenho e recentemente recebeu US$ 305 milhões em financiamento, demonstrando seu forte impulso no setor.
Endereço de código aberto: https://huggingface.co/agentica-org/DeepCoder-14B-Preview
github: https://github.com/agentica-project/rllm
Destaques:
🌟 O modelo DeepCoder-14B-Preview apresenta desempenho excelente, superando o modelo o1 da OpenAI.
📈 O código aberto é abrangente, incluindo pesos do modelo e dados de treinamento, facilitando a pesquisa para os desenvolvedores.
⚙️ Diversas tecnologias garantem a qualidade dos dados e a eficiência do treinamento, melhorando significativamente o desempenho do modelo.