A equipe internacional de IA da Alibaba lançou recentemente um novo modelo de raciocínio chamado Marco-o1, que se concentra na resolução de problemas abertos, não se limitando a áreas com respostas padrão, como programação e matemática. A equipe de pesquisa está explorando se esses modelos podem ser eficazmente generalizados para domínios difíceis de quantificar e que carecem de recompensas claras.

微信截图_20241126082757.png

As características do modelo Marco-o1 incluem o ajuste fino usando dados CoT extra longos, a expansão do espaço de solução usando MCTS, e a expansão do espaço de solução de grão fino. O modelo construiu um lote de dados CoT extra longos com capacidade de reflexão e correção usando self-play+MCTS, e treinou-o junto com outros dados de código aberto. Além disso, a equipe de pesquisa definiu mini-Step para expandir ainda mais o espaço de solução do modelo, guiando-o para gerar respostas melhores.

Em tarefas de tradução, o modelo Marco-o1 demonstrou sua capacidade de lidar com traduções de frases longas e complexas. Esta é a primeira vez que a expansão durante o raciocínio é aplicada a tarefas de tradução automática. A equipe de pesquisa lançou dados CoT e o melhor modelo atual como código aberto, e planeja lançar mais dados e modelos no futuro.

微信截图_20241126082711.png

Durante o raciocínio, o modelo pensa profundamente na resposta. Por exemplo, ao contar o número de letras "r" na palavra "strawberry", o modelo decompõe gradualmente cada letra e as compara, chegando à resposta correta. Na área de tradução automática, o modelo identifica corretamente os pontos problemáticos por meio da cadeia de raciocínio, traduzindo palavra por palavra e melhorando a precisão geral da tradução.

A equipe de pesquisa também fez tentativas em outras áreas, demonstrando a capacidade do modelo de resolver outros problemas gerais do mundo real. A estrutura geral do Marco-o1 construiu um lote de dados CoT extra longos com capacidade de reflexão e correção usando self-play+MCTS, e treinou-o junto com outros dados de código aberto. A equipe de pesquisa também incorporou alguns conjuntos de dados de seguimento de instruções da família MarcoPolo, melhorando a capacidade de seguimento de instruções do modelo.

Em termos de uso, a equipe de pesquisa forneceu códigos de raciocínio e ajuste fino. Os usuários podem carregar facilmente o modelo e o tokenizador e começar a conversar ou ajustar o modelo. Além disso, o modelo também pode ser executado diretamente na versão GGUF do ModelScope, oferecendo uma maneira mais rápida de usá-lo.

O lançamento do modelo Marco-o1 marca um passo importante da equipe internacional de IA da Alibaba na área de modelos de raciocínio, fornecendo novas ideias e ferramentas para resolver problemas abertos.

ModelScope:

https://modelscope.cn/models/AIDC-AI/Marco-o1

Arxiv:

https://arxiv.org/abs/2411.14405

Github:

https://github.com/AIDC-AI/Marco-o1

Hugging Face:

https://huggingface.co/AIDC-AI/Marco-o1