L'équipe internationale d'IA d'Alibaba a récemment publié un nouveau modèle d'inférence appelé Marco-o1, spécifiquement conçu pour résoudre des problèmes ouverts, au-delà des domaines académiques aux réponses standardisées comme la programmation et les mathématiques. L'équipe de recherche explore la capacité de ce type de modèle à être efficacement appliqué à des domaines difficiles à quantifier et dépourvus de récompenses clairement définies.
Marco-o1 se caractérise par l'utilisation de données CoT (Chain of Thought) ultralongues pour l'ajustement fin, l'extension de l'espace de solutions grâce à MCTS (Monte Carlo Tree Search), et une extension de l'espace de solutions granulaire. Le modèle construit un ensemble de données CoT ultralongues dotées de capacités de réflexion et de correction via un processus d'auto-jeu (self-play) + MCTS, combinées à d'autres données open source pour l'entraînement. De plus, l'équipe de recherche a défini des mini-étapes pour élargir davantage l'espace de solutions du modèle et le guider vers des réponses optimisées.
Dans les tâches de traduction, Marco-o1 a démontré sa capacité à gérer des phrases longues et complexes, marquant la première application de l'extension d'inférence à la traduction automatique. L'équipe de recherche a publié en open source une partie des données CoT et le meilleur modèle actuel, et prévoit de publier davantage de données et de modèles à l'avenir.
Lors de l'inférence, le modèle réfléchit profondément à la réponse. Par exemple, pour compter le nombre de 'r' dans le mot 'strawberry', il décompose progressivement chaque lettre du mot et les compare, aboutissant à un résultat correct. Dans le domaine de la traduction automatique, le modèle identifie correctement les difficultés grâce à la chaîne de raisonnement, traduit mot à mot et améliore ainsi la précision globale de la traduction.
L'équipe de recherche a également mené des essais dans d'autres domaines, démontrant la capacité du modèle à résoudre d'autres problèmes réels courants. La structure globale de Marco-o1 est basée sur un ensemble de données CoT ultralongues dotées de capacités de réflexion et de correction, construites via un processus d'auto-jeu (self-play) + MCTS, et combinées à d'autres données open source pour l'entraînement. L'équipe a également intégré certains ensembles de données d'instructions de la famille MarcoPolo, améliorant ainsi la capacité du modèle à suivre les instructions.
Pour son utilisation, l'équipe de recherche fournit le code d'inférence et le code d'ajustement fin. Les utilisateurs peuvent facilement charger le modèle et le tokeniseur, puis commencer à discuter ou à affiner le modèle. De plus, le modèle peut être exécuté directement dans sa version GGUF sur ModelScope, offrant une expérience plus rapide.
La publication de Marco-o1 marque une avancée importante pour l'équipe internationale d'IA d'Alibaba dans le domaine des modèles d'inférence, offrant de nouvelles pistes et outils pour résoudre des problèmes ouverts.
ModelScope :
https://modelscope.cn/models/AIDC-AI/Marco-o1
Arxiv :
https://arxiv.org/abs/2411.14405
Github :
https://github.com/AIDC-AI/Marco-o1
Hugging Face :
https://huggingface.co/AIDC-AI/Marco-o1