Das internationale KI-Team von Alibaba hat kürzlich ein neues Inferenzmodell namens Marco-o1 veröffentlicht. Dieses Modell konzentriert sich besonders auf die Lösung offener Fragen und beschränkt sich nicht auf Fachgebiete mit standardisierten Antworten wie Programmierung und Mathematik. Das Forschungsteam untersucht, ob sich solche Modelle effektiv auf Bereiche übertragen lassen, die schwer zu quantifizieren sind und keine klaren Belohnungen bieten.

微信截图_20241126082757.png

Zu den Merkmalen des Marco-o1-Modells gehören das Feintuning mit ultralangen CoT-Daten, die Erweiterung des Lösungsraums mithilfe von MCTS und die feinkörnige Erweiterung des Lösungsraums. Das Modell erstellt mithilfe von Self-Play + MCTS eine Reihe von ultralangen CoT-Daten mit Reflexions- und Korrekturfähigkeiten und trainiert diese zusammen mit anderen Open-Source-Daten. Darüber hinaus hat das Forschungsteam Mini-Steps definiert, um den Lösungsraum des Modells weiter zu erweitern und das Modell zu besseren Antworten zu führen.

Bei Übersetzungsaufgaben zeigte das Marco-o1-Modell seine Fähigkeit, lange und komplexe Sätze zu übersetzen. Dies ist die erste Anwendung der Inferenzzeit-Erweiterung auf maschinelle Übersetzungsaufgaben. Das Forschungsteam hat einen Teil der CoT-Daten und das derzeit beste Modell als Open Source veröffentlicht und plant, in Zukunft weitere Daten und Modelle als Open Source zur Verfügung zu stellen.

微信截图_20241126082711.png

Das Modell denkt bei der Inferenz über die Antwort gründlich nach. Wenn es beispielsweise die Anzahl der Buchstaben „r“ im Wort „strawberry“ ausgeben soll, zerlegt es das Wort schrittweise in einzelne Buchstaben und vergleicht sie, um schließlich das richtige Ergebnis auszugeben. Im Bereich der maschinellen Übersetzung identifiziert das Modell durch die Inferenzkette korrekt die Herausforderungen und übersetzt Wort für Wort, wodurch die Genauigkeit der Übersetzung insgesamt verbessert wird.

Das Forschungsteam hat auch Versuche in anderen Bereichen durchgeführt und gezeigt, dass das Modell in der Lage ist, andere allgemeine reale Probleme zu lösen. Die Gesamtstruktur von Marco-o1 erstellt mithilfe von Self-Play + MCTS eine Reihe von ultralangen CoT-Daten mit Reflexions- und Korrekturfähigkeiten und trainiert diese zusammen mit anderen Open-Source-Daten. Das Forschungsteam hat auch einige Anweisungs-folgende Datensätze der MarcoPolo-Familie integriert, um die Fähigkeit des Modells zur Anweisungsbefolgung zu verbessern.

Für die Verwendung stellt das Forschungsteam Inferenzcode und Feintuning-Code bereit. Benutzer können das Modell und den Tokenizer einfach laden und mit dem Chatten oder Feintuning des Modells beginnen. Darüber hinaus kann das Modell direkt in der GGUF-Version auf ModelScope ausgeführt werden, was eine schnellere Möglichkeit bietet.

Die Veröffentlichung des Marco-o1-Modells markiert einen wichtigen Schritt des internationalen KI-Teams von Alibaba im Bereich der Inferenzmodelle und bietet neue Ansätze und Werkzeuge zur Lösung offener Fragen.

ModelScope:

https://modelscope.cn/models/AIDC-AI/Marco-o1

Arxiv:

https://arxiv.org/abs/2411.14405

Github:

https://github.com/AIDC-AI/Marco-o1

Hugging Face:

https://huggingface.co/AIDC-AI/Marco-o1