Moon's Dark Side gibt heute die Veröffentlichung seines neuen visuellen Denkmodells k1 bekannt. Dieses Modell basiert auf Reinforcement Learning und unterstützt nicht nur ein End-to-End-Bildverständnis, sondern integriert auch die Technik der Denkverkettung (Thought Chain). Dadurch erweitert es seine Fähigkeiten über die Mathematik hinaus auf weitere grundlegende wissenschaftliche Bereiche wie Physik und Chemie. In Benchmark-Tests übertraf das k1-Modell weltweit führende Modelle wie OpenAIs o1, GPT-4o und Claude3.5Sonnet.
Das neue Modell erzeugt durch Anreize detailliertere Inferenzschritte und bildet so hochwertige Denkverkettungen, wodurch die Erfolgsrate bei der Lösung komplexer Aufgaben deutlich gesteigert wird. Die Kombination aus Bildverständnis und Denkfähigkeit von Kimis k1-Modell bietet Benutzern ein flüssigeres interaktives Erlebnis. Es kann eingegebene Bildinformationen direkt verarbeiten und Antworten liefern, ohne dass ein externes OCR oder ein zusätzliches visuelles Modell benötigt wird.
Das Training des k1-Modells erfolgte in zwei Phasen: Zuerst wurde ein Basismodell vortrainiert, auf dessen Grundlage dann ein Reinforcement Learning-Feintuning durchgeführt wurde. Das Basismodell erzielte auf OCRBench hervorragende 903 Punkte und zeigte auch in den Benchmark-Testsätzen MathVista-testmini, MMMU-val und DocVQA herausragende Leistungen. Das Reinforcement Learning-Feintuning wurde hinsichtlich Datenqualität und Lerneffizienz optimiert und ermöglichte einen neuen Durchbruch im Hinblick auf Skalierbarkeit.
Kimi hat außerdem einen standardisierten Testsatz namens Science Vista erstellt, der mathematische und naturwissenschaftliche Bildaufgaben unterschiedlicher Schwierigkeitsgrade umfasst und der der gesamten Branche zur Verfügung gestellt wird. Obwohl das k1-Modell in internen Tests einige Einschränkungen aufwies, wie z. B. Verbesserungspotenzial bei der Generalisierung außerhalb der Verteilung und der Erfolgsrate bei komplexen Problemen, übertraf es andere Modelle in Szenarien mit visuellem Rauschen und zeigte eine überragende visuelle Erkennungsfähigkeit.
Das visuelle Denkmodell k1 des Kimi intelligenten Assistenten zeichnet sich nicht nur durch seine hervorragende Leistung im Bereich Mathematik aus, sondern erstreckt sich auch auf die Physik und Chemie und zeigt damit umfassende Fähigkeiten in den Grundlagenwissenschaften. Darüber hinaus zeigt das k1-Modell allgemeine Fähigkeiten, indem es nicht-mathematische Probleme wie den Inhalt und den Hintergrund von wissenschaftlichen Manuskripten erklären und ableiten kann.
Der Kimi intelligente Assistent freut sich darauf, mit den Nutzern die Welt zu erkunden. Das neue k1-Modell ist bereits online. Nutzer können die neue Funktion über die neueste Version der Kimi intelligenten Assistenten-App oder die Webversion erleben.