Kunlun Wanwei gibt heute die offizielle Veröffentlichung seines multimodalen Inferenzmodells Skywork R1V bekannt! Dies ist nicht nur das erste in der Industrie in China quelloffene multimodale Inferenzmodell, sondern markiert auch einen Meilenstein für die chinesische KI-Kraft im Bereich des multimodalen Verständnisses und der Inferenz! Ab sofort werden Modellgewichte und technische Berichte vollständig der Öffentlichkeit zugänglich gemacht!
Stellen Sie sich vor, ein KI-Modell kann nicht nur Bilder verstehen, sondern auch wie ein Mensch logisch denken und komplexe visuelle Probleme lösen – das ist keine Science-Fiction mehr, sondern die Fähigkeit, die Skywork R1V bereitstellt! Dieses Modell ist wie ein „KI-Sherlock Holmes“, der sich darauf spezialisiert hat, durch mehrstufige logische Analysen tiefgreifende Bedeutungen aus einer Vielzahl visueller Informationen herauszufiltern und schließlich präzise Antworten zu liefern. Ob es sich um das Knacken visueller Logikrätsel, das Beantworten anspruchsvoller visueller Mathematikaufgaben, die Analyse wissenschaftlicher Phänomene in Bildern oder sogar die Unterstützung der Diagnose von medizinischen Bildern handelt, Skywork R1V zeigt beeindruckende Fähigkeiten.

Um den „Intelligenzquotienten“ eines KI-Modells zu messen, sind Daten am überzeugendsten! In Bezug auf die Inferenzfähigkeit erzielte Skywork R1V in den maßgeblichen Benchmark-Tests MATH500 und AIME beeindruckende Ergebnisse von 94,0 bzw. 72,0! Das bedeutet, dass Skywork R1V sowohl komplexe mathematische Probleme als auch präzise logische Schlussfolgerungen problemlos bewältigen kann. Noch beeindruckender ist, dass es seine leistungsstarke Inferenzfähigkeit erfolgreich auf den visuellen Bereich übertragen hat und in den Benchmark-Tests MMMU und MathVista jeweils 69 und 67,5 Punkte erreicht hat! Diese harten Daten belegen direkt, dass Skywork R1V über erstklassige logische Inferenz- und mathematische Analysefähigkeiten verfügt!

Kunlun Wanwei erklärt stolz, dass hinter dem Skywork R1V-Modell drei wichtige technologische Innovationen stecken:
Erstens die hoch effiziente Übertragung der Textinferenzfähigkeit auf mehrere Modalitäten. Das Team von Kunlun Wanwei hat einen einzigartigen Ansatz gewählt und die visuelle Projektorfunktion von Skywork-VL geschickt genutzt, um die leistungsstarke Textinferenzfähigkeit ohne enorme Kosten für das erneute Training von Sprachmodellen und visuellen Encodern auf visuelle Aufgaben zu übertragen – ähnlich wie bei einer „großen Verlagerung“ – ohne die ursprüngliche Textinferenzfähigkeit zu beeinträchtigen!
Zweitens das multimodale Hybridtraining (Iterative SFT+GRPO). Diese Trainingsmethode ist wie das Füttern einer „gemischten Ernährung“ für das Modell. Durch die geschickte Kombination von iterativer überwachter Feinabstimmung und GRPO-Verstärkungslernen werden die visuellen und textbasierten Repräsentationen phasenweise und strategisch ausgerichtet, wodurch eine effiziente Fusion von Aufgaben über verschiedene Modalitäten hinweg erreicht wird, und die multimodale Fähigkeit des Modells sprunghaft ansteigt! In den Benchmark-Tests MMMU und MathVista kann Skywork R1V sogar mit größeren Closed-Source-Modellen mithalten!
Drittens die adaptive Längen-Gedankenketten-Destillation. Das Team von Kunlun Wanwei hat innovativ einen „intelligenten Bremsmechanismus“ entwickelt, mit dem das Modell die Länge der Inferenzkette an den Komplexitätsgrad von visuellen und textbasierten Daten anpassen kann, um „Überdenken“ zu vermeiden und so die Inferenzgenauigkeit bei gleichzeitiger erheblicher Steigerung der Inferenzeffizienz zu gewährleisten! In Kombination mit einer mehrstufigen Selbstdestillationsstrategie werden die Datenerstellung und die Inferenzqualität des Modells weiter verbessert, wodurch es in komplexen multimodalen Aufgaben noch besser zurechtkommt!

Die Veröffentlichung von Skywork R1V als Open Source wird zweifellos Forschern und Entwicklern in China und weltweit ein leistungsstarkes Werkzeug für die multimodale Inferenz bieten. Sein Erscheinen wird nicht nur die Innovation und Anwendung von multimodalen KI-Technologien beschleunigen, sondern auch die tiefgreifende Integration von KI-Technologien in verschiedenen Branchen fördern und uns eine intelligentere und bessere Zukunft eröffnen!