Kunlun Wanwei hat das weltweit erste Open-Source-Multimodal-Inferenzmodell der Industrie, Skywork R1V (kurz „R1V“), offiziell veröffentlicht. Dieses Modell mit 3,8 Milliarden Parametern erreicht fast die Leistung des bekannten Closed-Source-Modells DeepSeek-R1 und übertrifft es sogar in mehreren Benchmark-Tests, womit es eine Reihe aktueller Spitzentechnologien (SOTA) übertrifft. Kunlun Wanwei hat sich für die Open-Source-Veröffentlichung von R1V entschieden, um den Technologietransfer und den Fortschritt zu fördern und der globalen Open-Source-AI-Community neue Impulse zu verleihen.

QQ_1742285189313.png

R1V ist bekannt für seine hervorragenden multimodalen Inferenzfähigkeiten. Es kombiniert nahtlos Text- und visuelle Informationen und zeigt eine beeindruckende Intelligenz. Konkret konkurriert R1V in visuellen Frage-Antwort-Aufgaben direkt mit Closed-Source-Modellen wie Claude3.5Sonnet und GPT-4o und behält gleichzeitig seine erstklassigen Fähigkeiten im Text-Inferenzbereich. Im MMMU-Benchmark-Test erzielte R1V mit 69 Punkten einen neuen Rekord für Modelle vergleichbarer Größe, und im MathVista-Test erreichte es beeindruckende 67,5 Punkte, was seine Leistungsfähigkeit in komplexen mathematischen Schlussfolgerungen und logischen Analysen unterstreicht.

Der Erfolg von R1V ist auf mehrere innovative Technologien des Forschungsteams von Kunlun Wanwei zurückzuführen. Dazu gehört das Cross-Modale Transferlernen, eine Methode, die die Text-Inferenzfähigkeiten großer Modelle effektiv auf die visuelle Modalität überträgt und den Bedarf an multimodalen Inferenzdaten erheblich reduziert. Darüber hinaus verwendet R1V eine hybride Trainingsstrategie, die iteratives überwachtes Feintuning und Reinforcement Learning kombiniert, um die Länge der Denkverkettung dynamisch anzupassen und so die Inferenzeffizienz zu steigern. Erwähnenswert ist auch die Einführung eines adaptiven Denkverkettungs-Destillationsrahmens, um „Überdenken“ im Inferenzprozess zu vermeiden und die Effizienz und Qualität der Inferenz deutlich zu verbessern.

Mit der Einführung von R1V ist Kunlun Wanwei nicht nur das weltweit erste Unternehmen, das ein Open-Source-Multimodal-Inferenzmodell veröffentlicht, sondern hat auch einen wichtigen Schritt zur Verwirklichung des Traums von AGI (Artificial General Intelligence) getan. Die Modellgewichte, der Inferenzcode und der technische Bericht wurden öffentlich zugänglich gemacht. Jeder kann die entsprechenden Ressourcen über GitHub und Hugging Face abrufen.

Modellgewichts-Download

Hugging Face:

https://huggingface.co/Skywork/Skywork-R1V-38B

GitHub:

https://github.com/SkyworkAI/Skywork-R1V

Detaillierter technischer Bericht

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

Wichtigste Punkte:

🌟 Das weltweit erste Open-Source-Multimodal-Inferenzmodell der Industrie, Skywork R1V, wurde mit 3,8 Milliarden Parametern veröffentlicht.

🚀 R1V erzielte in mehreren Benchmark-Tests hervorragende Ergebnisse, insbesondere 69 Punkte im MMMU- und 67,5 Punkte im MathVista-Test.

📚 Kunlun Wanweis Open-Source-Initiative zielt darauf ab, den Technologietransfer zu fördern, der globalen Open-Source-AI-Community neue Impulse zu verleihen und die Verwirklichung des AGI-Traums zu unterstützen.