SenseTime hat offiziell sein neues „RiRiXin“ (日日新) Multimodal-Fusionsmodell vorgestellt. Dieses Modell zeigt eine deutliche Verbesserung in der Verarbeitung multimodaler Informationen und der Tiefeninferenz und erreichte in zwei renommierten Benchmark-Tests den ersten Platz.
Laut dem von der führenden chinesischen Bewertungsstelle SuperCLUE veröffentlichten „Benchmark-Test für chinesische große Sprachmodelle 2024“ belegt das SenseTime „RiRiXin“ Fusionsmodell mit einer hohen Punktzahl von 68,3 gemeinsam mit DeepSeek V3 den ersten Platz im Inland. Darüber hinaus belegte das Modell auch im Multimodal-Test von OpenCompass den ersten Platz und übertraf GPT-4o deutlich.
SenseTimes „RiRiXin“ Fusionsmodell markiert einen substanziellen Durchbruch im Bereich des nativen multimodalen Trainings. Dies bedeutet, dass das Modell die Fusion verschiedener Informationsarten wie Text, Bilder und Videos ermöglicht und neue Entwicklungsmöglichkeiten für die Branche eröffnet. Im SuperCLUE-Test erzielte das Modell sowohl in den Geistes- als auch in den Naturwissenschaften hervorragende Ergebnisse: In den Geisteswissenschaften erreichte es mit 81,8 Punkten den weltweit ersten Platz, und in den Naturwissenschaften errang es eine Goldmedaille, wobei es im Bereich der Berechnungen mit 78,2 Punkten den ersten Platz im Inland belegte.
Das „RiRiXin“ Fusionsmodell zeichnet sich durch die gleichzeitige Verarbeitung komplexer und vielfältiger Informationen aus. Es kann nicht nur unscharfe Texte erkennen, sondern auch Datendiagramme schnell analysieren und tiefgreifende Inferenz-Unterstützung bieten. In realen Anwendungsszenarien zeigt das Modell seine einzigartigen Vorteile, insbesondere in Bereichen wie autonomes Fahren, Videointeraktion, Büroausbildung, Finanzen und industrielle Fertigung.
Bei der Produktentwicklung verwendete SenseTime eine große Menge an Daten mit Text-Bild-Kombinationen. Durch fortschrittliche Synthesetechniken wurde eine Brücke zwischen den Modalitäten geschaffen, wodurch das Verständnis des Modells für multimodale Informationen verbessert wurde. Darüber hinaus hat SenseTime eine Vielzahl von cross-modalen Aufgaben aufgebaut, die eine solide Grundlage für das Training des „RiRiXin“ Fusionsmodells bilden. Durch diese innovative Trainingsmethode kann das multimodale Fusionsmodell von SenseTime effektiv auf die Bedürfnisse der Benutzer in verschiedenen Anwendungsszenarien reagieren und einen positiven Kreislauf zwischen Anwendungsentwicklung und der Iteration des Basismodells schaffen.
Wichtigste Punkte:
🌟 SenseTime präsentiert das „RiRiXin“ Fusionsmodell mit herausragenden Leistungen.
📊 Das Modell zeigt exzellente Ergebnisse in Geistes- und Naturwissenschaften – weltweit führend in Geisteswissenschaften und im Inland führend in Naturwissenschaften.
🚀 Das Modell ist für verschiedene Bereiche geeignet, wie z. B. autonomes Fahren, Finanzen und Online-Bildung, und zeigt seine starke Fähigkeit zur Verarbeitung multimodaler Informationen.