Im Bereich der multimodalen künstlichen Intelligenz zeigen chinesische Großmodelle eine beeindruckende Stärke. Die kürzlich veröffentlichte SuperCLUE-V-Rangliste für chinesische multimodale Großmodelle zeigt, dass Tenzents hunyuan-vision und das InternVL2-40B des Shanghai AI Lab die beiden führenden Modelle im geschlossenen bzw. offenen Bereich in China sind und sogar die international bekannten Claude-3.5-Sonnet und Googles Gemini-1.5-Pro übertreffen.
Die multimodale Version des Tencent Hun Yuan-Großmodells, hunyuan-vision, erfreut sich nicht nur bei Entwicklern aufgrund seiner API-Aufrufe großer Beliebtheit, sondern ist auch in der Tencent Yuanbao-App für Benutzer kostenlos verfügbar. Die Yuanbao-App ist bekannt als „praktischer KI-Partner“ und betont die Benutzerfreundlichkeit. Ihr Durchbruch in der multimodalen Fähigkeit hat ihr in der Bewertung den ersten Platz in China eingebracht.
Um den Fortschritt chinesischer multimodaler Großmodelle anschaulicher zu demonstrieren, haben wir eine Reihe von Tests mit Tencent Yuanbao durchgeführt. Von der Interpretation von Meme-Bildern und Emojis über die Bilderkennung bis hin zu Herausforderungen mit optischen Täuschungen hat Tencent Yuanbao hervorragende Leistungen gezeigt. In realen Anwendungsszenarien konnte Yuanbao Finanzberichte zusammenfassen, wissenschaftliche Diagramme erkennen und logische Aufgaben lösen und dabei stets korrekte und sinnvolle Antworten liefern.
Besonders in einer Zusatzaufgabe, die das Verständnis des chinesischen kulturellen Hintergrunds prüfte, erkannte Tencent Yuanbao korrekt einen Screenshot von „Die Calabash Brothers“ (葫芦兄弟) und beantwortete die dazugehörige Frage richtig, was seine Stärke im Verständnis des chinesischen Kontextes zeigt.
Das Tencent Hun Yuan-Großmodell, ein „alter Bekannter“, wird seit seiner ersten Vorstellung im September letzten Jahres kontinuierlich weiterentwickelt und umfasst mittlerweile Billionen von Parametern. Es deckt die Bereiche Text-, multimodale Verarbeitung und -generierung ab. Unter den chinesischen Großmodellen hat Tencent Hun Yuan als erstes ein MoE-Architektur-Upgrade abgeschlossen und ist von einem einzelnen dichten Modell zu einem spärlichen Modell mit mehreren Experten übergegangen.
Die Tencent Yuanbao-App, die sich als „praktischer KI-Partner“ präsentiert, zeichnet sich nicht nur durch die Synchronisierung auf mehreren Geräten und die Synchronisierung des Chatverlaufs aus, sondern auch durch ihre starken Fähigkeiten im multimodalen Verständnis. Ob Dokument-Screenshots, Porträts, Landschaften, Kassenbons oder beliebige Fotos – Yuanbao kann auf der Grundlage des Bildinhalts seine Interpretationen und Analysen liefern.
Das Tencent Yuanbao-Team gab bekannt, dass es sich in Zukunft verstärkt auf die Integration multimodaler Fähigkeiten in das Modell konzentrieren wird, um das Benutzererlebnis weiter zu verbessern. Gleichzeitig hat Tencent auch Funktionsaktualisierungen in den Bereichen Tiefensuche und tiefes Lesen langer Texte durchgeführt, um technische Details zu reduzieren und die Benutzerfreundlichkeit zu verbessern.