智谱AI hat kürzlich sein neuestes Basis-Großmodell GLM-4-Plus vorgestellt, das eine mit OpenAI GPT-4 vergleichbare leistungsstarke visuelle Fähigkeit demonstriert und am 30. August für die Nutzung freigegeben wird. Dieser bahnbrechende Fortschritt markiert nicht nur einen Sprung in der chinesischen KI-Technologie, sondern bietet Nutzern auch ein noch nie dagewesenes intelligentes Erlebnis.
Wichtigste Updates:
Sprachgrundmodell GLM-4-Plus: Erreicht einen qualitativen Sprung in der Sprachverarbeitung, Befehlsausführung und Verarbeitung langer Texte und bleibt international wettbewerbsfähig.
Text-zu-Bild-Modell CogView-3-Plus: Die Leistung ist vergleichbar mit den branchenführenden Modellen MJ-V6 und FLUX.
Bild-/Videoanalysemodell GLM-4V-Plus: Zeigt nicht nur hervorragende Fähigkeiten in der Bildanalyse, sondern verfügt auch über eine zeitreihenbasierte Videoanalysefunktion. Dieses Modell wird bald auf der offenen Plattform bigmodel.cn verfügbar sein und die erste allgemeine Videoanalyse-Modell-API in China darstellen.
Videogenerierungsmodell CogVideoX: Nach der Veröffentlichung und Open-Source-Verfügbarkeit der 2B-Version wird nun auch die 5B-Version veröffentlicht, mit deutlich verbesserter Leistung und als derzeit führendes Open-Source-Videogenerierungsmodell.
Die kumulative Download-Anzahl der Open-Source-Modelle von Zhishu hat 20 Millionen überschritten und trägt erheblich zur Entwicklung der Open-Source-Community bei.
GLM-4-Plus zeichnet sich in mehreren Schlüsselbereichen aus. In Bezug auf die Sprachfähigkeit erreicht das Modell in Bereichen wie Verständnis, Befehlserfüllung und Verarbeitung langer Texte ein international führendes Niveau, vergleichbar mit GPT-4 und dem 405B-Parameter-Modell Llama3.1. Besonders hervorzuheben ist, dass GLM-4-Plus durch eine präzise Mischstrategie von kurzen und langen Textdaten die Ergebnisse der Langtextinferenz deutlich verbessert hat.
Im Bereich der visuellen Intelligenz zeigt GLM-4V-Plus herausragende Fähigkeiten im Verständnis von Bildern und Videos. Es verfügt über zeitliche Wahrnehmung und kann komplexe Videoinhalte verarbeiten und verstehen. Bemerkenswert ist, dass dieses Modell auf der Zhishu-Open-Source-Plattform verfügbar sein wird und die erste allgemeine Videoanalyse-Modell-API in China darstellt, die Entwicklern und Forschern leistungsstarke Werkzeuge bietet.
Beispielsweise können Sie ein Video hochladen und fragen: Was macht der Spieler im grünen Trikot im gesamten Video? Es kann die Aktionen des Spielers präzise beschreiben und Ihnen genau sagen, wann die Höhepunkte des Videos stattfinden.
Screenshot von der offiziellen Webseite
Zhishu AI hat auch im Bereich der Generierung bahnbrechende Fortschritte erzielt. CogView-3-Plus erreicht in der Text-zu-Bild-Leistung fast das Niveau der derzeit besten Modelle wie MJ-V6 und FLUX. Gleichzeitig wurde die leistungsstärkere 5B-Version des Videogenerierungsmodells CogVideoX veröffentlicht, das als derzeit beste Wahl unter den Open-Source-Videogenerierungsmodellen gilt.
Am meisten erwartet wird die Einführung der "Videoanruf"-Funktion in der Zhishu Qingyan-App, der ersten KI-Videoanruffunktion für Endkunden in China. Diese Funktion umfasst drei Modalitäten: Text, Audio und Video, und verfügt über Echtzeit-Inferenzfähigkeiten. Benutzer können sich flüssig mit der KI unterhalten, selbst bei häufigen Unterbrechungen reagiert sie schnell.
Noch erstaunlicher ist, dass die KI das Bild, das der Benutzer sieht, erkennen und verstehen und gleichzeitig Sprachbefehle präzise ausführen kann, sobald die Kamera eingeschaltet ist.
Diese revolutionäre Videoanruffunktion wird am 30. August eingeführt und zunächst für einen Teil der Qingyan-Benutzer freigegeben, wobei auch externe Anträge angenommen werden. Diese Innovation zeigt nicht nur die technologische Stärke von Zhishu AI, sondern eröffnet auch neue Möglichkeiten für die tiefe Integration von künstlicher Intelligenz in den Alltag.
Referenzen: https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w