Die Beijing Zhihu Hua Zhang Technology Co., Ltd. gab am 16. Januar 2025 die Einführung einer Reihe neuer Modelle bekannt, die auf bigmodel.cn online verfügbar sind. Nach der Einführung von „ZhiShu QingYan“ im August hat das Unternehmen die Erforschung im Bereich des Verstehens und der Generierung von Sprache, Sprache, Bildern und Videos vertieft und multimodale Modelle wie GLM-Voice, GLM-4V, CogView und CogVideoX vorgestellt.
Das neu veröffentlichte End-to-End-Modell GLM-Realtime ermöglicht eine verzögerungsarme Videoanalyse und Sprachinteraktion, beinhaltet eine Karaoke-Funktion und unterstützt ein Gedächtnis von bis zu 2 Minuten sowie die Function-Call-Funktion. Das Unternehmen hat gleichzeitig die Modelle GLM-4-Air und GLM-4V-Plus aktualisiert und konzentriert sich darauf, branchenführende Leistung und ein optimales Preis-Leistungs-Verhältnis für Sprachmodell-Lösungen zu bieten. Zhihu engagiert sich stets dafür, die Gesellschaft mit fortschrittlicher Large-Model-Technologie zu unterstützen und hat speziell das kostenlose Flash-Multimodal-Modell eingerichtet, das Sprache, Text-zu-Bild, Text-zu-Video und Bildanalyse in verschiedenen Szenarien umfasst und Entwicklern hilft, Anwendungen einfach zu innovieren.
GLM-Realtime verfügt bei Videoanrufen über eine Erinnerungsfunktion für Inhalte von 2 Minuten. Im Bereich der Sprachinteraktion wurde innovativ eine Karaoke-Funktion implementiert, die es dem großen Modell ermöglicht, im Gespräch zu singen. Das Unternehmen integriert die Realtime-API in Smart Glasses und Begleitpuppen, damit Benutzer eine nahezu Echtzeit-Interaktion mit intelligenten Assistenten erleben können. Realtime unterstützt außerdem die Function-Call-Funktion, die es ermöglicht, auf der Grundlage des eigenen Wissens und der eigenen Fähigkeiten flexibel auf externes Wissen und Tools zuzugreifen und sich auf ein breiteres Spektrum an Geschäftsszenarien auszuweiten. Die GLM-Realtime-API ist bereits auf der Zhihu-Open-Plattform bigmodel.cn verfügbar und kann derzeit kostenlos verwendet werden.
GLM-4-Air erfreut sich seit seiner Einführung aufgrund seines hohen Preis-Leistungs-Verhältnisses großer Beliebtheit bei Entwicklern. Diese umfassende Aktualisierung zu GLM-4-Air-0111 verbessert die Leistung in einigen Bereichen durch Optimierung der Trainingsdaten und -prozesse, die der von GLM-4-Plus mit größerem Umfang nahekommt. Gleichzeitig wurde der Preis des Modells auf 50 % des ursprünglichen Preises gesenkt, wodurch die Anwendung von großen Modellen erschwinglicher wird. Das visuelle Verständnismodell GLM-4V-Plus wurde ebenfalls umfassend aktualisiert. Die neue Version zeigt eine deutlich verbesserte Leistung in mehreren öffentlichen Benchmarks, unterstützt die variable Auflösung, passt sich an verschiedene Bildgrößen an, reduziert den Token-Verbrauch bei kleinen Bildern deutlich, unterstützt die verlustfreie Erkennung von 4K-Ultra-HD-Bildern und Bildern mit extrem hohen Seitenverhältnissen und verfügt über eine Videoanalysefunktion von bis zu 2 Stunden, die eine effiziente und präzise Lösung für die Analyse langer Videos bietet.
Zhihu setzt sich für die Demokratisierung großer Modelle ein und bietet speziell für die Unterstützung von Innovationen bei Entwicklern kostenlose Flash-Modell-APIs für die gesamte Gesellschaft an. Als erstes branchenweites kostenloses Multimodal-Modell können Entwickler Sprach-, Multimodal-Verständnis- und Multimodal-Generierungsfunktionen kostenlos nutzen. Die Flash-Serie wird in Kürze umfassend aktualisiert. Zu den Mitgliedern gehören das Sprachmodell GLM-4-Flash, das Bildanalysemodell GLM-4V-Flash, das Bildgenerierungsmodell CogView-3-Flash und das Videogenerierungsmodell CogVideoX-Flash.