Die Pekinger Firma Zhipu AI gab am 29. August 2024 wichtige technische Aktualisierungen bekannt, darunter die Veröffentlichung eines neuen Basismodells und neuer Anwendungsdienste.

Auf der KDD2024-Konferenz stellte Zhipu eine neue Generation von Basismodellen vor, darunter das Sprachmodell GLM-4-Plus, das Text-zu-Bild-Modell CogView-3-Plus, das Bild-/Videoanalysemodell GLM-4V-Plus und das Videogenerierungsmodell CogVideoX. Diese Modelle erreichen in ihren jeweiligen Bereichen weltweit führende Leistungen.

Das GLM-4-Plus-Modell zeigt umfasste Verbesserungen in den Bereichen Sprachverständnis, Anweisungsbefolgung und Verarbeitung langer Texte und erreicht ein Niveau vergleichbar mit Top-Modellen wie GPT-4o. Das CogView-3-Plus-Modell verwendet eine Transformer-Architektur anstelle der traditionellen UNet-Architektur, wodurch die Modellleistung optimiert wurde und es sich den Top-Modellen wie MJ-V6 und FLUX annähert. Das GLM-4V-Plus-Modell bietet eine qualitativ hochwertige Bild- und Videoanalyse und ist die erste allgemeine Videoanalyse-Modell-API in China. Das CogVideoX-Modell wurde nach der Veröffentlichung der 2B-Version um eine 5B-Version erweitert, die Open Source ist und eine verbesserte Leistung aufweist. Es ist damit eines der führenden Open-Source-Videogenerierungsmodelle.

微信截图_20240830075752.png

Darüber hinaus hat Zhipu mit der „Qingyan App“ den ersten Video-Chat-Dienst für Endkunden in China eingeführt. Dieser Dienst umfasst Text-, Audio- und Videomodi und verfügt über Echtzeit-Inferenzfunktionen, die den Nutzern ein flüssiges interaktives Erlebnis bieten.

Zhipu kündigte außerdem die kostenlose Nutzung der GLM-4-Flash-API an. Diese API bietet Vorteile in Bezug auf Geschwindigkeit und Leistung und ermöglicht es Nutzern, schnell und kostenlos eigene Modelle und Anwendungen zu erstellen. Um den unterschiedlichen Bedürfnissen der Nutzer gerecht zu werden, bietet Zhipu auch eine Modell-Feinabstimmungsfunktion an.

Zhipu erklärte, dass es seine Bemühungen fortsetzen wird, Maschinen menschenähnliches Denken zu ermöglichen und den Nutzern fortschrittlichere Technologien und Dienstleistungen zu bieten.

Wichtigste Aktualisierungen:

  • Sprachbasismodell GLM-4-Plus: Verbesserte Leistung in den Bereichen Sprachverständnis, Anweisungsbefolgung und Verarbeitung langer Texte, weiterhin weltweit führend.

  • Text-zu-Bild-Basismodell CogView-3-Plus: Bietet eine Leistung, die den aktuell besten Modellen wie MJ-V6 und FLUX ebenbürtig ist.

  • Bild-/Videoanalyse-Basismodell GLM-4V-Plus: Bietet hervorragende Bildanalysefähigkeiten und zeitbasierte Videoanalysefunktionen. Dieses Modell wird auf der offenen Plattform (bigmodel.cn) verfügbar sein und die erste allgemeine Videoanalyse-Modell-API in China darstellen.

  • Videogenerierungs-Basismodell CogVideoX: Nach der Veröffentlichung und Open-Source-Verfügbarkeit der 2B-Version wurde auch die 5B-Version veröffentlicht und ist Open Source. Die Leistung wurde weiter verbessert, und es ist die beste Wahl unter den aktuellen Open-Source-Videogenerierungsmodellen.

  • „Qingyan App“ mit Video-Chat: Der erste für Endkunden in China verfügbare Video-Chat-Dienst. Die Video-Chat-Funktion der „Qingyan App“ umfasst Text-, Audio- und Videomodi und verfügt über Echtzeit-Inferenzfunktionen.

  • GLM-4-Flash-API: Der Inferenzdienst ist völlig kostenlos und bietet eine Feinabstimmungsfunktion.

Link zur Beantragung des Video-Chat-Dienstes:

https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf