智谱发布GLM-4-Air、GLM-4V-Plus模型，推出Flash全模态免费模型

Die Beijing Zhihu Hua Zhang Technology Co., Ltd. gab am 16. Januar 2025 die Einführung einer Reihe neuer Modelle bekannt, die auf bigmodel.cn online verfügbar sind. Nach der Einführung von „ZhiShu QingYan“ im August hat das Unternehmen die Erforschung im Bereich des Verstehens und der Generierung von Sprache, Sprache, Bildern und Videos vertieft und multimodale Modelle wie GLM-Voice, GLM-4V, CogView und CogVideoX vorgestellt.

Das neu veröffentlichte End-to-End-Modell GLM-Realtime ermöglicht eine verzögerungsarme Videoanalyse und Sprachinteraktion, beinhaltet eine Karaoke-Funktion und unterstützt ein Gedächtnis von bis zu 2 Minuten sowie die Function-Call-Funktion. Das Unternehmen hat gleichzeitig die Modelle GLM-4-Air und GLM-4V-Plus aktualisiert und konzentriert sich darauf, branchenführende Leistung und ein optimales Preis-Leistungs-Verhältnis für Sprachmodell-Lösungen zu bieten. Zhihu engagiert sich stets dafür, die Gesellschaft mit fortschrittlicher Large-Model-Technologie zu unterstützen und hat speziell das kostenlose Flash-Multimodal-Modell eingerichtet, das Sprache, Text-zu-Bild, Text-zu-Video und Bildanalyse in verschiedenen Szenarien umfasst und Entwicklern hilft, Anwendungen einfach zu innovieren.

微信截图_20250116150923.png

GLM-Realtime verfügt bei Videoanrufen über eine Erinnerungsfunktion für Inhalte von 2 Minuten. Im Bereich der Sprachinteraktion wurde innovativ eine Karaoke-Funktion implementiert, die es dem großen Modell ermöglicht, im Gespräch zu singen. Das Unternehmen integriert die Realtime-API in Smart Glasses und Begleitpuppen, damit Benutzer eine nahezu Echtzeit-Interaktion mit intelligenten Assistenten erleben können. Realtime unterstützt außerdem die Function-Call-Funktion, die es ermöglicht, auf der Grundlage des eigenen Wissens und der eigenen Fähigkeiten flexibel auf externes Wissen und Tools zuzugreifen und sich auf ein breiteres Spektrum an Geschäftsszenarien auszuweiten. Die GLM-Realtime-API ist bereits auf der Zhihu-Open-Plattform bigmodel.cn verfügbar und kann derzeit kostenlos verwendet werden.

GLM-4-Air erfreut sich seit seiner Einführung aufgrund seines hohen Preis-Leistungs-Verhältnisses großer Beliebtheit bei Entwicklern. Diese umfassende Aktualisierung zu GLM-4-Air-0111 verbessert die Leistung in einigen Bereichen durch Optimierung der Trainingsdaten und -prozesse, die der von GLM-4-Plus mit größerem Umfang nahekommt. Gleichzeitig wurde der Preis des Modells auf 50 % des ursprünglichen Preises gesenkt, wodurch die Anwendung von großen Modellen erschwinglicher wird. Das visuelle Verständnismodell GLM-4V-Plus wurde ebenfalls umfassend aktualisiert. Die neue Version zeigt eine deutlich verbesserte Leistung in mehreren öffentlichen Benchmarks, unterstützt die variable Auflösung, passt sich an verschiedene Bildgrößen an, reduziert den Token-Verbrauch bei kleinen Bildern deutlich, unterstützt die verlustfreie Erkennung von 4K-Ultra-HD-Bildern und Bildern mit extrem hohen Seitenverhältnissen und verfügt über eine Videoanalysefunktion von bis zu 2 Stunden, die eine effiziente und präzise Lösung für die Analyse langer Videos bietet.

Zhihu setzt sich für die Demokratisierung großer Modelle ein und bietet speziell für die Unterstützung von Innovationen bei Entwicklern kostenlose Flash-Modell-APIs für die gesamte Gesellschaft an. Als erstes branchenweites kostenloses Multimodal-Modell können Entwickler Sprach-, Multimodal-Verständnis- und Multimodal-Generierungsfunktionen kostenlos nutzen. Die Flash-Serie wird in Kürze umfassend aktualisiert. Zu den Mitgliedern gehören das Sprachmodell GLM-4-Flash, das Bildanalysemodell GLM-4V-Flash, das Bildgenerierungsmodell CogView-3-Flash und das Videogenerierungsmodell CogVideoX-Flash.

KI-Nachrichten und -Informationen

智谱发布GLM-4-Air、GLM-4V-Plus模型，推出Flash全模态免费模型

AIbase基地

Empfohlene verwandte KI-Nachrichten

智谱AI：Agentic GLM vollständig in der Samsung Galaxy S25-Serie verfügbar

智谱GLM-PC开放体验：自主操作电脑的多模态Agent升级

智谱和荣耀在AI大模型方面签署合作，探索终端AI智能体验

智谱发布新一代基础模型 GLM-4-Plus，清言APP升级视频通话功能