Zhihu Technology hat kürzlich die Open-Source-Veröffentlichung seiner GLM-Edge-Serie von Edge-basierten Large Language und Multimodal-Modellen angekündigt. Dieser Schritt markiert einen wichtigen Versuch des Unternehmens, die Modelle in realen Anwendungsszenarien auf Endgeräten zu implementieren. Die GLM-Edge-Serie besteht aus vier Modellen unterschiedlicher Größe: GLM-Edge-1.5B-Chat, GLM-Edge-4B-Chat, GLM-Edge-V-2B und GLM-Edge-V-5B. Sie sind jeweils optimiert für mobile Plattformen wie Smartphones und Infotainmentsysteme im Auto sowie für Desktop-Plattformen wie PCs.

Zhihu AI

Aufbauend auf den technologischen Errungenschaften der GLM-4-Serie hat das Zhihu-Forschungsteam die Modellarchitektur und -größe angepasst, um ein optimales Gleichgewicht zwischen Modellleistung, Echtzeit-Inferenz und Implementierungsfreundlichkeit zu erreichen. Durch die enge Zusammenarbeit mit Partnern und Inferenzoptimierungen zeigt die GLM-Edge-Serie auf einigen Endgeräteplattformen eine außergewöhnliche Geschwindigkeit. Insbesondere auf der Qualcomm Snapdragon 8 Elite Plattform, unter Nutzung der NPU-Rechenleistung und einer gemischten Quantisierungslösung, erreichen das 1,5B-Chatmodell und das 2B-Multimodalmodell eine Dekodierungsgeschwindigkeit von über 60 Tokens pro Sekunde. Mit der Anwendung von spekulativer Stichprobennahme erhöht sich die Dekodierungsgeschwindigkeit sogar auf über 100 Tokens pro Sekunde.

Die Open-Source-Veröffentlichung der GLM-Edge-Serie von Zhihu demonstriert nicht nur die technologische Kompetenz des Unternehmens im Bereich der künstlichen Intelligenz, sondern bietet Entwicklern und Forschern auch leistungsstarke Werkzeuge und Ressourcen zur Förderung der Entwicklung und Innovation von KI-Anwendungen auf Endgeräten.

GLM-Edge Sammlung:

https://modelscope.cn/collections/GLM-Edge-ff0306563d2844