A Zhihu Technology anunciou recentemente a disponibilização em código aberto de sua série de modelos de linguagem ampla e multimodais para dispositivos finais, GLM-Edge. Este movimento representa uma tentativa significativa da empresa em cenários de uso real em dispositivos finais.

Inteligência Artificial Zhihu

Com base na experiência acumulada com a série GLM-4, a equipe de pesquisa da Zhihu ajustou a estrutura e o tamanho do modelo para alcançar o melhor equilíbrio entre desempenho do modelo, resultados de inferência em dispositivos reais e facilidade de implantação. Através da colaboração aprofundada com parceiros e otimização de inferência, os modelos da série GLM-Edge demonstraram velocidades de execução excepcionais em algumas plataformas de dispositivos finais. Especificamente na plataforma Qualcomm Snapdragon 8 Elite, com o auxílio da capacidade de processamento da NPU e da solução de quantização mista, o modelo de diálogo de 1,5B e o modelo multimodais de 2B conseguem atingir uma velocidade de decodificação superior a 60 tokens por segundo. Ao utilizar a técnica de amostragem especulativa, a velocidade de decodificação pode chegar a mais de 100 tokens por segundo.

A disponibilização em código aberto dos modelos da série GLM-Edge pela Zhihu não apenas demonstra a força tecnológica da empresa na área de inteligência artificial, mas também fornece aos desenvolvedores e pesquisadores ferramentas e recursos poderosos para promover o desenvolvimento e a inovação de aplicativos de IA em dispositivos finais.

Coleção GLM-Edge:

https://modelscope.cn/collections/GLM-Edge-ff0306563d2844