A Beijing Zhipu AI Technology Co., Ltd. anunciou recentemente que tornará a API do seu modelo de linguagem grande GLM-4-Flash disponível gratuitamente ao público, a fim de promover a popularização e aplicação da tecnologia de modelos grandes.
O modelo GLM-4-Flash apresenta vantagens significativas em velocidade e desempenho, especialmente na velocidade de inferência. Através da adoção de medidas de otimização, como quantização adaptativa de pesos, processamento paralelo, estratégias de processamento em lote e amostragem especulativa, ele alcançou uma velocidade estável de até 72,14 tokens/s, um desempenho excepcional entre modelos semelhantes.
Em termos de otimização de desempenho, o modelo GLM-4-Flash utilizou 10 TB de dados multilíngues de alta qualidade na fase de pré-treinamento. Isso permite que o modelo não apenas processe tarefas como diálogos de várias rodadas, pesquisa na web e chamadas de ferramentas, mas também suporte inferência de texto longo, com comprimento de contexto máximo de até 128K. Além disso, o modelo suporta 26 idiomas, incluindo chinês, inglês, japonês, coreano, alemão, demonstrando sua poderosa capacidade multilíngue.
Para atender às necessidades específicas dos diferentes usuários em relação ao modelo, a Zhipu AI também oferece a função de ajuste fino do modelo, ajudando os usuários a adaptar melhor o modelo GLM-4-Flash a vários cenários de aplicação. Essa iniciativa da Zhipu AI visa permitir que um público mais amplo experimente e utilize a tecnologia avançada de modelos grandes, expandindo ainda mais os limites de aplicação da tecnologia de IA.
Endereço da API: https://open.bigmodel.cn/dev/api#glm-4