A Beijing Zhihu Hua Zhang Technology Co., Ltd. anunciou em 16 de janeiro de 2025 o lançamento de uma série de novos modelos, disponíveis em bigmodel.cn. Após o lançamento do "ZhiShu QingYan" em agosto, a empresa aprofundou sua exploração nas áreas de compreensão e geração de linguagem, voz, imagem e vídeo, lançando modelos multimodais como GLM-Voice, GLM-4V, CogView e CogVideoX.
O novo modelo de ponta a ponta GLM-Realtime, lançado desta vez, realiza compreensão de vídeo e interação de voz de baixa latência, incorpora a função de canto a capella e suporta memória de até 2 minutos e a função Function Call. A empresa também atualizou simultaneamente os modelos GLM-4-Air e GLM-4V-Plus, buscando fornecer soluções de modelos de linguagem com o melhor desempenho e custo-benefício do setor. A Zhihu sempre se dedicou a retribuir à sociedade com tecnologia avançada de grandes modelos, criando especificamente o modelo multi-modal gratuito Flash, que abrange vários cenários, incluindo linguagem, geração de imagem por texto, geração de vídeo por texto e compreensão de imagem, ajudando os desenvolvedores a implementar facilmente a inovação de aplicativos.
O GLM-Realtime possui capacidade de memória de conteúdo de 2 minutos em videochamadas e, na interação de voz, implementou inovadoramente a função de canto a capella, permitindo que o grande modelo cante durante a conversa. A empresa integrou a API Realtime em óculos inteligentes e bonecos de companhia para que os usuários experimentem uma interação de assistente inteligente quase em tempo real. O Realtime também suporta a função Function Call, podendo, com base em seu próprio conhecimento e capacidade, chamar de forma flexível conhecimentos e ferramentas externas, expandindo para cenários comerciais mais amplos. A API GLM-Realtime já está disponível na plataforma aberta Zhihu bigmodel.cn e, atualmente, seu uso é gratuito.
Desde seu lançamento, o GLM-4-Air tem sido popular entre os desenvolvedores devido ao seu alto custo-benefício. Desta vez, ele foi totalmente atualizado para GLM-4-Air-0111. Por meio da otimização dos dados e processos de treinamento, seu desempenho em algumas dimensões se aproxima do GLM-4-Plus, que é maior em escala, enquanto o preço do modelo foi reduzido para 50% do original, reduzindo a barreira para a aplicação de grandes modelos. O modelo de compreensão visual GLM-4V-Plus também foi totalmente atualizado. A nova versão apresentou uma melhoria significativa em vários rankings públicos, suporta a função de resolução variável, adaptando-se à entrada de imagens de diferentes tamanhos. Em cenários com imagens pequenas, o consumo de tokens é significativamente reduzido, suportando o reconhecimento sem perdas de imagens 4K ultra-nítidas e imagens com proporções extremamente longas e largas, e possui capacidade de compreensão de vídeo de até 2 horas, fornecendo soluções eficientes e precisas para compreensão e análise de vídeos longos.
A Zhihu está comprometida com a democratização dos grandes modelos e, para apoiar a inovação dos desenvolvedores, criou especificamente APIs de modelos gratuitos Flash para toda a sociedade. Como a primeira série de modelos gratuitos multimodais do setor, os desenvolvedores podem usar gratuitamente as funções de linguagem, compreensão multimodal e geração multimodal. Recentemente, a série Flash será totalmente atualizada, incluindo o modelo de linguagem GLM-4-Flash, o modelo de compreensão de imagem GLM-4V-Flash, o modelo de geração de imagem CogView-3-Flash e o modelo de geração de vídeo CogVideoX-Flash.