A Beijing Zhipu Huazhang Technology Co., Ltd. anunciou uma série de importantes atualizações tecnológicas em 29 de agosto de 2024, incluindo o lançamento de um modelo base de nova geração e novos serviços de aplicativos.
Na conferência KDD2024, a Zhipu lançou uma nova geração de modelos base, incluindo o modelo de linguagem GLM-4-Plus, o modelo de imagem gerada por texto CogView-3-Plus, o modelo de compreensão de imagem/vídeo GLM-4V-Plus e o modelo de geração de vídeo CogVideoX. Esses modelos alcançaram níveis de liderança internacional em suas respectivas áreas.
O modelo GLM-4-Plus apresentou melhorias abrangentes em compreensão de linguagem, obediência a instruções e processamento de textos longos, alcançando desempenho equivalente ao de modelos de primeira linha como o GPT-4o. O modelo CogView-3-Plus utiliza a arquitetura Transformer em vez da arquitetura UNet tradicional, otimizando os resultados do modelo e alcançando desempenho próximo ao de modelos de primeira linha como MJ-V6 e FLUX. O modelo GLM-4V-Plus possui capacidades de compreensão de imagem e vídeo de alta qualidade, tornando-se a primeira API de modelo de compreensão de vídeo universal da China. Após o lançamento da versão 2B, o modelo CogVideoX também lançou a versão 5B de código aberto, com desempenho aprimorado, tornando-se um dos melhores modelos de geração de vídeo de código aberto atualmente.
Além disso, a Zhipu lançou o primeiro serviço de videochamada voltado para usuários finais na China no aplicativo "Qingyan APP". Este serviço abrange os modos de texto, áudio e vídeo e possui capacidade de raciocínio em tempo real, proporcionando aos usuários uma experiência de interação fluida.
A Zhipu também anunciou o uso gratuito da API GLM-4-Flash, que oferece vantagens em velocidade e desempenho, permitindo que os usuários construam modelos e aplicativos exclusivos de forma rápida e gratuita. Ao mesmo tempo, para atender às diferentes necessidades dos usuários, a Zhipu oferece a função de ajuste fino do modelo.
A Zhipu afirma que continuará a avançar, fazendo com que as máquinas pensem como humanos, para fornecer aos usuários tecnologias e serviços mais avançados.
Atualizações principais:
Modelo base de linguagem GLM-4-Plus: Melhorias abrangentes no desempenho em compreensão de linguagem, obediência a instruções e processamento de textos longos, mantendo a liderança internacional.
Modelo base de imagem gerada por texto CogView-3-Plus: Possui desempenho próximo ao dos modelos de ponta atuais, como MJ-V6 e FLUX.
Modelo base de compreensão de imagem/vídeo GLM-4V-Plus: Possui excelente capacidade de compreensão de imagem e capacidade de compreensão de vídeo baseada em percepção temporal. Este modelo será lançado na plataforma aberta (bigmodel.cn) e se tornará a primeira API de modelo de compreensão de vídeo universal da China.
Modelo base de geração de vídeo CogVideoX: Após o lançamento e o código aberto da versão 2B, a versão 5B também foi oficialmente lançada como código aberto, com desempenho ainda melhor, sendo a melhor opção entre os modelos de geração de vídeo de código aberto atuais.
Videochamada no aplicativo "Qingyan APP": O primeiro serviço de videochamada voltado para usuários finais na China, a função de videochamada do aplicativo "Qingyan APP" abrange os modos de texto, áudio e vídeo e possui capacidade de raciocínio em tempo real.
API GLM-4-Flash: Serviço de inferência totalmente gratuito, com serviço de ajuste fino disponível.
Link de solicitação do serviço de videochamada:
https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf