A Zhihu AI lançou recentemente seu mais recente modelo de base de linguagem grande, o GLM-4-Plus, demonstrando capacidades visuais comparáveis ​​ao OpenAI GPT-4 e anunciou que estará disponível para uso em 30 de agosto. Este avanço inovador não apenas marca um salto na tecnologia de IA doméstica, mas também oferece aos usuários uma experiência inteligente sem precedentes.

Principais destaques da atualização:

  • Modelo de linguagem básico GLM-4-Plus: alcançou um salto qualitativo na análise de linguagem, execução de instruções e processamento de textos longos, mantendo sua posição de liderança na competição internacional.

  • Modelo de geração de imagem a partir de texto CogView-3-Plus: desempenho comparável aos modelos de ponta da indústria MJ-V6 e FLUX.

  • Modelo de compreensão de imagem/vídeo GLM-4V-Plus: não apenas se destaca na compreensão de imagens, mas também possui a capacidade de compreensão de vídeo baseada em análise de séries temporais. Este modelo será lançado em breve na plataforma aberta bigmodel.cn e se tornará a primeira API de compreensão de vídeo universal da China.

  • Modelo de geração de vídeo CogVideoX: após o lançamento e código aberto da versão 2B, a versão 5B também foi oficialmente aberta ao público, com desempenho significativamente aprimorado, tornando-se um dos melhores modelos de geração de vídeo de código aberto atualmente.

  • O número total de downloads de modelos de código aberto da Zhihu já ultrapassou 20 milhões, contribuindo significativamente para o desenvolvimento próspero da comunidade de código aberto.

image.png

O GLM-4-Plus se destaca em várias áreas-chave. Em termos de capacidade de linguagem, o modelo alcançou um nível internacionalmente avançado em compreensão, obediência a instruções e processamento de textos longos, com desempenho comparável ao GPT-4 e ao Llama3.1 com 405B parâmetros. É particularmente digno de nota que o GLM-4-Plus, através de uma estratégia precisa de mistura de dados de texto curto e longo, melhorou significativamente o efeito de raciocínio de texto longo.

image.png

Na área de inteligência visual, o GLM-4V-Plus demonstra excelente capacidade de compreensão de imagens e vídeos. Ele não apenas possui capacidade de percepção temporal, mas também pode processar e compreender conteúdo de vídeo complexo. É importante notar que este modelo será lançado na plataforma aberta da Zhihu, tornando-se a primeira API de compreensão de vídeo universal da China, fornecendo uma ferramenta poderosa para desenvolvedores e pesquisadores.

image.png

Por exemplo, se você fornecer um vídeo e perguntar o que o jogador de camisa verde fez durante todo o vídeo, ele pode descrever precisamente as ações do jogador e dizer exatamente em que segundo ocorreu o momento mais emocionante do vídeo:

image.png

Captura de tela do oficial

A Zhihu AI também alcançou avanços inovadores na área de geração. O CogView-3-Plus está próximo em desempenho de geração de imagem a partir de texto aos modelos atuais mais otimizados, como MJ-V6 e FLUX. Simultaneamente, o modelo de geração de vídeo CogVideoX lançou uma versão 5B com desempenho ainda melhor, considerado a melhor opção entre os modelos de geração de vídeo de código aberto atuais.

image.png

O mais esperado é que o aplicativo Qingyan da Zhihu lançará em breve a função de "videochamada", a primeira função de videochamada de IA aberta para o mercado consumidor na China. Esta função abrange os três principais modos de texto, áudio e vídeo, com capacidade de raciocínio em tempo real. Os usuários podem conversar com a IA de forma fluida, e mesmo com interrupções frequentes, ela responde rapidamente.

Ainda mais impressionante é que, basta ligar a câmera, a IA pode ver e entender o que o usuário está vendo e executar com precisão os comandos de voz.

Este recurso revolucionário de videochamada será lançado em 30 de agosto, inicialmente para alguns usuários do Qingyan, com inscrições externas também aceitas. Esta inovação não apenas demonstra a força tecnológica da Zhihu AI, mas também abre novas possibilidades para a integração profunda da inteligência artificial na vida cotidiana.

Referências: https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w