Na área de multimodalidade da inteligência artificial, os modelos nacionais estão demonstrando grande força. O mais recente ranking SuperCLUE-V, que avalia modelos de multimodalidade em chinês, mostra que o hunyuan-vision da Tencent e o InternVL2-40B do Shanghai AI Lab são os líderes nacionais em modelos de código fechado e aberto, respectivamente, superando até mesmo modelos internacionalmente reconhecidos como o Claude-3.5-Sonnet e o Gemini-1.5-Pro do Google.
A versão multimodal do modelo de linguagem grande da Tencent, o hunyuan-vision, não apenas é popular entre os desenvolvedores em termos de chamadas de API, mas também está disponível gratuitamente para os usuários no aplicativo Tencent Yuanbao. O aplicativo Yuanbao é conhecido como um "parceiro de IA prático", enfatizando a praticidade e facilidade de uso, e sua capacidade multimodal alcançou o primeiro lugar na avaliação.
Para demonstrar de forma mais intuitiva o progresso dos modelos de multimodalidade nacionais, realizamos uma série de testes no Tencent Yuanbao. De entender memes e emojis a reconhecer o conteúdo de fotos e superar desafios de ilusões de ótica, o Tencent Yuanbao demonstrou um desempenho excepcional. Em cenários de aplicação prática, seja na leitura de resumos financeiros, reconhecimento de gráficos acadêmicos ou resolução de problemas de raciocínio lógico, o Yuanbao consegue compreender e fornecer respostas razoáveis.
Em particular, em uma questão adicional que testa a compreensão do contexto cultural chinês, o Tencent Yuanbao reconheceu corretamente uma captura de tela de "Os Irmãos Calabouço" e respondeu corretamente à pergunta relacionada, demonstrando sua vantagem na compreensão do contexto chinês.
O modelo de linguagem grande Tencent HunYuan, um "velho amigo", desde sua primeira aparição em setembro do ano passado, tem se mantido em rápida iteração, atualmente expandido para uma escala de parâmetros de trilhões, cobrindo texto, compreensão e geração multimodal. Entre os modelos nacionais, o Tencent HunYuan foi o primeiro a concluir a atualização da arquitetura MoE, passando de um único modelo denso para um modelo esparso composto por vários especialistas.
O aplicativo Tencent Yuanbao, que se destaca como um "parceiro de IA prático", não apenas apresenta excelente desempenho na sincronização multiplataforma e no histórico de bate-papo, mas também demonstra uma capacidade de compreensão multimodal poderosa. Seja uma captura de tela de documento, retrato, paisagem, recibo de caixa ou qualquer foto, o Yuanbao pode fornecer sua própria compreensão e análise com base no conteúdo da imagem.
A equipe do Tencent Yuanbao afirma que, no futuro, dedicará mais esforços à integração da capacidade multimodal do modelo, melhorando ainda mais a experiência do usuário. Ao mesmo tempo, a Tencent também fez atualizações de funcionalidades em busca profunda e leitura de textos longos, reduzindo a exposição de detalhes técnicos e simplificando a operação do usuário.