Modelo de IA de Grande Escala da Tencent: conquista o primeiro lugar em compreensão multimodal de 'imagem para texto' entre os grandes modelos domésticos

O modelo de linguagem grande HunYuan da Tencent demonstrou desempenho excepcional no ranking de agosto do benchmark SuperCLUE-V para modelos de linguagem grandes multimodais em chinês, conquistando o primeiro lugar entre os modelos domésticos e se posicionando no quadrante de liderança excepcional. A compreensão multimodal, que exige que o modelo identifique com precisão os elementos da imagem, compreenda suas relações e gere descrições em linguagem natural, testa a precisão do modelo no reconhecimento de imagens e sua capacidade de compreender o mundo real complexo.

Esta avaliação incluiu 12 modelos de compreensão multimodal representativos, nacionais e internacionais, avaliando-os em duas grandes áreas: capacidades básicas e capacidades de aplicação. O modelo de linguagem grande HunYuan da Tencent demonstrou vantagens abrangentes em ambas as áreas, obtendo uma pontuação alta de 71,95. Os critérios de avaliação do SuperCLUE abrangem a precisão da compreensão, a relevância da resposta e a profundidade do raciocínio, garantindo a cientificidade e a imparcialidade da avaliação.

微信截图_20240808103707.png

Os resultados da avaliação mostram que os modelos de linguagem grandes domésticos se aproximam dos modelos de ponta internacionais em termos de capacidades básicas de compreensão multimodal, sendo que o modelo de linguagem grande HunYuan da Tencent se destaca em capacidades de aplicação, graças à sua profunda compreensão do contexto chinês e suas capacidades abrangentes em diversos domínios.

A base tecnológica do modelo de linguagem grande HunYuan da Tencent suporta o aplicativo nativo de IA Tencent Yuanbao, conferindo-lhe capacidades de compreensão multimodal, permitindo-lhe compreender e analisar vários tipos de imagens. Além disso, o modelo multimodal HunYuan da Tencent já está disponível na Tencent Cloud, oferecendo capacidades como geração de texto a partir de imagens para desenvolvedores corporativos e individuais.

O vice-presidente da Tencent, Jiang Jie, afirmou que o modelo de linguagem grande HunYuan está se desenvolvendo em direção a uma tecnologia multimodal completa, e os usuários em breve poderão experimentar essa tecnologia no aplicativo Tencent Yuanbao e nos negócios internos da Tencent, além de ser disponibilizada para aplicativos externos através da Tencent Cloud. Atualmente, o modelo de linguagem grande HunYuan da Tencent já foi expandido para uma escala de parâmetros de trilhões, utilizando uma estrutura de modelo de especialista misto (MoE), alcançando um nível de compreensão multimodal líder na China.

Notícias e Informações de IA

Modelo de IA de Grande Escala da Tencent: conquista o primeiro lugar em compreensão multimodal de 'imagem para texto' entre os grandes modelos domésticos

AIbase基地

Notícias de IA Relacionadas Recomendadas

Wu Wen Xin Qiong lança o primeiro modelo de compreensão multimodal de ponta a ponta de código aberto, Megrez-3B-Omni, e arrecada quase 1 bilhão de yuans

Novos avanços do modelo grande da ByteDance: Introdução de localização visual pela primeira vez, realizando compreensão multimodal de grão fino e já disponível em código aberto e demonstração