Dans le domaine multimodale de l'intelligence artificielle, les grands modèles nationaux chinois affichent une puissance impressionnante. Le dernier classement SuperCLUE-V, un benchmark d'évaluation des grands modèles multimodaux chinois, révèle que HunYuan-Vision de Tencent et InternVL2-40B du Shanghai AI Lab sont respectivement les leaders des modèles fermés et ouverts en Chine, surpassant même des modèles internationaux réputés comme Claude-3.5-Sonnet et Gemini-1.5-Pro de Google.

La version multimodale du grand modèle HunYuan de Tencent, HunYuan-Vision, est non seulement appréciée des développeurs pour son API, mais également accessible gratuitement aux utilisateurs via l'application Tencent Yuanbao. Yuanbao, connue pour être un "assistant IA pratique", met l'accent sur la simplicité et l'utilité. Ses prouesses multimodales lui ont valu la première place du classement national.

Pour illustrer les progrès des grands modèles multimodaux chinois, nous avons mené une série de tests sur Tencent Yuanbao. De la compréhension des mèmes et des émojis à la reconnaissance du contenu des photos, en passant par les défis d'illusions d'optique, Tencent Yuanbao a démontré d'excellentes performances. En situation réelle, que ce soit pour résumer des rapports financiers, identifier des graphiques académiques ou résoudre des problèmes de logique, Yuanbao comprend et répond avec précision.

▲ Source : compte public « CLUE 中文语言理解测评基准 », idem

Notamment, lors d'une question bonus testant la compréhension du contexte culturel chinois, Tencent Yuanbao a correctement identifié une capture d'écran de "Les Frères Calabash" (葫芦兄弟) et répondu correctement à la question, démontrant ainsi sa maîtrise du contexte linguistique chinois.

Le grand modèle HunYuan de Tencent, un "vieil ami" depuis ses débuts en septembre dernier, continue d'évoluer rapidement. Il atteint désormais une échelle de plusieurs milliards de paramètres et couvre les domaines de la compréhension et de la génération de texte et de contenu multimodale. En Chine, HunYuan est le premier grand modèle à avoir effectué une mise à niveau de l'architecture MoE, passant d'un modèle dense unique à un modèle sparse composé de plusieurs experts.

L'application Tencent Yuanbao, axée sur l'aspect "assistant IA pratique", excelle non seulement dans la synchronisation multi-appareils et des historiques de conversation, mais aussi dans la compréhension multimodale. Que ce soit une capture d'écran de document, un portrait, un paysage, un ticket de caisse ou n'importe quelle photo, Yuanbao peut fournir une analyse et une interprétation basées sur le contenu de l'image.

L'équipe Tencent Yuanbao a indiqué qu'elle se concentrera prochainement sur l'intégration des capacités multimodales du modèle afin d'améliorer encore l'expérience utilisateur. Parallèlement, Tencent a mis à jour des fonctionnalités telles que la recherche approfondie et la lecture d'articles longs, réduisant l'exposition des détails techniques et simplifiant l'utilisation pour les utilisateurs.