AIのマルチモーダル分野において、中国国産の大規模言語モデルが強力な実力を示しています。最新発表の中国語マルチモーダル大規模言語モデル評価基準SuperCLUE-Vランキングによると、テンセントのhunyuan-visionと上海AI LabのInternVL2-40Bが、国内のクローズドソースとオープンソースの分野でそれぞれトップランナーとなり、国際的に有名なClaude-3.5-SonnetやGoogleのGemini-1.5-Proを凌駕しています。

テンセント混元大規模言語モデルのマルチモーダル版であるhunyuan-visionは、API呼び出しにおいて開発者から好評を得ているだけでなく、テンセントのYuanbaoアプリでユーザーに無料で体験提供されています。Yuanbaoアプリは「実用的なAIパートナー」として知られ、実用性と使いやすさを重視しており、そのマルチモーダル能力の向上は、評価において国内1位を獲得しました。

中国国産マルチモーダル大規模言語モデルの進歩をより分かりやすく示すために、テンセントYuanbaoアプリを様々なテストを行いました。梗图や絵文字の理解、写真のコンテンツ認識、錯視チャレンジなど、テンセントYuanbaoアプリは優れたパフォーマンスを示しました。実際の応用シーンでは、財務諸表のサマリー読み取り、学術図表の認識、能力検査の規則性問題など、Yuanbaoアプリは正確に理解し、妥当な回答を提示することができました。

▲ 出所:「CLUE 中国語言語理解評価基準」公式アカウント、以下同

特に、中国文化の理解度を試す追加問題において、テンセントYuanbaoアプリは「葫芦兄弟」のスクリーンショットを正確に認識し、関連する質問に正しく回答しました。これは、中国語の文脈を理解する能力の高さを示しています。

テンセント混元大規模言語モデルは「古くからの友人」として、昨年9月の初登場以来、急速な進化を続けており、現在ではパラメーター規模が1兆を超え、テキスト、マルチモーダル理解、生成などの分野をカバーしています。中国国内の大規模言語モデルの中で、テンセント混元はMoEアーキテクチャのアップグレードを最初に完了し、単一の稠密モデルから複数の専門家からなるスパースモデルへと進化しました。

「実用的なAIパートナー」を謳うテンセントYuanbaoアプリは、マルチデバイス同期、チャット履歴同期において優れたパフォーマンスを示すだけでなく、マルチモーダル理解能力においても強力な実力を発揮しています。ドキュメントのスクリーンショット、人物や風景の写真、レシート、その他任意の写真など、Yuanbaoアプリは画像の内容に基づいて独自の理解と分析を提供できます。

テンセントYuanbaoアプリチームは、今後、モデルのマルチモーダル能力の融合に注力し、ユーザー体験の更なる向上を目指すと述べています。同時に、テンセントは深層検索と長文読解機能のアップデートを行い、技術的な詳細を隠蔽し、ユーザー操作を簡素化しました。