El modelo de lenguaje multimodal de Tencent, Hun Yuan, ha demostrado un rendimiento excepcional en la lista de agosto del banco de pruebas SuperCLUE-V, un referente en modelos multimodales chinos, obteniendo el primer lugar entre los modelos nacionales y situándose en el cuadrante de líderes destacados. La comprensión multimodal, que requiere que el modelo identifique con precisión los elementos de una imagen, comprenda sus relaciones y genere una descripción en lenguaje natural, pone a prueba la precisión del modelo en el reconocimiento de imágenes y su capacidad para comprender el complejo mundo real.

Esta evaluación incluyó 12 modelos de comprensión multimodal nacionales e internacionales representativos, evaluando tanto las capacidades básicas como las capacidades de aplicación. El modelo Hun Yuan de Tencent demostró una ventaja integral en ambos aspectos, obteniendo una alta puntuación de 71.95. Los estándares de evaluación de SuperCLUE abarcan la precisión de la comprensión, la relevancia de la respuesta y la profundidad del razonamiento, garantizando la objetividad y la rigor científico de la evaluación.

微信截图_20240808103707.png

Los resultados de la evaluación muestran que los modelos nacionales en el ámbito de la comprensión multimodal se acercan a los modelos de vanguardia internacionales en capacidades básicas. El modelo Hun Yuan de Tencent destaca especialmente en capacidades de aplicación, gracias a su profunda comprensión del contexto chino y sus capacidades integrales en múltiples campos.

El modelo de lenguaje multimodal Hun Yuan de Tencent, que sustenta la aplicación nativa de IA Tencent Yuanbao, le permite comprender y analizar imágenes de diversos tipos. Además, el modelo multimodal Hun Yuan de Tencent ya está disponible en Tencent Cloud, ofreciendo capacidades como la generación de texto a partir de imágenes para desarrolladores empresariales e individuales.

Jiang Jie, vicepresidente de Tencent, afirmó que el modelo Hun Yuan se está desarrollando hacia una tecnología multimodal completa. Los usuarios podrán experimentar pronto esta tecnología en la aplicación Tencent Yuanbao y en los negocios internos de Tencent, y se abrirá a aplicaciones externas a través de Tencent Cloud. Actualmente, el modelo Hun Yuan de Tencent ha ampliado su escala a billones de parámetros, utilizando una estructura de modelo de experto mixto (MoE), alcanzando un nivel líder a nivel nacional en comprensión multimodal.