En el campo de la multimodalidad de la inteligencia artificial, los modelos nacionales de gran tamaño están demostrando una gran fortaleza. La última clasificación de referencia para la evaluación de modelos multimodales chinos, SuperCLUE-V, muestra que hunyuan-vision de Tencent y InternVL2-40B de Shanghai AI Lab son los dos líderes en el ámbito nacional de código cerrado y abierto respectivamente, incluso superando a los conocidos internacionalmente Claude-3.5-Sonnet y Gemini-1.5-Pro de Google.

La versión multimodal del modelo de gran tamaño HunYuan de Tencent, hunyuan-vision, no solo es apreciada por los desarrolladores por su API, sino que también se ofrece gratuitamente a los usuarios a través de la aplicación Tencent Yuanbao. La aplicación Yuanbao siempre se ha caracterizado por ser un "compañero de IA práctico", destacando su facilidad de uso, y su avance en capacidades multimodales le ha valido el primer puesto en la evaluación nacional.

Para mostrar de forma más visual el progreso de los modelos multimodales nacionales de gran tamaño, realizamos una serie de pruebas con Tencent Yuanbao. Desde la comprensión de memes y emojis hasta el reconocimiento del contenido de las fotos y los desafíos de ilusiones ópticas, Tencent Yuanbao demostró un excelente rendimiento. En escenarios de aplicación reales, ya sea leyendo resúmenes de informes financieros, reconociendo gráficos académicos o resolviendo problemas de razonamiento lógico, Yuanbao puede comprender con precisión y proporcionar respuestas razonables.

▲ Fuente: cuenta pública “CLUE Benchmark de comprensión del lenguaje chino”, ídem

En particular, en una pregunta adicional que ponía a prueba la comprensión del contexto cultural chino, Tencent Yuanbao identificó correctamente una captura de pantalla de "Los Hermanos Calabazas" y respondió correctamente a la pregunta relacionada, mostrando su ventaja en la comprensión del contexto chino.

El modelo de gran tamaño HunYuan de Tencent, como un "viejo amigo", desde su primera aparición en septiembre del año pasado, ha mantenido una rápida iteración, y actualmente se ha expandido a una escala de billones de parámetros, cubriendo áreas como la comprensión y generación de texto y multimodal.

Entre los modelos de gran tamaño nacionales, Tencent HunYuan fue el primero en completar la actualización de la arquitectura MoE, pasando de un único modelo denso a un modelo disperso compuesto por múltiples expertos.

La aplicación Tencent Yuanbao, que destaca como un "compañero de IA práctico", no solo ofrece un excelente rendimiento en la sincronización multidispositivo y el historial de chat, sino que también demuestra una gran capacidad de comprensión multimodal. Ya sean capturas de pantalla de documentos, retratos, paisajes, recibos de caja o cualquier foto, Yuanbao puede proporcionar su propia comprensión y análisis basándose en el contenido de la imagen.

El equipo de Tencent Yuanbao indicó que dedicará más esfuerzos a la integración de las capacidades multimodales del modelo para mejorar aún más la experiencia del usuario. Simultáneamente, Tencent también ha realizado actualizaciones funcionales en la búsqueda profunda y la lectura de artículos largos, reduciendo la exposición de detalles técnicos y simplificando la operación del usuario.