腾讯混元引领多模态人工智能：全面超越GPT-4/Claude-3.5等

En el campo de la multimodalidad de la inteligencia artificial, los modelos nacionales de gran tamaño están demostrando una gran fortaleza. La última clasificación de referencia para la evaluación de modelos multimodales chinos, SuperCLUE-V, muestra que hunyuan-vision de Tencent y InternVL2-40B de Shanghai AI Lab son los dos líderes en el ámbito nacional de código cerrado y abierto respectivamente, incluso superando a los conocidos internacionalmente Claude-3.5-Sonnet y Gemini-1.5-Pro de Google.

La versión multimodal del modelo de gran tamaño HunYuan de Tencent, hunyuan-vision, no solo es apreciada por los desarrolladores por su API, sino que también se ofrece gratuitamente a los usuarios a través de la aplicación Tencent Yuanbao. La aplicación Yuanbao siempre se ha caracterizado por ser un "compañero de IA práctico", destacando su facilidad de uso, y su avance en capacidades multimodales le ha valido el primer puesto en la evaluación nacional.

Para mostrar de forma más visual el progreso de los modelos multimodales nacionales de gran tamaño, realizamos una serie de pruebas con Tencent Yuanbao. Desde la comprensión de memes y emojis hasta el reconocimiento del contenido de las fotos y los desafíos de ilusiones ópticas, Tencent Yuanbao demostró un excelente rendimiento. En escenarios de aplicación reales, ya sea leyendo resúmenes de informes financieros, reconociendo gráficos académicos o resolviendo problemas de razonamiento lógico, Yuanbao puede comprender con precisión y proporcionar respuestas razonables.

▲ Fuente: cuenta pública “CLUE Benchmark de comprensión del lenguaje chino”, ídem

En particular, en una pregunta adicional que ponía a prueba la comprensión del contexto cultural chino, Tencent Yuanbao identificó correctamente una captura de pantalla de "Los Hermanos Calabazas" y respondió correctamente a la pregunta relacionada, mostrando su ventaja en la comprensión del contexto chino.

El modelo de gran tamaño HunYuan de Tencent, como un "viejo amigo", desde su primera aparición en septiembre del año pasado, ha mantenido una rápida iteración, y actualmente se ha expandido a una escala de billones de parámetros, cubriendo áreas como la comprensión y generación de texto y multimodal.

Entre los modelos de gran tamaño nacionales, Tencent HunYuan fue el primero en completar la actualización de la arquitectura MoE, pasando de un único modelo denso a un modelo disperso compuesto por múltiples expertos.

La aplicación Tencent Yuanbao, que destaca como un "compañero de IA práctico", no solo ofrece un excelente rendimiento en la sincronización multidispositivo y el historial de chat, sino que también demuestra una gran capacidad de comprensión multimodal. Ya sean capturas de pantalla de documentos, retratos, paisajes, recibos de caja o cualquier foto, Yuanbao puede proporcionar su propia comprensión y análisis basándose en el contenido de la imagen.

El equipo de Tencent Yuanbao indicó que dedicará más esfuerzos a la integración de las capacidades multimodales del modelo para mejorar aún más la experiencia del usuario. Simultáneamente, Tencent también ha realizado actualizaciones funcionales en la búsqueda profunda y la lectura de artículos largos, reduciendo la exposición de detalles técnicos y simplificando la operación del usuario.

Noticias de IA

腾讯混元引领多模态人工智能：全面超越GPT-4/Claude-3.5等

AIbase基地

Noticias de IA relacionadas recomendadas

El Departamento de Justicia de EE. UU. exige a Google que venda Chrome y relaje las restricciones a las inversiones en IA

Tongyi App lanza el modelo de inteligencia artificial Qianwen QwQ-32B: Experiencia de IA mejorada continuamente

Manus, el asistente de IA multifuncional creado por el equipo de Monica, es un éxito rotundo. ¿Cómo conseguir un código de invitación para Manus?

Quantexa recauda 175 millones de dólares, alcanzando una valoración de 2600 millones y reforzando sus negocios de análisis de datos e inteligencia artificial