El 27 de marzo, Alibaba lanzó a altas horas de la madrugada su primer gran modelo multimodal: Tongyi Qianwen Qwen2.5-Omni-7B. Este modelo cuenta con potentes funciones, capaz de procesar simultáneamente múltiples tipos de entrada, incluyendo texto, imágenes, audio y vídeo, y generar texto y salida de voz natural en tiempo real. Este innovador avance tecnológico marca otro progreso significativo de Alibaba en el campo de la inteligencia artificial.
En la evaluación OmniBench, una prueba de referencia autorizada para tareas de fusión multimodal, Qwen2.5-Omni obtuvo resultados impresionantes, batiendo récords de la industria y superando ampliamente a modelos similares como Gemini-1.5-Pro de Google. Este resultado no solo demuestra la poderosa capacidad de Qwen2.5-Omni, sino que también consolida aún más el liderazgo de Alibaba en la competencia tecnológica global.
Nota de la fuente: La imagen fue generada por IA, con licencia de Midjourney.
La singularidad de Qwen2.5-Omni radica en su capacidad para simular los sentidos humanos, permitiendo una comprensión y conocimiento del mundo de forma "tridimensional" y cercana a la humana. Esto significa que Qwen2.5-Omni no solo puede identificar diversas entradas, sino que también puede analizar el estado emocional a través del audio y el vídeo, ofreciendo respuestas y capacidades de decisión más inteligentes y naturales ante tareas complejas. Esto le confiere una mayor flexibilidad y adaptabilidad en aplicaciones reales.
Con el continuo avance de la tecnología de IA, el lanzamiento de Qwen2.5-Omni impulsará sin duda el desarrollo de la industria y proporcionará un nuevo motor para la transformación digital en diversos sectores. Al hacer de código abierto este gran modelo, Alibaba ha atraído la atención de desarrolladores de todo el mundo, creando las condiciones para el desarrollo de más aplicaciones innovadoras. En el futuro, se espera que Qwen2.5-Omni tenga un profundo impacto en múltiples campos como la educación, la sanidad y el entretenimiento.
El lanzamiento de Alibaba representa no solo un gran avance tecnológico, sino también una nueva exploración en las aplicaciones futuras de la IA multimodal.