Tras DeepSeek R1, el equipo de Alibaba Cloud Tongyi Qianwen acaba de anunciar su último modelo de código abierto, Qwen2.5-1M, atrayendo nuevamente la atención de la industria.

Esta versión de Qwen2.5-1M incluye dos modelos de código abierto: Qwen2.5-7B-Instruct-1M y Qwen2.5-14B-Instruct-1M. Es la primera vez que Tongyi Qianwen presenta modelos que admiten de forma nativa una longitud de contexto de un millón de tokens, y también ha logrado una mejora significativa en la velocidad de inferencia.

Alibaba Cloud, Tongyi Qianwen

El punto clave de Qwen2.5-1M radica en su capacidad nativa para procesar contextos extra largos de un millón de tokens. Esto permite al modelo manejar fácilmente documentos extra largos como libros, informes extensos y documentos legales, sin necesidad de un engorroso proceso de segmentación. Además, el modelo admite conversaciones más largas y profundas, recordando un historial de conversaciones más extenso para lograr una interacción más fluida y natural. Asimismo, Qwen2.5-1M demuestra una mayor capacidad para comprender tareas complejas, como la comprensión de código, el razonamiento complejo y las conversaciones de múltiples turnos.

Además de la impresionante longitud de contexto de un millón de tokens, Qwen2.5-1M presenta otro gran avance: ¡un marco de inferencia increíblemente rápido! El equipo de Tongyi Qianwen ha abierto completamente el código del marco de inferencia basado en vLLM e integrado el mecanismo de atención dispersa. Este innovador marco permite que Qwen2.5-1M procese entradas de un millón de tokens con una velocidad de 3 a 7 veces mayor. Esto significa que los usuarios pueden utilizar modelos de contexto extra largo de manera más eficiente, mejorando considerablemente la eficiencia y la experiencia en escenarios de aplicación reales.