Alibaba Cloud lanza el nuevo y mejorado modelo de lenguaje extenso Qwen2.5-Turbo, con una longitud de contexto asombrosa de 1 millón de tokens. ¿Qué significa esto? ¡Equivale a 10 libros de "Tres Cuerpos", 150 horas de transcripción de voz o 30.000 líneas de código! ¡Leer diez novelas de una sola vez ya no es un sueño!

El modelo Qwen2.5-Turbo logró una precisión del 100% en la tarea de recuperación de claves de acceso (Passkey Retrieval) y superó a modelos similares como GPT-4 en la comprensión de textos largos. En la prueba de referencia de textos largos RULER, obtuvo una puntuación de 93.1, mientras que GPT-4 obtuvo 91.6 y GLM4-9B-1M obtuvo 89.9.

image.png

Además de su capacidad para procesar textos extremadamente largos, Qwen2.5-Turbo también ofrece precisión en el procesamiento de textos cortos, con un rendimiento comparable a GPT-4o-mini y Qwen2.5-14B-Instruct en las pruebas de referencia de textos cortos.

Gracias al mecanismo de atención dispersa, Qwen2.5-Turbo redujo el tiempo de procesamiento del primer token de 1 millón de tokens de 4,9 minutos a 68 segundos, lo que representa una mejora de 4,3 veces en la velocidad de inferencia.

Asimismo, el costo de procesamiento de 1 millón de tokens es de solo 0,3 yuanes chinos. Comparado con GPT-4o-mini, permite procesar 3,6 veces más contenido con el mismo costo.

image.png

Alibaba Cloud ha preparado una serie de demostraciones para Qwen2.5-Turbo, mostrando sus aplicaciones en la comprensión profunda de novelas largas, asistencia de código y lectura de múltiples artículos académicos. Por ejemplo, tras cargar la trilogía completa de "Tres Cuerpos" (690.000 tokens) en chino, el modelo resumió con éxito la trama de cada libro en inglés.

Puede experimentar las potentes funciones de Qwen2.5-Turbo a través del servicio API de Alibaba Cloud Model Studio, la demostración de HuggingFace o la demostración de ModelScope.

Alibaba Cloud afirma que continuará optimizando el modelo, mejorando la alineación con las preferencias humanas en tareas de secuencias largas, optimizando aún más la eficiencia de inferencia, reduciendo el tiempo de cálculo y explorando la posibilidad de lanzar modelos de contexto largo aún más grandes y potentes.

Presentación oficial: https://qwenlm.github.io/blog/qwen2.5-turbo/

Demostración en línea: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo

Documentación de la API: https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen