El laboratorio de IA de Shanghai presentó una nueva versión de su modelo InternLM2.5, parte de la serie Shusheng·Puyu, durante el foro principal de ciencia de vanguardia WAIC del 4 de julio de 2024. Esta versión presenta una mejora significativa en la capacidad de razonamiento en escenarios complejos, admite un contexto extra largo de 1M y puede realizar búsquedas autónomas en internet e integrar información de cientos de páginas web.

InternLM2.5 se lanzó en tres versiones con diferentes parámetros: 1.8B, 7B y 20B, para adaptarse a diversas aplicaciones y necesidades de los desarrolladores. La versión 1.8B es un modelo ultraligero, mientras que la versión 20B ofrece un rendimiento general superior y admite escenarios prácticos más complejos. Todos estos modelos son de código abierto y se pueden encontrar en la página principal de la serie de modelos grandes Shusheng·Puyu, la página principal de ModelScope y la página principal de Hugging Face.

微信截图_20240807133852.png

InternLM2.5 ha experimentado iteraciones en varias técnicas de síntesis de datos, mejorando significativamente su capacidad de razonamiento, especialmente en el conjunto de evaluación matemática MATH, donde alcanzó una precisión del 64.7%. Además, el modelo ha mejorado su capacidad de procesamiento de longitud de contexto mediante un entrenamiento eficiente en la fase de preentrenamiento.

La serie de modelos InternLM2.5 también se integra perfectamente con los marcos de inferencia y ajuste fino, incluyendo el marco de ajuste fino XTuner y el marco de inferencia LMDeploy desarrollados por el laboratorio de IA de Shanghai, así como otros marcos de la comunidad con una amplia base de usuarios como vLLM, Ollama y llama.cpp. La herramienta SWIFT, lanzada por la comunidad MoDa, también admite la inferencia, el ajuste fino y la implementación de la serie de modelos InternLM2.5.

La experiencia de uso de estos modelos incluye razonamiento complejo de varios pasos, comprensión precisa de la intención de conversaciones de varias rondas, operaciones de control de formato flexibles y la capacidad de seguir instrucciones complejas. Se proporcionan guías de instalación y uso detalladas para facilitar la adopción rápida por parte de los desarrolladores.

Página principal de la serie de modelos grandes Shusheng·Puyu:

https://internlm.intern-ai.org.cn

Página principal de ModelScope:

https://www.modelscope.cn/organization/Shanghai_AI_Laboratory?tab=model

Página principal de Hugging Face:

https://huggingface.co/internlm

Enlace de código abierto de InternLM2.5:

https://github.com/InternLM/InternLM