Recientemente, Zyphra lanzó oficialmente Zamba2-7B, un modelo de lenguaje pequeño con un rendimiento sin precedentes, con 7B parámetros.
Este modelo se anuncia como superior en calidad y velocidad a sus competidores actuales, incluyendo Mistral-7B, Gemma-7B de Google y Llama3-8B de Meta.
El objetivo de diseño de Zamba2-7B es satisfacer las necesidades de entornos que requieren un potente procesamiento del lenguaje natural pero tienen limitaciones de hardware, como el procesamiento en dispositivos o el uso de GPU de consumo. Al mejorar la eficiencia sin sacrificar la calidad, Zyphra espera que una gama más amplia de usuarios, tanto empresas como desarrolladores individuales, puedan disfrutar de la comodidad de la IA avanzada.
Zamba2-7B presenta muchas innovaciones arquitectónicas que mejoran la eficiencia y la capacidad expresiva del modelo. A diferencia de su predecesor, Zamba1, Zamba2-7B emplea dos bloques de atención compartidos, un diseño que permite un mejor manejo del flujo de información y las dependencias entre secuencias.
Los bloques Mamba2 constituyen el núcleo de la arquitectura, lo que permite una mayor utilización de los parámetros en comparación con los modelos Transformer tradicionales. Además, Zyphra utiliza proyecciones de adaptación de bajo rango (LoRA) en los bloques MLP compartidos, lo que mejora aún más la adaptabilidad de cada capa mientras se mantiene la compacidad del modelo. Gracias a estas innovaciones, el tiempo de respuesta inicial de Zamba2-7B se redujo en un 25% y el número de tokens procesados por segundo aumentó en un 20%.
La eficiencia y adaptabilidad de Zamba2-7B han sido rigurosamente probadas. El modelo se entrenó previamente en un enorme conjunto de datos que contiene tres billones de tokens, todos de alta calidad y seleccionados cuidadosamente de datos abiertos.
Además, Zyphra introdujo una fase de preentrenamiento de "temple", que reduce rápidamente la tasa de aprendizaje para procesar los tokens de alta calidad de manera más eficiente. Esta estrategia permitió a Zamba2-7B destacarse en las pruebas de referencia, superando a sus competidores en velocidad e inferencia de calidad, siendo adecuado para tareas de comprensión y generación de lenguaje natural sin requerir los enormes recursos computacionales necesarios para los modelos tradicionales de alta calidad.
Zamba2-7B representa un gran avance en los modelos de lenguaje pequeños, manteniendo la alta calidad y el alto rendimiento, con un enfoque especial en la accesibilidad. Zyphra, a través de un diseño arquitectónico innovador y técnicas de entrenamiento eficientes, ha creado un modelo que es fácil de usar y satisface diversas necesidades de procesamiento del lenguaje natural. El lanzamiento de código abierto de Zamba2-7B invita a investigadores, desarrolladores y empresas a explorar su potencial, con la esperanza de impulsar el desarrollo del procesamiento avanzado del lenguaje natural en una comunidad más amplia.
Enlace al proyecto: https://www.zyphra.com/post/zamba2-7b
https://github.com/Zyphra/transformers_zamba2
Puntos clave:
🌟 Zamba2-7B es un nuevo modelo de lenguaje pequeño de Zyphra, con 7B parámetros, cuyo rendimiento supera a varios competidores.
⚙️ Emplea una arquitectura innovadora y tecnología LoRA, lo que resulta en una mejora significativa en la eficiencia y la adaptabilidad.
📊 Tras rigurosas pruebas, Zamba2-7B ha demostrado un rendimiento superior en velocidad y calidad en tareas de procesamiento del lenguaje natural.