¡Versión compacta de Llama3! Nvidia presenta el modelo de lenguaje pequeño Llama-3.1-Minitron4B con solo 400 millones de parámetros

AIbase基地

Publicado elNoticias de IA · 6 minutos de lectura · Aug 21, 2024

453

En la era actual donde las empresas tecnológicas se apresuran a implementar la inteligencia artificial en dispositivos, están surgiendo cada vez más modelos de lenguaje pequeños (SLM) capaces de funcionar en dispositivos con recursos limitados. Recientemente, el equipo de investigación de Nvidia, utilizando técnicas de vanguardia de poda y destilación de modelos, presentó Llama-3.1-Minitron4B, una versión comprimida del modelo Llama3. Este nuevo modelo no solo iguala el rendimiento de modelos más grandes, sino que también compite con modelos pequeños de tamaño similar, al tiempo que ofrece una mayor eficiencia en el entrenamiento y la implementación.

La poda y la destilación son dos técnicas clave para crear modelos de lenguaje más pequeños y eficientes. La poda consiste en eliminar partes no importantes del modelo, incluyendo la "poda profunda"—eliminar capas enteras—y la "poda de ancho"—eliminar elementos específicos como neuronas y cabezales de atención. La destilación del modelo, por otro lado, transfiere el conocimiento y las capacidades de un modelo grande (el "modelo maestro") a un modelo "alumno" más pequeño y simple.

La destilación se realiza principalmente de dos maneras: la primera es mediante el "entrenamiento SGD", donde el modelo alumno aprende las entradas y respuestas del modelo maestro; la segunda es la "destilación de conocimiento clásica", donde el modelo alumno aprende las activaciones internas del modelo maestro además de los resultados.

En un estudio anterior, los investigadores de Nvidia lograron reducir con éxito el modelo Nemotron15B a un modelo de 800 millones de parámetros mediante poda y destilación, y luego lo simplificaron aún más a 400 millones de parámetros. Este proceso no solo mejoró el rendimiento en un 16% en la conocida prueba de referencia MMLU, sino que también requirió 40 veces menos datos de entrenamiento que el entrenamiento desde cero.

En esta ocasión, el equipo de Nvidia creó un modelo de 400 millones de parámetros basándose en el modelo Llama3.18B, utilizando el mismo método. Primero, ajustaron finamente un modelo de 8B sin podar en un conjunto de datos que contenía 94 mil millones de tokens para abordar las diferencias de distribución entre los datos de entrenamiento y los datos de destilación. Luego, utilizaron poda profunda y poda de ancho, obteniendo finalmente dos versiones diferentes de Llama-3.1-Minitron4B.

Los investigadores ajustaron finamente los modelos podados utilizando NeMo-Aligner y evaluaron sus capacidades en seguimiento de instrucciones, interpretación de roles, generación mejorada por recuperación (RAG) y llamadas a funciones.

Los resultados muestran que, a pesar de la menor cantidad de datos de entrenamiento, Llama-3.1-Minitron4B presenta un rendimiento cercano a otros modelos pequeños, mostrando un excelente desempeño. La versión de poda de ancho ya se ha publicado en Hugging Face, permitiendo su uso comercial y beneficiando a más usuarios y desarrolladores con su eficiencia y rendimiento excepcional.

Blog oficial: https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/

Puntos clave:
🌟 Llama-3.1-Minitron4B es un modelo de lenguaje pequeño presentado por Nvidia basado en técnicas de poda y destilación, con una eficiente capacidad de entrenamiento e implementación.
📈 El modelo utilizó 40 veces menos tokens durante el entrenamiento que el entrenamiento desde cero, con una mejora significativa en el rendimiento.
🔓 La versión de poda de ancho ya está disponible en Hugging Face, facilitando su uso comercial y desarrollo.

Lanzamiento de Zamba2-7B, el modelo de lenguaje pequeño más avanzado, que supera a Gemma-7B

Recientemente, Zyphra lanzó oficialmente Zamba2-7B, un modelo de lenguaje pequeño con un rendimiento sin precedentes, con 7B parámetros. Este modelo se anuncia como superior en calidad y velocidad a sus competidores actuales, incluyendo Mistral-7B, Gemma-7B de Google y Llama3-8B de Meta. Zamba2-7B está diseñado para entornos que necesitan un potente procesamiento del lenguaje pero tienen limitaciones de hardware, como el procesamiento o uso en dispositivos.

Zyphra lanza el modelo de lenguaje pequeño Zamba2-2.7B: el doble de velocidad y un 27% menos de coste de memoria

Zyphra ha lanzado el modelo de lenguaje Zamba2-2.7B, un hito en el campo de los modelos de lenguaje pequeños. Este modelo ofrece una mejora significativa en rendimiento y eficiencia. Entrenado con aproximadamente 3 billones de tokens, reduce los requisitos de recursos durante la inferencia, convirtiéndose en una solución eficiente para aplicaciones en dispositivos móviles. Los puntos clave incluyen una mejora del doble en el tiempo de generación de la primera respuesta, una reducción del 27% en el uso de memoria y una reducción de la latencia de generación de 1,29 veces. Es especialmente adecuado para aplicaciones que requieren interacción en tiempo real, como asistentes virtuales y chatbots. Zamba2-2.

¡Optimización sencilla! Microsoft lanza la función de ajuste fino sin servidor para el modelo de lenguaje pequeño Phi-3

Microsoft anuncia el lanzamiento de la función de ajuste fino sin servidor para el modelo de lenguaje pequeño Phi-3, que permite a los desarrolladores ajustar fácilmente el rendimiento del modelo en la plataforma Azure AI sin necesidad de gestionar la infraestructura subyacente, y con un periodo inicial gratuito. El modelo Phi-3, con 3000 millones de parámetros, es adecuado para desarrolladores empresariales, ofreciendo un rendimiento eficiente y un bajo coste. En comparación con GPT-3.5 de OpenAI, aunque tiene menos parámetros, muestra un rendimiento similar en diversas aplicaciones. El ajuste fino sin servidor simplifica la operación, reduce la barrera de entrada y admite el ajuste fino de modelos pequeños y medianos.

NVIDIA lanza Minitron, un modelo de lenguaje pequeño: 40 veces más rápido de entrenar

NVIDIA ha lanzado recientemente la serie de modelos de lenguaje pequeños Minitron, que incluye versiones de 4B y 8B parámetros. Estos modelos ofrecen una velocidad de entrenamiento 40 veces superior, reduciendo significativamente los requisitos de recursos y datos, y por lo tanto, los costes. Combinando técnicas de "poda" y "destilación del conocimiento", Minitron mantiene el rendimiento mientras reduce el tamaño, permitiendo a los desarrolladores utilizar tecnología de vanguardia a un coste menor para aplicaciones como traducción, análisis de sentimiento e IA conversacional. La publicación de código abierto de Minitron facilita el acceso y uso para una audiencia más amplia.