Recientemente, un estudio de Apple en el campo del aprendizaje automático reveló que, en colaboración con NVIDIA, han logrado aumentar la velocidad de generación de modelos lingüísticos grandes (LLM) en casi tres veces. La clave de este avance reside en la tecnología de código abierto de Apple, "Recurrent Drafter" (ReDrafter), que utiliza un método de decodificación predictivo para mejorar significativamente la eficiencia del entrenamiento del modelo.
Anteriormente, la creación de modelos lingüísticos grandes era un proceso lento y que consumía muchos recursos. Las empresas necesitaban comprar una gran cantidad de hardware, lo que incrementaba los costes operativos. A principios de 2024, Apple lanzó ReDrafter, una tecnología que combina redes neuronales recurrentes y un método de atención de árbol dinámico para generar y verificar tokens rápidamente. Esto supuso una mejora de 3,5 veces en la velocidad de generación de tokens en comparación con los métodos tradicionales de auto-regresión.
Esta semana, Apple anunció que su colaboración con NVIDIA integrará ReDrafter en el framework de aceleración de inferencia NVIDIA TensorRT-LLM. Esto permitirá a los desarrolladores de aprendizaje automático que utilizan GPUs de NVIDIA aprovechar las funciones de aceleración de ReDrafter en entornos de producción. Cabe destacar que, aunque los servidores multi-GPU de alto rendimiento suelen ser caros, esta colaboración reduce la latencia y la cantidad de hardware necesario, ofreciendo una solución más económica.
En las pruebas de referencia realizadas con NVIDIA, la eficiencia de generación utilizando ReDrafter mejoró notablemente. La velocidad de generación de tokens por segundo en el modo de codificación voraz aumentó 2,7 veces. Esto significa que los desarrolladores pueden obtener más resultados en menos tiempo, ofreciendo una experiencia de usuario más rápida.
Tras confirmar la colaboración con NVIDIA, Apple también indicó que está considerando el uso de los chips Trainium2 de Amazon para mejorar la eficiencia del entrenamiento del modelo. Se espera que el uso de Trainium2 para el pre-entrenamiento mejore la eficiencia en un 50% con respecto al hardware existente.
Blog oficial: https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/
Puntos clave:
🌟 Apple y NVIDIA colaboran para aumentar la velocidad de generación de modelos lingüísticos grandes en casi tres veces.
🚀 La tecnología de código abierto ReDrafter, que combina redes neuronales recurrentes, mejora significativamente la eficiencia del entrenamiento del modelo.
💰 Esta colaboración ayuda a reducir costes y ofrece a los desarrolladores de aprendizaje automático soluciones más eficientes.