Recientemente, Meta AI lanzó el nuevo modelo cuantificado Llama3.2, disponible en versiones de 1B y 3B parámetros. Este modelo permite el ajuste fino, la destilación y la implementación en una variedad de dispositivos.

image.png

Anteriormente, aunque modelos como Llama3 habían logrado avances significativos en la comprensión y generación del lenguaje natural, su gran tamaño y las altas demandas computacionales dificultaban su uso para muchas organizaciones. Los largos tiempos de entrenamiento, el alto consumo de energía y la dependencia de hardware costoso, sin duda, ampliaban la brecha entre las grandes empresas tecnológicas y las pequeñas.

Una de las características de Llama3.2 es su soporte para el procesamiento de texto e imágenes multilingües. Los modelos de 1B y 3B parámetros, tras el proceso de cuantificación, reducen su tamaño promedio en un 56%, disminuyen el uso de memoria en un 41% y alcanzan una velocidad de hasta 2-3 veces superior, lo que los hace ideales para su ejecución en dispositivos móviles y entornos de computación perimetral.

Específicamente, estos modelos emplean estrategias de cuantificación de 8 y 4 bits, reduciendo la precisión de los pesos y activaciones que originalmente eran de 32 bits en punto flotante. Esto reduce significativamente las demandas de memoria y capacidad de cómputo. Esto significa que el modelo Llama3.2 cuantificado puede ejecutarse en GPUs de consumo común, e incluso en CPUs, con una pérdida de rendimiento prácticamente insignificante.

Imagine poder utilizar aplicaciones inteligentes en su teléfono móvil, como resumir conversaciones en tiempo real o acceder a herramientas de calendario. Todo esto es posible gracias a estos modelos ligeros.

image.png

Meta AI también colabora con líderes de la industria como Qualcomm y MediaTek para implementar estos modelos en sistemas en chip basados en CPU Arm, garantizando su uso eficiente en una amplia gama de dispositivos. Las pruebas iniciales muestran que Llama3.2 cuantificado alcanza el 95% del rendimiento de Llama3 en las principales pruebas de referencia de procesamiento del lenguaje natural, mientras que reduce el consumo de memoria en casi un 60%. Esto es muy importante para empresas e investigadores que desean implementar la inteligencia artificial sin una gran inversión en infraestructura.

El modelo cuantificado Llama3.2 de Meta AI no solo representa un paso importante para mejorar la accesibilidad de la tecnología de inteligencia artificial, sino que también resuelve algunos problemas centrales en la aplicación de modelos de lenguaje a gran escala, como el coste y el impacto ambiental. Esta tendencia hacia modelos eficientes impulsará sin duda el desarrollo sostenible e inclusivo de la inteligencia artificial en el futuro.

Enlace al modelo:https://www.llama.com/

Puntos clave:

🌟 El modelo Llama3.2 cuantificado de Meta AI, disponible en versiones de 1B y 3B parámetros, reduce significativamente el tamaño del modelo y las necesidades de recursos computacionales.

⚡️ La velocidad de inferencia del modelo aumenta entre 2 y 4 veces, es adecuado para hardware de consumo común y para aplicaciones en tiempo real.

🌍 El rendimiento del Llama3.2 cuantificado en el procesamiento del lenguaje natural es prácticamente equivalente al del modelo original, lo que ayuda a las empresas e investigadores a implementar aplicaciones de IA.