Récemment, Meta AI a lancé le nouveau modèle quantifié Llama3.2, disponible en deux versions : 1B et 3B. Ce modèle peut être affiné, distillé et déployé sur une variété d'appareils.

image.png

Par le passé, bien que des modèles comme Llama3 aient accompli des progrès remarquables en compréhension et génération du langage naturel, leur taille importante et leurs besoins élevés en calcul ont rendu leur utilisation difficile pour de nombreuses organisations. Les longs temps d'entraînement, la forte consommation d'énergie et la dépendance à des matériels coûteux ont creusé un fossé entre les géants de la technologie et les petites entreprises.

L'une des caractéristiques de Llama3.2 est sa prise en charge du traitement de texte et d'images multilingues. Les modèles 1B et 3B, après quantification, voient leur taille réduite en moyenne de 56 %, leur consommation mémoire diminuée de 41 % et leurs vitesses multipliées par 2 à 3. Ils sont ainsi parfaitement adaptés aux appareils mobiles et aux environnements de calcul en périphérie.

Plus précisément, ces modèles utilisent des stratégies de quantification 8 bits et 4 bits, réduisant la précision des poids et des activations, initialement représentés par des nombres à virgule flottante 32 bits. Cela permet de réduire considérablement les besoins en mémoire et en capacité de calcul. Cela signifie que le modèle Llama3.2 quantifié peut fonctionner sur des GPU grand public, voire des CPU, sans perte de performance significative.

Imaginez : les utilisateurs peuvent désormais utiliser diverses applications intelligentes sur leur téléphone, comme résumer en temps réel une discussion ou utiliser un agenda, grâce à ces modèles légers.

image.png

Meta AI collabore également avec des partenaires de premier plan comme Qualcomm et MediaTek pour déployer ces modèles sur des systèmes sur puce basés sur des CPU ARM, garantissant ainsi une utilisation efficace sur une large gamme d'appareils. Des tests préliminaires montrent que Llama3.2 quantifié atteint 95 % des performances du modèle Llama3 sur les principaux benchmarks de traitement du langage naturel, tout en réduisant la consommation mémoire de près de 60 %. Ceci est extrêmement important pour les entreprises et les chercheurs qui souhaitent mettre en œuvre l'intelligence artificielle sans investir dans des infrastructures coûteuses.

Le modèle quantifié Llama3.2 de Meta AI représente non seulement une avancée majeure pour l'accessibilité des technologies d'intelligence artificielle, mais il résout également certains problèmes fondamentaux liés à l'application des modèles de langage à grande échelle, tels que les coûts et l'impact environnemental. Cette tendance vers des modèles plus efficaces contribuera certainement à promouvoir un développement de l'intelligence artificielle durable et inclusif.

Accès au modèle : https://www.llama.com/

Points clés :

🌟 Le modèle Llama3.2 quantifié de Meta AI, disponible en versions 1B et 3B, réduit considérablement la taille du modèle et les besoins en ressources de calcul.

⚡️ La vitesse d'inférence du modèle est multipliée par 2 à 4, ce qui le rend compatible avec les matériels grand public et adapté aux applications en temps réel.

🌍 Llama3.2 quantifié offre des performances de traitement du langage naturel pratiquement équivalentes à la version originale, aidant les entreprises et les chercheurs à mettre en œuvre des applications d'IA.