Google a récemment lancé la nouvelle version de sa série Gemma3, une nouvelle qui a enthousiasmé de nombreux amateurs d'IA. Un mois seulement après son lancement, Google a publié une version optimisée de Gemma3 grâce à la quantification consciente de la formation (QAT), visant à réduire considérablement les besoins en mémoire tout en maintenant la haute qualité du modèle.
Plus précisément, le modèle Gemma3 27B optimisé par QAT a vu ses besoins en mémoire vidéo passer de 54 Go à 14,1 Go, ce qui signifie que les utilisateurs peuvent désormais exécuter ce grand modèle localement sur des GPU grand public comme la NVIDIA RTX 3090. Des tests simples ont montré qu'une machine équipée d'une RTX 3070 pouvait également exécuter la version 12B de Gemma3, même si la vitesse de sortie des jetons était légèrement inférieure, les performances globales restant acceptables.
La magie du QAT réside dans son intégration directe des opérations de quantification pendant la formation, contrairement aux méthodes traditionnelles qui quantifient après la formation. Cette méthode permet de simuler efficacement les calculs à faible précision, réduisant ainsi les pertes de performances lors de la quantification ultérieure en versions plus petites. Google a effectué environ 5000 étapes d'entraînement QAT, réussissant à réduire la perplexité de 54 %, ce qui permet au modèle de maintenir des performances élevées même sur des petits appareils.
Désormais, les différentes versions de Gemma3 peuvent fonctionner sur divers GPU. Prenons l'exemple de Gemma3 27B : une seule NVIDIA RTX 3090 (24 Go de VRAM) suffit pour une exécution locale aisée, tandis que Gemma3 12B peut s'exécuter efficacement sur des appareils plus légers comme la NVIDIA RTX 4060. Cette réduction de la taille du modèle permet à davantage d'utilisateurs de profiter des puissantes fonctionnalités de l'IA, même sur des systèmes aux ressources limitées (comme les téléphones).
Google collabore également avec plusieurs outils de développement pour offrir une expérience utilisateur transparente. Des outils tels qu'Ollama, LM Studio et MLX prennent déjà en charge l'utilisation du modèle Gemma3 QAT. Il est à noter que de nombreux utilisateurs ont exprimé leur enthousiasme et souhaitent que Google explore des techniques de quantification encore plus efficaces.