IBM a récemment lancé son dernier modèle linguistique de grande taille, Granite3.2, conçu pour offrir aux entreprises et à la communauté open source une solution d'IA d'entreprise « petite, efficace et pratique ». Ce modèle possède non seulement des capacités multimodales et de raisonnement, mais il améliore également la flexibilité et la rentabilité, facilitant ainsi son adoption par les utilisateurs.
Granite3.2 introduit un modèle linguistique visuel (VLM) pour le traitement de documents, la classification et l'extraction de données. IBM affirme que ce nouveau modèle atteint ou dépasse les performances de modèles plus importants, tels que Llama3.2 11B et Pixtral 12B, sur certains benchmarks clés. De plus, le modèle 8B de Granite3.2 affiche des capacités comparables ou supérieures à celles des modèles plus grands sur les benchmarks standard de raisonnement mathématique.
Pour améliorer les capacités de raisonnement, certains modèles Granite3.2 intègrent la fonction « chaîne de pensée » qui permet d'expliquer les étapes intermédiaires du raisonnement. Bien que cette fonction nécessite une puissance de calcul importante, les utilisateurs peuvent l'activer ou la désactiver selon leurs besoins afin d'optimiser l'efficacité et de réduire les coûts globaux. Sriram Raghavan, vice-président de la recherche IA chez IBM, a déclaré lors du lancement que la prochaine génération d'IA met l'accent sur l'efficacité, l'intégration et l'impact réel, permettant aux entreprises d'obtenir des résultats puissants sans dépasser leur budget.
En plus de l'amélioration des capacités de raisonnement, Granite3.2 présente une version miniature du modèle de sécurité « Granite Guardian », dont la taille a été réduite de 30 % tout en conservant des performances similaires à celles de la génération précédente. De plus, IBM introduit une capacité appelée « confiance verbalisable » qui permet une évaluation plus fine des risques et prend en compte l'incertitude dans la surveillance de la sécurité.
Granite3.2 a été entraîné sur la boîte à outils open source Docling d'IBM, qui permet aux développeurs de convertir des documents en données spécifiques nécessaires aux modèles d'IA d'entreprise personnalisés. La formation du modèle a traité 85 millions de fichiers PDF et 26 millions de paires de questions-réponses synthétiques pour améliorer la capacité du VLM à gérer les flux de travail de documents complexes.
IBM a également annoncé le lancement de la prochaine génération de modèles TinyTimeMixers (TTM), un modèle pré-entraîné compact axé sur la prévision de séries temporelles multivariées, avec des capacités de prévision à long terme allant jusqu'à deux ans.
Blog officiel : https://www.ibm.com/new/announcements/ibm-granite-3-2-open-source-reasoning-and-vision
Points clés :
📊 Granite3.2 introduit un modèle linguistique visuel, améliorant le traitement des documents et l'extraction de données.
💡 Le nouveau modèle possède une fonction de chaîne de pensée, qui permet d'expliquer le processus de raisonnement et améliore les capacités de raisonnement.
🔍 Le modèle de sécurité Granit Guardian est miniaturisé de 30 %, sans perte de performance, et une fonction d'évaluation des risques avec confiance verbalisable est introduite.