IBM lance Granite 3.2, un petit modèle d'IA axé sur l'inférence efficace et la praticabilité

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Mar 6, 2025

16.0k

IBM a récemment lancé son dernier modèle linguistique de grande taille, Granite3.2, conçu pour offrir aux entreprises et à la communauté open source une solution d'IA d'entreprise « petite, efficace et pratique ». Ce modèle possède non seulement des capacités multimodales et de raisonnement, mais il améliore également la flexibilité et la rentabilité, facilitant ainsi son adoption par les utilisateurs.

Granite3.2 introduit un modèle linguistique visuel (VLM) pour le traitement de documents, la classification et l'extraction de données. IBM affirme que ce nouveau modèle atteint ou dépasse les performances de modèles plus importants, tels que Llama3.2 11B et Pixtral 12B, sur certains benchmarks clés. De plus, le modèle 8B de Granite3.2 affiche des capacités comparables ou supérieures à celles des modèles plus grands sur les benchmarks standard de raisonnement mathématique.

Pour améliorer les capacités de raisonnement, certains modèles Granite3.2 intègrent la fonction « chaîne de pensée » qui permet d'expliquer les étapes intermédiaires du raisonnement. Bien que cette fonction nécessite une puissance de calcul importante, les utilisateurs peuvent l'activer ou la désactiver selon leurs besoins afin d'optimiser l'efficacité et de réduire les coûts globaux. Sriram Raghavan, vice-président de la recherche IA chez IBM, a déclaré lors du lancement que la prochaine génération d'IA met l'accent sur l'efficacité, l'intégration et l'impact réel, permettant aux entreprises d'obtenir des résultats puissants sans dépasser leur budget.

En plus de l'amélioration des capacités de raisonnement, Granite3.2 présente une version miniature du modèle de sécurité « Granite Guardian », dont la taille a été réduite de 30 % tout en conservant des performances similaires à celles de la génération précédente. De plus, IBM introduit une capacité appelée « confiance verbalisable » qui permet une évaluation plus fine des risques et prend en compte l'incertitude dans la surveillance de la sécurité.

Granite3.2 a été entraîné sur la boîte à outils open source Docling d'IBM, qui permet aux développeurs de convertir des documents en données spécifiques nécessaires aux modèles d'IA d'entreprise personnalisés. La formation du modèle a traité 85 millions de fichiers PDF et 26 millions de paires de questions-réponses synthétiques pour améliorer la capacité du VLM à gérer les flux de travail de documents complexes.

IBM a également annoncé le lancement de la prochaine génération de modèles TinyTimeMixers (TTM), un modèle pré-entraîné compact axé sur la prévision de séries temporelles multivariées, avec des capacités de prévision à long terme allant jusqu'à deux ans.

Blog officiel : https://www.ibm.com/new/announcements/ibm-granite-3-2-open-source-reasoning-and-vision

Points clés :
📊 Granite3.2 introduit un modèle linguistique visuel, améliorant le traitement des documents et l'extraction de données.
💡 Le nouveau modèle possède une fonction de chaîne de pensée, qui permet d'expliquer le processus de raisonnement et améliore les capacités de raisonnement.
🔍 Le modèle de sécurité Granit Guardian est miniaturisé de 30 %, sans perte de performance, et une fonction d'évaluation des risques avec confiance verbalisable est introduite.

Le modèle linguistique de grande taille Wenxin 4.5 de Baidu sera lancé le 16 mars, doté de capacités multimodales natives et de réflexion approfondie

Baidu a annoncé que son dernier modèle linguistique de grande taille Wenxin 4.5 sera officiellement lancé le 16 mars. Il est entendu que le modèle linguistique de grande taille Wenxin est un élément important du déploiement de Baidu dans le domaine de l'intelligence artificielle. Depuis son lancement initial il y a deux ans, il a eu un impact profond à l'échelle mondiale.

Tuhu rachète 11 280 000 actions de catégorie A et intègre le modèle linguistique de grande taille DeepSeek

Récemment, Tuhu a annoncé dans un communiqué de presse que, conformément à l'autorisation de rachat d'actions approuvée par les actionnaires, il prévoit de racheter 11 284 400 actions de catégorie A sur le marché libre entre le 25 juin 2024 et le 14 février 2025. Ce rachat représente 1,38 % du capital social émis de la société. Il est à noter que Tuhu a déjà racheté et annulé 12 286 900 actions de catégorie A au premier semestre 2024, ce qui témoigne de l'attitude proactive de la société en matière d'opérations financières. Sur un autre plan important de son développement commercial, Tuhu a récemment...

Intégration du modèle linguistique de grande taille Huazhi de CNKI à DeepSeek AI : une amélioration significative de l'assistant de recherche académique

CNKI a récemment annoncé le lancement officiel de son nouveau service de connaissance, une application combinant le modèle linguistique de grande taille Huazhi et DeepSeek. Cette collaboration vise à fournir aux utilisateurs des réponses plus précises et complètes grâce à des capacités de services de connaissance professionnelles couvrant toutes les disciplines et tous les domaines, ainsi qu'à un mode de réflexion approfondie.

Tencent publie un nouveau brevet d'entraînement de modèle linguistique de grande taille, améliorant la généralisation et la précision du modèle

Tencent Technology (Shenzhen) Co., Ltd. a récemment publié sur l'application Tianyancha un brevet concernant une méthode d'entraînement de modèle linguistique de grande taille et les équipements associés. Ce brevet, intitulé « Méthode d'entraînement, dispositif, équipement informatique et support de stockage pour les modèles linguistiques de grande taille », vise à améliorer les capacités d'apprentissage et la précision des modèles linguistiques de grande taille grâce à des méthodes d'entraînement innovantes. Dans l'entraînement des modèles linguistiques de grande taille, les méthodes traditionnelles reposent souvent sur un seul résumé de texte, ce qui peut entraîner un surajustement du modèle et affecter la précision et la diversité du contenu généré. Cependant, la nouvelle approche de Tencent...