Salesforce lance xGen-MM, un modèle d'IA multimodale open source pour améliorer la compréhension visuelle

Salesforce a lancé un modèle d'IA multimodale open source appelé xGen-MM, capable de comprendre et de générer simultanément plusieurs types de données, notamment du texte et des images. Cela pourrait révolutionner la recherche et les applications de l'IA.

L'équipe de recherche IA de Salesforce a publié un article sur arXiv décrivant en détail le framework xGen-MM. Ce framework inclut non seulement des modèles pré-entraînés, mais aussi des ensembles de données et du code d'ajustement fin. Il est important de noter que le plus grand modèle compte 4 milliards de paramètres et affiche des performances solides sur plusieurs benchmarks, rivalisant avec les modèles open source similaires.

Cette décision d'open source contraste fortement avec la tendance actuelle de nombreux géants de la technologie à garder secrets leurs modèles d'IA avancés. Salesforce explique qu'il souhaite encourager une recherche et un développement plus larges en ouvrant ses modèles et ses ensembles de données. Cette décision vise également à permettre à un plus grand nombre de chercheurs et de développeurs de contribuer aux progrès de l'IA multimodale.

L'une des innovations majeures de xGen-MM réside dans sa capacité à traiter des « données entrelacées », c'est-à-dire à traiter simultanément plusieurs images et textes. Cette capacité permet au modèle d'exécuter des tâches plus complexes, telles que répondre à des questions sur plusieurs images simultanément. C'est vraiment impressionnant ! De telles applications pourraient être très utiles dans des domaines tels que le diagnostic médical et la conduite autonome.

Cette publication inclut également plusieurs versions optimisées du modèle, notamment un modèle de pré-entraînement de base, un modèle optimisé pour suivre les instructions et un modèle « optimisé pour la sécurité » visant à réduire les sorties nuisibles. Cette diversité de choix reflète l'importance croissante accordée par la communauté de l'IA à l'équilibre entre capacités et éthique de la sécurité.

Cependant, la publication de modèles puissants suscite également des discussions sur les risques potentiels et les impacts sociaux des systèmes d'IA plus avancés. Bien que Salesforce ait optimisé la sécurité pour réduire les risques, la question de l'équilibre entre innovation et sécurité reste un sujet de réflexion important.

La publication open source de Salesforce offre aux chercheurs des outils précieux pour mieux comprendre et améliorer ces technologies puissantes. Cela établit également une nouvelle référence en matière de transparence dans le domaine de l'IA, et pourrait encourager d'autres géants de la technologie à ouvrir davantage leurs recherches.

Accès au modèle : https://huggingface.co/collections/Salesforce/xgen-mm-1-models-662971d6cecbf3a7f80ecc2e

Points clés :
🌟 xGen-MM est un modèle d'IA multimodale open source de Salesforce, prenant en charge la compréhension et la génération combinées de texte et d'images.
🔍 Le modèle est capable de traiter des données entrelacées et de répondre simultanément à des questions sur plusieurs images, ouvrant ainsi de vastes perspectives d'application.
🔒 Cette publication inclut plusieurs versions optimisées, accordant une attention particulière à la sécurité et à l'éthique, offrant ainsi des ressources riches aux chercheurs.

Actualités IA

Salesforce lance xGen-MM, un modèle d'IA multimodale open source pour améliorer la compréhension visuelle

AIbase基地