Le laboratoire IA de Shanghai publie en open source le corpus de pré-entraînement multi-modal « Shusheng

Le laboratoire IA de Shanghai publie en open source le corpus de pré-entraînement multi-modal « Shusheng · Wanjuan » 1.0

站长之家

Publié leActualités IA · 2 minutes de lecture · Aug 15, 2023

Publication du corpus de pré-entraînement multi-modal "Shusheng · Wanjuan" 1.0

Le laboratoire IA de Shanghai et l'alliance des données de corpus ont publié le corpus de pré-entraînement multi-modal "Shusheng · Wanjuan" 1.0, comprenant des ensembles de données textuelles, textuelles et visuelles, et vidéo. Ce corpus open source, d'une taille supérieure à 2 To, a subi un nettoyage et une déduplication granulaires. Il se caractérise par sa fusion multiforme, son traitement précis et son efficacité.

La publication de ce corpus contribuera à stimuler l'application et l'innovation des grands modèles, et à réduire le seuil d'accès aux technologies des grands modèles.

L'opérateur OpenAI open source est arrivé ! Nanobrowser, l'automate IA gratuit pour navigateur

Vous en avez assez de payer des centaines de dollars par mois pour un abonnement à OpenAI Operator ? Nanobrowser est la solution. Il s'agit d'un outil open source entièrement gratuit, sans aucun abonnement, vous libérant ainsi de toute contrainte financière. Il vous suffit d'installer cette extension et de configurer votre propre clé API LLM pour profiter immédiatement des fonctionnalités d'automatisation web haut de gamme. Cette approche « tout compris » est non seulement économique, mais vous permet également de maîtriser parfaitement vos coûts. Votre IA, vos règles.

PP-TableMagic : Modèle d'identification de tableau open source de Baidu AI

Baidu AI annonce la publication en open source de PP-TableMagic, une nouvelle solution de pointe pour l'identification de tableaux, marquant une avancée majeure dans le domaine de l'extraction d'informations structurées à partir de tableaux. PP-TableMagic vise à surmonter les limites des techniques traditionnelles d'identification de tableaux dans des scénarios complexes. Grâce à une architecture innovante de réseau multi-modèles, il permet une identification de tableaux de bout en bout hautement précise et prend en charge l'ajustement fin des modèles hautement personnalisable pour tous les scénarios.

L'efficacité des grands modèles explose : la technologie COMET de ByteDance est open source, accélérant la vitesse de 1,7 fois

L'équipe du modèle de langage large Doubao de ByteDance a récemment annoncé avoir réussi à surmonter les goulots d'étranglement clés de l'architecture du modèle d'expert mixte (MoE) et a publié en open source une technologie d'optimisation majeure nommée COMET. Cette technologie améliore considérablement l'efficacité de l'entraînement des grands modèles, permettant une augmentation de l'efficacité allant jusqu'à 1,7 fois et réduisant efficacement les coûts de formation de 40 %. Remarque sur l'image : l'image a été générée par l'IA, le fournisseur de services d'autorisation d'image étant Midjourney. COMET a déjà été appliquée à l'entraînement en cluster de plusieurs milliers de cartes chez ByteDance, permettant des économies de plusieurs millions de GP.

Actualités IA

Le laboratoire IA de Shanghai publie en open source le corpus de pré-entraînement multi-modal « Shusheng · Wanjuan » 1.0

站长之家

Recommandations d'actualités IA connexes

Reka AI lance Reka Flash 3, un nouveau modèle open source : un modèle d'inférence polyvalent de 2,1 milliards de paramètres

L'opérateur OpenAI open source est arrivé ! Nanobrowser, l'automate IA gratuit pour navigateur

PP-TableMagic : Modèle d'identification de tableau open source de Baidu AI

L'efficacité des grands modèles explose : la technologie COMET de ByteDance est open source, accélérant la vitesse de 1,7 fois