Together AI a publié l'ensemble de données RedPajama v2, contenant 30 billions de jetons, destiné à l'entraînement de grands modèles de langage. Cet ensemble de données vise à soutenir le développement réussi de grands modèles de langage en fournissant des ressources de données de haute qualité.
L'ensemble de données provient de CommonCrawl et d'autres données web publiques, et comprend plus de 40 clusters de données annotées et dédoublonnées de haute qualité. RedPajama v2 a subi un traitement minimal, préservant les données brutes pour permettre aux développeurs de modèles de les traiter ultérieurement.
Cette initiative fournira davantage de ressources pour le développement et la recherche de modèles linguistiques, et devrait stimuler le progrès du domaine de l'IA.