L'Institut Allen de l'intelligence artificielle (AI2) aux États-Unis a récemment publié Dolma, un ensemble de données open source contenant 3 billions de jetons. Cet ensemble de données servira de base au modèle linguistique ouvert OLMo, actuellement en développement chez AI2, et dont la sortie est prévue pour début 2024.
Les données de Dolma proviennent de sources diverses, notamment le contenu web, les publications académiques, le code et les livres. Il s'agit actuellement du plus grand ensemble de données de ce type disponible publiquement.