Das Allen Institute for Artificial Intelligence (AI2) in den USA hat kürzlich Dolma veröffentlicht, einen Open-Source-Datensatz mit 3 Billionen Tokens. Dieser Datensatz bildet die Grundlage für das von AI2 entwickelte Open-Language-Modell OLMo, dessen Veröffentlichung für Anfang 2024 geplant ist.
Dolmas Daten stammen aus einer Vielzahl von Quellen, darunter Webinhalte, wissenschaftliche Publikationen, Code und Bücher. Es ist der derzeit größte öffentlich zugängliche Datensatz dieser Art.