AI2 veröffentlicht Dolma, einen Open-Source-Datensatz für große Sprachmodelle mit 3 Billionen Token

Dolma: Ein neuer, riesiger Datensatz für KI

Das Allen Institute for Artificial Intelligence (AI2) in den USA hat kürzlich Dolma veröffentlicht, einen Open-Source-Datensatz mit 3 Billionen Tokens. Dieser Datensatz bildet die Grundlage für das von AI2 entwickelte Open-Language-Modell OLMo, dessen Veröffentlichung für Anfang 2024 geplant ist.

Dolmas Daten stammen aus einer Vielzahl von Quellen, darunter Webinhalte, wissenschaftliche Publikationen, Code und Bücher. Es ist der derzeit größte öffentlich zugängliche Datensatz dieser Art.

KI-Nachrichten und -Informationen

AI2 veröffentlicht Dolma, einen Open-Source-Datensatz für große Sprachmodelle mit 3 Billionen Token

站长之家