El Instituto de Inteligencia Artificial Allen de Estados Unidos ha publicado recientemente un conjunto de datos de código abierto llamado Dolma, que contiene 3 billones de tokens. Este conjunto de datos servirá de base para el modelo de lenguaje abierto OLMo, que está siendo desarrollado por AI2 y cuyo lanzamiento está previsto para principios de 2024. Los datos de Dolma provienen de diversas fuentes, incluyendo contenido web, publicaciones académicas, código y libros.
Este conjunto de datos es el más grande de su tipo disponible públicamente en la actualidad.