La institución de investigación de IA sin fines de lucro Ai2 ha lanzado recientemente su nueva serie OLMo2, la segunda generación de su serie de "modelos de lenguaje abierto" (OLMo). El lanzamiento de OLMo2 no solo proporciona un poderoso soporte técnico a la comunidad de IA, sino que, con su código fuente completamente abierto, representa el último desarrollo en IA de código abierto.

A diferencia de otros modelos de lenguaje "abiertos" en el mercado, como la serie Llama de Meta, OLMo2 cumple con la estricta definición de la Iniciativa de Código Abierto. Esto significa que los datos de entrenamiento, las herramientas y el código utilizados para su desarrollo son públicos y accesibles para cualquiera. Según la definición de la Open Source Initiative, OLMo2 cumple con los estándares de "IA de código abierto" de la institución, estándares que se finalizaron en octubre de este año.

QQ20241127-140659.png

Ai2 mencionó en su blog que durante el desarrollo de OLMo2, todos los datos de entrenamiento, el código, los planes de entrenamiento, los métodos de evaluación y los puntos de control intermedios se abrieron completamente. El objetivo es impulsar la innovación y el descubrimiento en la comunidad de código abierto mediante el intercambio de recursos. "Al compartir públicamente nuestros datos, planes y descubrimientos, esperamos proporcionar a la comunidad de código abierto los recursos para descubrir nuevos métodos e innovar en tecnologías", dijo Ai2.

La serie OLMo2 incluye dos versiones: OLMo7B con 7 mil millones de parámetros y OLMo13B con 13 mil millones de parámetros. La cantidad de parámetros afecta directamente el rendimiento del modelo; las versiones con más parámetros suelen manejar tareas más complejas. OLMo2 muestra un excelente rendimiento en tareas de texto comunes, como responder preguntas, resumir documentos y escribir código.

Modelo grande Código Internet

Nota de la fuente de la imagen: La imagen fue generada por IA, el proveedor de servicios de autorización de imágenes es Midjourney.

Para entrenar OLMo2, Ai2 utilizó un conjunto de datos que contiene 5 billones de tokens. Un token es la unidad más pequeña en un modelo de lenguaje; 1 millón de tokens equivalen aproximadamente a 750.000 palabras. Los datos de entrenamiento incluyen contenido de sitios web de alta calidad, artículos académicos, foros de preguntas y respuestas y cuadernos de ejercicios matemáticos sintéticos. Estos datos se seleccionaron cuidadosamente para garantizar la eficiencia y precisión del modelo.

Ai2 confía en el rendimiento de OLMo2 y afirma que su rendimiento ya compite con modelos de código abierto como Llama 3.1 de Meta. Ai2 señala que el rendimiento de OLMo2 7B incluso supera al de Llama 3.1 8B, convirtiéndose en uno de los modelos de lenguaje completamente abiertos más potentes en la actualidad. Todos los modelos OLMo2 y sus componentes se pueden descargar gratuitamente desde el sitio web de Ai2 y están bajo la licencia Apache 2.0, lo que significa que estos modelos se pueden utilizar no solo para investigación, sino también para aplicaciones comerciales.