Recientemente, el Instituto de Inteligencia Artificial de Allen (AI2) lanzó un nuevo modelo de código abierto, OLMoE, diseñado para satisfacer la demanda de modelos de lenguaje grandes (LLM). Este modelo no solo ofrece un rendimiento excepcional, sino que también es relativamente económico.

image.png

OLMoE utiliza una arquitectura de expertos mixtos dispersos (MoE), con 7 mil millones de parámetros, pero solo utiliza 1 mil millones de parámetros para cada token de entrada. Tiene dos versiones: OLMoE-1B-7B, más general, y OLMoE-1B-7B-Instruct, afinado con instrucciones.

image.png

A diferencia de la mayoría de los modelos de expertos mixtos de código cerrado, AI2 destaca que OLMoE es completamente de código abierto. En su artículo, mencionan: "La mayoría de los modelos MoE son de código cerrado: aunque algunos han publicado los pesos del modelo, la información sobre los datos de entrenamiento, el código o la receta es extremadamente limitada". Esto ha impedido que muchos investigadores académicos accedan a estos modelos.

Nathan Lambert, científico investigador de AI2, declaró en las redes sociales que OLMoE ayudará en la formulación de políticas, proporcionando un punto de partida para la puesta en marcha de clústeres H100 en el ámbito académico. También mencionó que el lanzamiento del modelo OLMoE forma parte del objetivo de AI2 de desarrollar modelos de código abierto con un rendimiento comparable a los modelos cerrados.

Para la construcción del modelo, AI2 decidió utilizar 64 expertos pequeños con enrutamiento refinado, activando solo ocho de ellos en tiempo de ejecución. Los experimentos muestran que OLMoE tiene un rendimiento comparable a otros modelos, pero con un costo de inferencia y un almacenamiento de memoria significativamente reducidos. OLMoE también se basa en el modelo de código abierto anterior de AI2, OLMO1.7-7B, que admite una ventana de contexto de 4096 tokens. Los datos de entrenamiento de OLMoE provienen de varias fuentes, incluyendo Common Crawl, Dolma CC y Wikipedia.

En las pruebas de referencia, OLMoE-1B-7B superó a muchos modelos existentes con parámetros similares, incluso a modelos de mayor escala como Llama2-13B-Chat y DeepSeekMoE-16B.

image.png

Uno de los objetivos de AI2 es proporcionar a los investigadores más modelos de IA completamente de código abierto, incluyendo arquitecturas de expertos mixtos. Aunque muchos desarrolladores utilizan la arquitectura MoE, AI2 considera que la mayoría de los demás modelos de IA carecen de apertura.

huggingface: https://huggingface.co/collections/allenai/olmoe-66cf678c047657a30c8cd3da

Enlace al artículo: https://arxiv.org/abs/2409.02060

Puntos clave:

- 🌟 El nuevo modelo de código abierto OLMoE de AI2 ofrece una excelente relación rendimiento-costo.

- 📊 OLMoE utiliza una arquitectura de expertos mixtos dispersos, lo que reduce eficazmente el costo de inferencia y las necesidades de memoria.

- 🔍 AI2 se compromete a proporcionar modelos de IA completamente de código abierto para fomentar la investigación y el desarrollo académicos.