最近,艾伦人工智能研究所(AI2)发布了一款全新的开源模型 OLMoE,旨在满足对大型语言模型(LLM)的需求。这个模型不仅性能优异,而且成本相对低廉。

image.png

OLMoE 采用了一种稀疏混合专家(MoE)架构,拥有70亿个参数,但每个输入标记仅使用10亿个参数。它有两个版本,分别是更通用的 OLMoE-1B-7B 和经过指令调优的 OLMoE-1B-7B-Instruct。

image.png

与其他大多数闭源的混合专家模型不同,AI2特别强调 OLMoE 是完全开源的。他们在论文中提到,“大多数 MoE 模型是闭源的:尽管有些公开了模型权重,但对其训练数据、代码或配方的信息极为有限。” 这使得很多学术研究者无法接触到这些模型。

AI2的研究科学家内森・兰伯特在社交媒体上表示,OLMoE 将有助于政策制定,这可以为学术界的 H100集群的上线提供一个起点。他还提到,OLMoE 模型的发布是 AI2致力于开发开源模型、使其性能与封闭模型相媲美的目标的一部分。

在模型的构建方面,AI2决定使用64个小型专家进行精细路由,并在运行时只激活其中的八个。实验表明,OLMoE 在性能上与其他模型相当,但在推理成本和内存存储上却显著降低。OLMoE 还建立在 AI2之前的开源模型 OLMO1.7-7B 的基础上,支持4096个标记的上下文窗口。OLMoE 的训练数据来自多个来源,包括 Common Crawl、Dolma CC 和维基百科等。

在基准测试中,OLMoE-1B-7B 在与相似参数的模型比较时,表现优于许多现有模型,甚至超越了更大规模的模型,如 Llama2-13B-Chat 和 DeepSeekMoE-16B。

image.png

AI2的目标之一是为研究人员提供更多完全开源的 AI 模型,包括混合专家架构。尽管许多开发者都在使用 MoE 架构,但 AI2认为大多数其他 AI 模型在开放性上还远远不够。

huggingface: https://huggingface.co/collections/allenai/olmoe-66cf678c047657a30c8cd3da

论文入口: https://arxiv.org/abs/2409.02060

划重点:

- 🌟 AI2发布的新开源模型 OLMoE 在性能与成本方面都具备竞争力。

- 📊 OLMoE 采用了稀疏混合专家架构,能够有效降低推理成本和内存需求。

- 🔍 AI2致力于提供全面开源的 AI 模型,促进学术研究和开发。