Kürzlich hat das Allen Institute for Artificial Intelligence (AI2) ein neues Open-Source-Modell namens OLMoE veröffentlicht, das die Nachfrage nach großen Sprachmodellen (LLMs) erfüllen soll. Dieses Modell zeichnet sich nicht nur durch seine hohe Leistung, sondern auch durch seine vergleichsweise geringen Kosten aus.
OLMoE verwendet eine sparsame Mixture-of-Experts (MoE)-Architektur mit 7 Milliarden Parametern, wobei jedoch nur 1 Milliarde Parameter für jedes eingegebene Token verwendet werden. Es gibt zwei Versionen: das allgemeinere OLMoE-1B-7B und das durch Anweisungen optimierte OLMoE-1B-7B-Instruct.
Im Gegensatz zu den meisten anderen geschlossenen Mixture-of-Experts-Modellen betont AI2 besonders, dass OLMoE vollständig Open Source ist. In ihrer Veröffentlichung erwähnen sie: „Die meisten MoE-Modelle sind Closed Source: Obwohl einige die Modellgewichte veröffentlicht haben, sind Informationen über die Trainingsdaten, den Code oder die Rezeptur äußerst begrenzt.“ Dies hat vielen Wissenschaftlern den Zugang zu diesen Modellen verwehrt.
Nathan Lambert, Forschungswissenschaftler bei AI2, erklärte in den sozialen Medien, dass OLMoE die politische Gestaltung unterstützen wird und einen Ausgangspunkt für die Einrichtung von H100-Clustern in der Wissenschaft bieten könnte. Er erwähnte auch, dass die Veröffentlichung des OLMoE-Modells Teil des Engagements von AI2 ist, Open-Source-Modelle zu entwickeln, deren Leistung mit der geschlossener Modelle vergleichbar ist.
Bei der Entwicklung des Modells entschied sich AI2 für die Verwendung von 64 kleinen Experten für ein präzises Routing und aktiviert während des Betriebs nur acht davon. Experimente zeigen, dass OLMoE in Bezug auf die Leistung mit anderen Modellen vergleichbar ist, aber die Inferenzkosten und der Speicherbedarf deutlich geringer sind. OLMoE baut auf dem vorherigen Open-Source-Modell OLMO1.7-7B von AI2 auf und unterstützt ein Kontextfenster von 4096 Token. Die Trainingsdaten für OLMoE stammen aus verschiedenen Quellen, darunter Common Crawl, Dolma CC und Wikipedia.
In Benchmarks übertraf OLMoE-1B-7B im Vergleich zu Modellen mit ähnlichen Parametern viele bestehende Modelle und übertraf sogar größere Modelle wie Llama2-13B-Chat und DeepSeekMoE-16B.
Eines der Ziele von AI2 ist es, Forschern mehr vollständig Open-Source-KI-Modelle zur Verfügung zu stellen, einschließlich der Mixture-of-Experts-Architektur. Obwohl viele Entwickler die MoE-Architektur verwenden, ist AI2 der Ansicht, dass die meisten anderen KI-Modelle in Bezug auf die Offenheit noch weit hinterherhinken.
huggingface: https://huggingface.co/collections/allenai/olmoe-66cf678c047657a30c8cd3da
Paper-Link: https://arxiv.org/abs/2409.02060
Highlights:
- 🌟 Das neue Open-Source-Modell OLMoE von AI2 bietet eine wettbewerbsfähige Leistung bei geringen Kosten.
- 📊 OLMoE verwendet eine sparsame Mixture-of-Experts-Architektur, die die Inferenzkosten und den Speicherbedarf effektiv reduziert.
- 🔍 AI2 setzt sich für die Bereitstellung umfassend Open-Source-KI-Modelle ein, um die wissenschaftliche Forschung und Entwicklung zu fördern.