Das Allen Institute for Artificial Intelligence (AI2) hat kürzlich sein neuestes großes Sprachmodell veröffentlicht – OLMo232B. Dieses Modell ist von Anfang an von besonderem Interesse, da es nicht nur das neueste Werk der OLMo2-Serie ist, sondern auch mit seinem „vollständig offenen“ Ansatz eine starke Herausforderung für die proprietären Modelle darstellt.

Das auffälligste Merkmal von OLMo232B ist seine vollständige Open-Source-Natur. AI2 hat großzügig alle Daten, den Code, die Gewichte und den detaillierten Trainingsprozess dieses Modells veröffentlicht. Dieses „offene Buch“-Verfahren steht im starken Kontrast zu einigen geheimnisumwitterten Closed-Source-Modellen.

AI2 hofft, durch diese offene Zusammenarbeit eine breitere Forschung und Innovation zu fördern und es Forschern weltweit zu ermöglichen, auf den Erkenntnissen von OLMo232B aufzubauen. In einer Ära des Wissensaustauschs ist Geheimhaltung auf lange Sicht keine erfolgversprechende Strategie.

32 Milliarden Parameter: Leistung auf Augenhöhe mit oder sogar besser als GPT-3.5 Turbo

Natürlich reicht allein der offene Ansatz nicht aus; die Leistung ist entscheidend. OLMo232B verfügt über 32 Milliarden Parameter – eine beachtliche Zahl, die ein deutliches Skalierungsupgrade gegenüber seinen Vorgängern darstellt.

Noch spannender ist, dass dieses Open-Source-Modell in mehreren anerkannten akademischen Benchmark-Tests sogar GPT-3.5 Turbo und GPT-4 mini übertroffen hat! Dies ist ein echter Motivationsschub für die Open-Source-KI-Community und beweist, dass nicht nur „kapitalstarke“ Unternehmen Spitzentechnologie im KI-Bereich entwickeln können. Sorgfältige Entwicklung und geschicktes Training können auch mit begrenzten Ressourcen Großes leisten.

QQ_1742280716141.png

Der Erfolg von OLMo232B ist eng mit seinem feingliedrigen Trainingsprozess verbunden. Dieser Prozess besteht aus zwei Hauptphasen: Pretraining und Mid-Training. In der Pretraining-Phase wurde das Modell mit einem riesigen Datensatz von etwa 3,9 Billionen Tokens trainiert, der aus verschiedenen Quellen stammt, darunter DCLM, Dolma, Starcoder und Proof Pile II. Dies ist vergleichbar mit dem Lesen einer riesigen Bibliothek und dem Erlernen verschiedener Sprachmuster.

Das Mid-Training konzentrierte sich auf den Dolmino-Datensatz, einen hochwertigen Datensatz mit 8430 Milliarden Tokens, der Bildungs-, Mathematik- und akademische Inhalte umfasst und die Fähigkeiten des Modells in bestimmten Bereichen weiter verbessert. Dieser phasenweise und fokussierte Trainingsansatz stellt sicher, dass OLMo232B über fundierte und detaillierte Sprachkenntnisse verfügt.

„Sparsamer Energieverbraucher“: Höhere Leistung mit weniger Rechenleistung

Neben seiner hervorragenden Leistung zeigt OLMo232B auch eine erstaunliche Trainingseffizienz. Es wird behauptet, dass es bei vergleichbarer Leistung zu führenden Open-Source-Modellen nur etwa ein Drittel der Rechenressourcen benötigt, im Gegensatz zu Modellen wie Qwen2.532B, die mehr Rechenleistung erfordern.

Dies ist vergleichbar mit einem hoch effizienten Handwerker, der mit weniger Werkzeugen und Zeit ein gleichwertiges oder sogar besseres Ergebnis erzielt. Dies zeigt das Engagement von AI2 in der Entwicklung ressourceneffizienter KI. Dies deutet auch darauf hin, dass in Zukunft mehr leistungsstarke KI-Modelle für jedermann verfügbar sein könnten und nicht mehr nur wenigen großen Unternehmen vorbehalten sind.

Die Veröffentlichung von OLMo232B ist nicht nur ein neues KI-Modell, sondern auch ein wichtiger Meilenstein auf dem Weg zu einer offenen und zugänglichen KI. Durch die Bereitstellung einer vollständig offenen Lösung, deren Leistung mit oder sogar über die einiger proprietärer Modelle hinausgeht, beweist AI2 eindrucksvoll, dass sorgfältiges Modelldesign und effiziente Trainingsmethoden zu großen Fortschritten führen können. Diese Offenheit wird Forscher und Entwickler weltweit ermutigen, sich aktiv zu beteiligen und gemeinsam den Fortschritt im Bereich der künstlichen Intelligenz voranzutreiben, um letztendlich der gesamten Menschheit zu nützen.

Es ist absehbar, dass OLMo232B dem KI-Forschungsbereich frischen Wind einhauchen wird. Es senkt nicht nur die Forschungsschwelle und fördert die Zusammenarbeit, sondern zeigt auch einen dynamischeren und innovativeren Weg der KI-Entwicklung auf. Die KI-Giganten, die weiterhin an ihren „Geheimrezepten“ festhalten, sollten vielleicht überdenken, dass Offenheit den Weg zu einer größeren Zukunft ebnet.

github:https://github.com/allenai/OLMo-core

huggingface:https://huggingface.co/allenai/OLMo-2-0325-32B-Instruct