In den letzten Jahren ist das Training großer Sprachmodelle (LLMs) immer teurer und komplexer geworden, und nur wenige große Technologieunternehmen verfügen über die entsprechenden Rechenressourcen. Google hat jedoch kürzlich eine neue Methode namens SALT (Small Model Assisted Large Model Training) vorgestellt, eine Innovation, die das Bild des AI-Trainings grundlegend verändern könnte.

Roboter Künstliche Intelligenz KI (4)

Bildquelle: Das Bild wurde von KI generiert, Bildlizenzgeber Midjourney

Laut einer aktuellen Forschungsarbeit von Google Research und DeepMind, „Ein wenig Hilfe kann weit führen: Effizientes LLM-Training durch Nutzung kleiner Sprachmodelle“, führt SALT einen neuen zweistufigen Trainingsprozess ein. Diese Methode ist nicht nur effizient, sondern auch praktischer und verändert unsere bisherigen Trainingsmethoden.

Die erste Phase von SALT ist die Wissensdestillation. In dieser Phase fungiert ein kleines Sprachmodell (SLM) als Lehrer und überträgt sein Wissen auf das größere Modell. Das kleine Modell teilt sein erworbenes Wissen durch „weiche Labels“, um dem großen Modell zu helfen, in der Anfangsphase grundlegende Konzepte zu erlernen. Diese Phase eignet sich besonders für „einfache“ Aufgaben, bei denen das kleine Modell in dem Lernbereich eine hohe Vorhersagegenauigkeit aufweist.

Die zweite Phase ist das selbstüberwachte Lernen. In dieser Phase beginnt das große Modell selbstständig zu lernen und konzentriert sich auf das Beherrschen komplexerer Muster und herausfordernder Aufgaben. Dieser Übergang erfordert sorgfältig geplante Strategien, darunter lineares Abklingen und linear proportionales Abklingen, um sicherzustellen, dass das große Modell einen reibungslosen Übergang hat und die Abhängigkeit vom kleinen Modell schrittweise reduziert wird.

Google-Forscher haben in Experimenten festgestellt, dass das Training eines großen Modells mit 2,8 Milliarden Parametern unter Verwendung eines kleinen Modells mit 1,5 Milliarden Parametern die Trainingszeit auf dem „Stack-Datensatz“ um 28 % verkürzt. Nach dem Feintuning verbesserte sich die Genauigkeit des großen Modells bei mathematischen Problemen von 31,84 % auf 34,87 % und die Genauigkeit beim Leseverständnis von 63,7 % auf 67 %. Diese neue Methode verbessert nicht nur die Trainingseffizienz, sondern erzielt auch signifikante Fortschritte in der Leistung.

SALT dürfte die Hürden für die KI-Entwicklung senken und es vielen kleinen Forschungsinstituten und Unternehmen ermöglichen, die bisher durch Ressourcen eingeschränkt waren, an der Entwicklung von KI-Modellen mitzuwirken. Die Möglichkeiten für Forschung und Entwicklung werden zugänglicher, was möglicherweise zu mehr einzigartigen und spezialisierten KI-Lösungen führt und Innovationen und Anwendungen in diesem Bereich vorantreibt.

Wichtigste Punkte:

🌟 Mit der SALT-Methode kann die Trainingszeit großer Modelle um 28 % verkürzt werden, was die Rechenkosten erheblich reduziert.

📈 Die Wissensdestillation mit kleinen Modellen kann die Leistung großer Modelle bei komplexen Aufgaben deutlich verbessern.

🔍 Die Innovation von SALT könnte die Hürden für die KI-Entwicklung senken und es mehr kleinen Organisationen ermöglichen, an der KI-Forschung teilzunehmen.