Im Zeitalter der zunehmenden Verbreitung großer Sprachmodelle ist die effiziente Bereitstellung unter ressourcenbeschränkten Bedingungen zu einer wichtigen Aufgabe geworden. Um diese Herausforderung zu bewältigen, wurde die leichtgewichtige, auf Qwen2.5 basierende, große Sprachmodellreihe DistilQwen2.5 veröffentlicht. Dieses Modell verwendet ein innovatives zweischichtiges Destillationsframework und optimierte Daten- und Parameterfusionstechniken. Dadurch werden nicht nur die Leistung des Modells beibehalten, sondern auch die benötigten Rechenressourcen deutlich reduziert.

image.png

Der Erfolg von DistilQwen2.5 beruht auf seiner einzigartigen Wissensdestillationstechnik. Dieser Prozess erfordert zunächst eine große Menge an hochwertigen Anweisungsdaten, die aus mehreren Open-Source- und privaten synthetischen Datensätzen stammen. Um die Datenvielfalt zu gewährleisten, erweiterte das Forschungsteam die chinesischen und englischen Daten mithilfe von Qwen-max, wodurch ein ausgewogenes Verhältnis zwischen Aufgaben und Sprachen erreicht wurde. Anschließend erweiterte, wählte und überarbeitete das Modell Anweisungen mithilfe der Ausgabe des Lehrermodells in einer „Black-Box-Destillation“. Diese Methode verbessert nicht nur die Datenqualität, sondern stärkt auch die Fähigkeit des Modells zur Bearbeitung mehrerer Aufgaben.

image.png

Es ist erwähnenswert, dass DistilQwen2.5 auch eine White-Box-Destillationstechnik einführt. Durch die Nachahmung der ITS-Verteilung des Lehrermodells wird der Wissenserwerb des Schülermodells effizienter gestaltet. Diese Technik vermeidet Probleme wie hohen GPU-Speicherverbrauch, langsame Speicher- und Lesegeschwindigkeiten, die bei der traditionellen White-Box-Destillation auftreten.

Tests mit mehreren etablierten Benchmarks zur Bewertung der Anweisungsbefolgung zeigen eine bemerkenswerte Leistung von DistilQwen2.5, insbesondere bei AlpacaEval2.0 und MT-Bench. Dies markiert einen neuen Meilenstein in der Entwicklung leichtgewichtiger großer Sprachmodelle. Es ermöglicht eine deutliche Reduzierung der Rechenkosten bei gleichzeitiger Leistungssicherung und fördert die Anwendung von KI-Technologien in verschiedenen Szenarien.

Die Open-Source-Veröffentlichung von DistilQwen2.5 wird auch Entwicklern den Umgang mit diesem leistungsstarken Tool erleichtern und zur Verbreitung von KI-Technologien beitragen.