Ein revolutionäres, wissensbasiertes Verfahren zur Optimierung großer Sprachmodelle (LLMs) wurde gemeinsam vom Tencent Youtu Lab und einem Forschungsteam der Shanghai Jiao Tong Universität entwickelt. Diese innovative Technik umgeht die Einschränkungen traditioneller Modell-Feinabstimmungen und extrahiert Wissen direkt aus Open-Source-Daten. Dies vereinfacht den Modelloptimierungsprozess erheblich und erzielt in verschiedenen Aufgaben überragende Ergebnisse, die den aktuellen Stand der Technik (SOTA) übertreffen.

image.png

Große Sprachmodelle (LLMs) haben in den letzten Jahren zwar beachtliche Fortschritte in verschiedenen Bereichen erzielt, stehen in der Praxis aber immer noch vor zahlreichen Herausforderungen. Traditionelle Modell-Feinabstimmungsmethoden erfordern große Mengen an annotierten Daten und Rechenressourcen, was für viele reale Anwendungen oft nicht praktikabel ist. Obwohl die Open-Source-Community eine Fülle an feinabgestimmten Modellen und Anweisungsdatensätzen bereitstellt, stellt die effektive Nutzung dieser Ressourcen bei begrenzten annotierten Beispielen zur Verbesserung der Aufgabenfähigkeit und der Generalisierungsleistung des Modells eine anhaltende Herausforderung dar.

Um dieses Problem zu lösen, hat das Forschungsteam einen neuartigen experimentellen Rahmen entwickelt, der sich darauf konzentriert, unter den Bedingungen von K-Shot-Daten mit Beschriftungen aus realen Geschäftsanwendungen die Modellfähigkeiten mithilfe von Open-Source-Wissen zu verbessern. Dieser Rahmen nutzt den Wert begrenzter Stichproben optimal und verbessert die Leistung von großen Sprachmodellen für spezifische Aufgaben.

image.png

Die wichtigsten Innovationen dieser Studie umfassen:

Effiziente Modellselektion: Durch die umfassende Bewertung von Inferenz-Perplexität, Modellleistung und Wissensreichtum wird das Potenzial bestehender Modelle unter Bedingungen begrenzter Daten maximiert.

Optimierte Wissensextraktion: Es wurde eine Methode zur Extraktion relevanter Informationen aus Open-Source-Daten entwickelt. Eine Datenfilterstrategie, die Ähnlichkeit und Diversität ausgleicht, versorgt das Modell mit ergänzenden Informationen und reduziert gleichzeitig das Risiko des Overfittings.

Adaptives Modellsystem: Ein adaptives System basierend auf einer Mixed-Expert-Modellstruktur wurde entwickelt, um den Wissensaustausch zwischen mehreren effektiven Modellen zu ermöglichen und die Gesamtleistung zu steigern.

In der experimentellen Phase bewertete das Forschungsteam die Methode umfassend anhand von sechs Open-Source-Datensätzen. Die Ergebnisse zeigen, dass der neue Ansatz in allen Aufgaben die Baseline und andere fortschrittliche Methoden übertrifft. Durch die Visualisierung der Aktivierungsmuster der Experten wurde außerdem festgestellt, dass der Beitrag jedes Experten für das Modell unerlässlich ist, was die Wirksamkeit des Verfahrens weiter bestätigt.

Diese Studie zeigt nicht nur das enorme Potenzial von Open-Source-Wissen im Bereich der großen Sprachmodelle, sondern bietet auch neue Ansätze für die zukünftige Entwicklung von KI-Technologien. Sie überwindet die Grenzen traditioneller Modelloptimierungen und bietet Unternehmen und Forschungseinrichtungen eine praktikable Lösung zur Verbesserung der Modellleistung bei begrenzten Ressourcen.

Mit der kontinuierlichen Verbesserung und Verbreitung dieser Technologie ist davon auszugehen, dass sie eine wichtige Rolle bei der intelligenten Modernisierung verschiedener Branchen spielen wird. Die Zusammenarbeit zwischen Tencent Youtu und der Shanghai Jiao Tong Universität ist nicht nur ein Beispiel für die erfolgreiche Zusammenarbeit zwischen Wissenschaft und Industrie, sondern auch ein wichtiger Schritt zur Weiterentwicklung der KI-Technologie.

论文地址:https://www.arxiv.org/pdf/2408.15915