Am 19. Juli 2024 gab die RWKV Open Source Foundation die globale Open-Source-Veröffentlichung des RWKV-6-World14B-Modells bekannt. Dies ist derzeit das leistungsstärkste dichte, rein RNN-basierte Large Language Model (LLM).

Das Modell zeigte in den neuesten Leistungstests herausragende Ergebnisse. Seine Leistung im Englischen ist vergleichbar mit Llama2 13B, und es übertrifft deutlich andere Modelle in Bezug auf die mehrsprachige Leistung. Es unterstützt über 100 Sprachen und Codes weltweit.

微信截图_20240722082902.png

Die Benchmark-Tests umfassten vier Open-Source-LLMs mit einer Größe von etwa 14 Milliarden Parametern. Die englische Leistung wurde anhand von 12 unabhängigen Benchmarks bewertet, während die mehrsprachige Fähigkeit mit xLAMBDA, xStoryCloze, xWinograd und xCopa getestet wurde. RWKV-6-World14B erzielte in diesen Tests durchweg hervorragende Ergebnisse, insbesondere im „Uncheatable Eval“-Ranking, wo es Llama2 13B und Qwen 1.5 14B übertraf.

Die Leistungssteigerung von RWKV-6-World14B ist auf Architekturverbesserungen von RWKV-4 zu RWKV-6 zurückzuführen. Das Modell wurde ohne Einbezug von Benchmark-Datasets trainiert, wodurch eine spezielle Optimierung vermieden wurde. Daher ist seine tatsächliche Leistungsfähigkeit wahrscheinlich noch höher als die Bewertung im Ranking. Die Uncheatable Eval-Bewertung umfasste aktuelle Daten wie kürzlich veröffentlichte arXiv-Artikel, Nachrichten, AO3-Romane und GitHub-Code, was die reale Modellierungs- und Generalisierungsfähigkeit des Modells zeigt.

Derzeit kann das RWKV-6-World14B-Modell über Plattformen wie Hugging Face, ModelScope und WiseModel heruntergeladen und lokal bereitgestellt werden. Da Ai00 nur Modelle im safetensor (.st)-Format unterstützt, kann das bereits in .st konvertierte Modell auch im Ai00HF-Repository heruntergeladen werden. Der benötigte Arbeitsspeicher für die lokale Bereitstellung und Inferenz von RWKV-6-World14B variiert je nach Quantisierungsmethode zwischen etwa 10 GB und 28 GB.

Beispiele für die Anwendung des RWKV-6-World14B-Modells umfassen die Verarbeitung natürlicher Sprache (Sentimentanalyse, maschinelles Leseverständnis), das Schreiben von Prosa und Gedichten, das Lesen und Bearbeiten von Code, die Erstellung von Vorschlägen für Themen von Finanzaufsätzen, das Extrahieren wichtiger Informationen aus Nachrichten, das Erweitern von Sätzen und das Schreiben eines Python-Spiels wie Snake.

Es ist zu beachten, dass alle veröffentlichten Open-Source-RWKV-Modelle Basismodelle sind, die über grundlegende Fähigkeiten in Bezug auf Anweisungen und Dialoge verfügen, aber nicht für bestimmte Aufgaben optimiert wurden. Wenn Sie möchten, dass ein RWKV-Modell bei einer bestimmten Aufgabe gut abschneidet, sollten Sie es mit den entsprechenden Daten trainieren (Fine-tuning).

Projekt-Adressen: