Meta hat kürzlich die neue Generation seines Open-Source-Modell-Sets Llama 3.1 veröffentlicht, darunter eine Version mit 405 Milliarden Parametern, deren Leistung sich geschlossenen Modellen wie GPT-4 annähert oder diese in einigen Benchmarks sogar übertrifft. Llama 3.1-8B-Instruct, eine 8-Milliarden-Parameter-Version dieser Serie, unterstützt Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Spanisch, Hindi und Thai. Die Kontextlänge beträgt bis zu 131.072 Tokens, und der Wissensstand ist auf Dezember 2023 aktualisiert.

Um die Fähigkeiten von Llama 3.1-8B-Instruct zu verbessern, hat Meta während des Trainings über 25 Millionen synthetische Daten verwendet, die von dem größeren 405-Milliarden-Parameter-Modell generiert wurden. Dadurch erreicht Llama 3.1-8B-Instruct in Tests zu Code und Mathematik ein kognitives und Schlussfolgerungsvermögen, das dem von GPT 3.5 Turbo ähnelt.

微信截图_20240725083410.png

OpenBuddy nutzt das Llama 3.1-8B-Instruct-Modell und hat durch Training mit einer kleinen Menge chinesischer Daten OpenBuddy-Llama3.1-8B-v22.1-131K veröffentlicht, ein neues Open-Source-Sprachmodell mit chinesischen Frage-und-Antwort-Funktionen und Cross-Lingual-Übersetzung. Obwohl Llama 3.1 selbst keine chinesischen Fähigkeiten besitzt, kann das trainierte Modell bei Fragen, die leicht zu Missverständnissen führen, Antworten generieren, die normalerweise nur von größeren Modellen erstellt werden können, was ein stärkeres kognitives Potenzial zeigt.

Aufgrund von Einschränkungen beim Trainingsdatensatz und der Trainingszeit weist OpenBuddy-Llama3.1-8B-v22.1 jedoch weiterhin Grenzen im chinesischen Wissen, insbesondere im Bereich der traditionellen Kultur, auf. Trotzdem zeigt das Modell eine relativ stabile Leistung bei Aufgaben wie dem Verständnis langer Texte, was auf seine ursprüngliche Fähigkeit zur Verarbeitung langer Texte zurückzuführen ist.

Zukünftig plant OpenBuddy ein größer angelegtes Training von 8-Milliarden- und 70-Milliarden-Parameter-Modellen, um den chinesischen Wissensbestand, die Fähigkeit zur Verarbeitung langer Texte und das kognitive Potenzial zu verbessern, und wird die Möglichkeit des Feinabstimmens des 405-Milliarden-Parameter-Modells untersuchen.

Projekt-Adresse: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k