Llama 3.1 ist geleakt! Sie haben richtig gehört: Dieses Open-Source-Modell mit 405 Milliarden Parametern hat auf Reddit für Aufsehen gesorgt. Es ist möglicherweise das bisher dem GPT-4 am nächsten kommende Open-Source-Modell und übertrifft es in einigen Bereichen sogar.
Llama 3.1 ist ein großes Sprachmodell, das von Meta (ehemals Facebook) entwickelt wurde. Obwohl es noch keine offizielle Veröffentlichung gibt, hat die geleakte Version in der Community für Furore gesorgt. Das Modell umfasst nicht nur das Basismodell, sondern auch Benchmarkergebnisse für 8B, 70B und das Modell mit der maximalen Parameteranzahl von 405B.
Leistungsvergleich: Llama 3.1 vs. GPT-4
Den geleakten Vergleichsergebnissen zufolge übertrifft selbst die 70B-Version von Llama 3.1 GPT-4 in mehreren Benchmark-Tests. Dies ist das erste Mal, dass ein Open-Source-Modell in mehreren Benchmarks den Stand der Technik (SOTA) erreicht. Man kann nur staunen über die Kraft von Open Source!
Modell-Highlights: Mehrsprachige Unterstützung, umfangreichere Trainingsdaten
Llama 3.1 wurde mit über 15 Billionen Tokens aus öffentlich zugänglichen Quellen trainiert, wobei die Trainingsdaten bis Dezember 2023 reichen. Es unterstützt nicht nur Englisch, sondern auch Französisch, Deutsch, Hindi, Italienisch, Portugiesisch, Spanisch und Thai. Dies ermöglicht hervorragende Leistungen in mehrsprachigen Dialoganwendungen.
Das Llama 3.1-Forschungsteam legt großen Wert auf die Sicherheit des Modells. Sie verwendeten verschiedene Methoden zur Datenerhebung, kombinierten manuell generierte Daten mit synthetischen Daten, um potenzielle Sicherheitsrisiken zu mindern. Darüber hinaus wurden Boundary Prompts und gegnerische Prompts eingeführt, um die Qualitätskontrolle der Daten zu verbessern.
Modellkarte Quelle: https://pastebin.com/9jGkYbXY#google_vignette