In der Welt der künstlichen Intelligenz ist der Wettstreit zwischen Open Source und Closed Source nie abgeebbt. Die Veröffentlichung des Llama3.1-Modells von Meta AI scheint nun einen Wendepunkt in diesem Wettkampf zu markieren. Dies ist nicht nur die Veröffentlichung eines Modells, sondern auch ein Zeichen für die Reife von Open-Source-KI und kündigt eine neue Ära an.

image.png

Llama3.1 ist ein neues großes Sprachmodell, das vom Meta AI-Team entwickelt wurde. In über 150 Benchmark-Tests erreichte die 405B-Parameter-Version nicht nur die Leistung der aktuell besten Modelle GPT-4o und Claude3.5 Sonnet, sondern übertraf diese in einigen Bereichen sogar. Dieser Erfolg markiert den ersten Punkt, an dem ein Open-Source-KI-Modell in Bezug auf die Leistung mit Closed-Source-Modellen gleichzieht.

image.png

Um das Llama3.1 405B-Modell zu trainieren, hat Meta den gesamten Trainings-Stack deutlich optimiert und erstmals die Rechenleistung auf über 16.000 H100-GPUs erweitert. Es verwendet eine standardmäßige Decoder-only Transformer-Architektur mit geringfügigen Modifikationen. Durch einen iterativen Post-Training-Prozess mit SFT (Supervised Fine-Tuning) und DPO (Direct Preference Optimization) in jeder Runde wird die Leistung verbessert.

Meta hat die Reaktionsfähigkeit des Modells auf Benutzeranweisungen verbessert, die Fähigkeit, detaillierte Anweisungen zu befolgen, gestärkt und gleichzeitig die Sicherheit gewährleistet. In der Post-Training-Phase wurde eine mehrstufige Ausrichtung durchgeführt, wobei synthetische Daten verwendet wurden, um die meisten SFT-Beispiele zu generieren, und verschiedene Datenverarbeitungsverfahren zur Filterung der Daten auf höchste Qualität eingesetzt wurden.

image.png

Technische Highlights:

  • Erweiterte Kontextlänge: Llama3.1 erweitert die Kontextlänge auf 128K, was bedeutet, dass das Modell komplexere Aufgaben bewältigen und längere Textinformationen verstehen kann.

  • Mehrsprachigkeit: Das Modell unterstützt jetzt acht Sprachen: Englisch, Französisch, Deutsch, Hindi, Italienisch, Portugiesisch, Spanisch und Thai, was seine allgemeine Anwendbarkeit deutlich verbessert.

  • Überragende Leistung: In Bereichen wie Allgemeinwissen, Steuerbarkeit, Mathematik, Werkzeuggebrauch und mehrsprachiger Übersetzung zeigt Llama3.1 eine überragende Leistung.

  • Llama3.1 wurde mit über 15 Billionen Tokens trainiert – ein in der Branche bisher einmaliger Umfang.

  • Modellarchitektur: Llama3.1 verwendet eine standardmäßige Decoder-only Transformer-Architektur mit geringfügigen Anpassungen zur Leistungssteigerung.

Meta-CEO Mark Zuckerberg erklärte in einem Interview, dass Open-Source-KI ein Wendepunkt für die Branche sein wird. Er betonte die Vorteile von Open-Source-KI in Bezug auf Offenheit, Modifizierbarkeit und Kosteneffizienz und dass sie die Verbreitung und Entwicklung von KI-Technologien vorantreiben wird.

Open-Source-KI ermöglicht es Entwicklern, den Code frei zu modifizieren, die Datensicherheit zu gewährleisten und bietet gleichzeitig effiziente und erschwingliche Modelle. Darüber hinaus entwickelt sich Open-Source-KI schnell und könnte zum langfristigen Standard werden.

Meta arbeitet mit mehreren Unternehmen zusammen, um ein breiteres Ökosystem zu entwickeln, das Entwickler bei der Feinabstimmung und Destillation ihrer eigenen Modelle unterstützt. Diese Modelle werden auf allen wichtigen Cloud-Plattformen verfügbar sein, darunter AWS, Azure, Google und Oracle.

Die Veröffentlichung von Llama3.1 deutet darauf hin, dass Open-Source-KI zum Industriestandard werden und neue Wege für die Verbreitung und Anwendung von KI eröffnen könnte.

Offizielle detaillierte Informationen: https://ai.meta.com/blog/meta-llama-3-1/