Kürzlich hat das japanische Startup Rhymes AI in Tokio sein erstes KI-Modell, Aria, vorgestellt. Das Unternehmen bezeichnet Aria als das weltweit erste Open-Source-Multimodale-Mix-of-Experts-(MoE)-Modell. Dieses Modell kann nicht nur verschiedene Eingabemodalitäten verarbeiten, sondern soll auch mit bekannten kommerziellen Modellen mithalten oder diese sogar übertreffen.
Aria wurde so konzipiert, dass es eine hervorragende Fähigkeit zum Verstehen und Verarbeiten verschiedener Eingaben wie Text, Code, Bilder und Videos bietet. Im Gegensatz zu traditionellen Transformer-Modellen ersetzt das MoE-Modell seine Feedforward-Schichten durch mehrere spezialisierte Experten. Bei der Verarbeitung jedes Eingabe-Tokens wählt ein Routing-Modul einen Teil der Experten zur Aktivierung aus, wodurch die Rechenleistung verbessert und die Anzahl der aktivierten Parameter pro Token reduziert wird.
Arias Decoder aktiviert pro Text-Token 3,5 Milliarden Parameter, das gesamte Modell umfasst 24,9 Milliarden Parameter. Zur Verarbeitung visueller Eingaben verfügt Aria über einen leichtgewichtigen visuellen Encoder mit 438 Millionen Parametern, der visuelle Eingaben beliebiger Länge, Größe und Seitenverhältnisse in visuelle Tokens umwandeln kann. Darüber hinaus erreicht das multimodale Kontextfenster von Aria 64.000 Tokens, was bedeutet, dass es längere Eingabedaten verarbeiten kann.
Das Training von Rhymes AI erfolgte in vier Phasen: Zuerst wurde ein Vortraining mit Textdaten durchgeführt, dann wurden multimodale Daten eingeführt, gefolgt von einem Training mit langen Sequenzen und schließlich einem Feintuning.
Dabei wurden insgesamt 6,4 Billionen Text-Tokens und 400 Milliarden multimodale Tokens zum Vortraining verwendet, die aus bekannten Datensätzen wie Common Crawl und LAION stammen und teilweise synthetisch erweitert wurden.
Laut relevanten Benchmarks übertrifft Aria Modelle wie Pixtral-12B und Llama-3.2-11B in mehreren multimodalen, sprachlichen und Programmieraufgaben und weist aufgrund der geringeren Anzahl aktivierter Parameter geringere Inferenzkosten auf.
Darüber hinaus zeigt Aria eine gute Leistung bei der Verarbeitung von Videos mit Untertiteln oder mehrseitigen Dokumenten. Seine Fähigkeit, lange Videos und Dokumente zu verstehen, übertrifft andere Open-Source-Modelle wie GPT-4o mini und Gemini 1.5 Flash.
Zur Vereinfachung der Nutzung veröffentlicht Rhymes AI den Quellcode von Aria unter der Apache 2.0-Lizenz auf GitHub, sowohl für akademische als auch für kommerzielle Zwecke. Gleichzeitig wird ein Trainingsframework bereitgestellt, mit dem Aria auf einer einzelnen GPU mit verschiedenen Datenquellen und -formaten feinabgestimmt werden kann. Erwähnenswert ist die Zusammenarbeit von Rhymes AI mit AMD zur Optimierung der Modellleistung. Es wurde eine Such-App namens BeaGo vorgestellt, die auf AMD-Hardware läuft und Benutzern umfassendere Text- und Bild-KI-Suchergebnisse liefert.
Wichtigste Punkte:
🌟 Aria ist das weltweit erste Open-Source-Multimodale-Mix-of-Experts-KI-Modell.
💡 Aria zeigt hervorragende Leistung bei der Verarbeitung verschiedener Eingaben wie Text, Bilder und Videos und übertrifft viele Konkurrenzmodelle.
🤝 Rhymes AI arbeitet mit AMD zusammen, um die Modellleistung zu optimieren und bietet die vielseitige Such-App BeaGo an.