Kürzlich hat Cohere zwei neue Open-Source-KI-Modelle vorgestellt, die im Rahmen seines Aya-Projekts die sprachliche Kluft bei Basismodellen schließen sollen. Die beiden neuen Modelle, Aya Expanse 8B und 35B, sind jetzt auf Hugging Face verfügbar. Durch diese Modelle wurde die KI-Leistung in 23 Sprachen deutlich verbessert.
Cohere erklärte in seinem Blog, dass das 8B-Parameter-Modell globalen Forschern den Zugang zu bahnbrechenden Entwicklungen erleichtert, während das 32B-Parameter-Modell branchenführende mehrsprachige Fähigkeiten bietet.
Ziel des Aya-Projekts ist es, den Zugriff auf Basismodelle für mehr nicht-englische Sprachen zu erweitern. Bereits im vergangenen Jahr startete die Forschungsabteilung von Cohere das Aya-Programm und veröffentlichte im Februar das Aya101-Large Language Model (LLM), das 101 Sprachen abdeckt. Zusätzlich dazu stellte Cohere den Aya-Datensatz vor, um das Training von Modellen in anderen Sprachen zu unterstützen.
Die Aya Expanse-Modelle verwenden viele Kernmethoden von Aya101. Cohere gibt an, dass die Verbesserungen von Aya Expanse auf jahrelanger Forschung basieren, die die Kernbausteine im Bereich der Machine-Learning-Durchbrüche neu überdacht hat. Der Forschungsschwerpunkt lag auf der Überwindung der sprachlichen Kluft, wobei wichtige Durchbrüche erzielt wurden, wie z. B. Data Arbitrage, präferenzbasiertes Training für allgemeine Leistung und Sicherheit sowie Modellfusion.
In mehreren Benchmark-Tests übertrafen die beiden Aya Expanse-Modelle laut Cohere vergleichbare KI-Modelle von Unternehmen wie Google, Mistral und Meta.
Aya Expanse 32B übertraf in mehrsprachigen Benchmark-Tests Gemma 227B, Mistral 8x22B und sogar das größere Llama 3.170B. Das kleinere 8B-Modell übertraf ebenfalls Gemma 29B, Llama 3.18B und Mistral 8B, mit einer Erfolgsrate zwischen 60,4 % und 70,6 %.
Um die Generierung unverständlicher Inhalte zu vermeiden, verwendet Cohere eine Daten-Sampling-Methode namens Data Arbitrage. Diese Methode ermöglicht ein besseres Modelltraining, insbesondere bei Sprachen mit geringen Ressourcen. Darüber hinaus konzentrierte sich Cohere darauf, das Modell auf „globale Präferenzen“ auszurichten und Perspektiven verschiedener Kulturen und Sprachen zu berücksichtigen, um die Leistung und Sicherheit des Modells zu verbessern.
Coheres Aya-Programm zielt darauf ab, die Leistung von LLMs bei der Forschung zu nicht-englischen Sprachen zu verbessern. Obwohl viele LLMs letztendlich in anderen Sprachen veröffentlicht werden, besteht beim Training von Modellen oft ein Mangel an Daten, insbesondere bei Sprachen mit geringen Ressourcen. Daher ist Coheres Engagement bei der Entwicklung mehrsprachiger KI-Modelle besonders wichtig.
Offizieller Blog: https://cohere.com/blog/aya-expanse-connecting-our-world
Wichtigste Punkte:
🌍 **Cohere stellt zwei neue KI-Modelle vor**, die darauf abzielen, die sprachliche Kluft bei Basismodellen zu schließen und die Leistung in 23 Sprachen zu verbessern.
💡 **Die Aya Expanse-Modelle zeigen hervorragende Leistungen** und übertreffen in mehrsprachigen Benchmark-Tests viele Wettbewerber.
🔍 **Die Data-Arbitrage-Methode** hilft dem Modell, die Generierung minderwertiger Inhalte zu vermeiden, indem sie globale kulturelle und sprachliche Perspektiven berücksichtigt und so das Training mehrsprachiger KI verbessert.