Récemment, la startup tokyoïte Rhymes AI a lancé son premier modèle d'intelligence artificielle : Aria. L'entreprise affirme qu'Aria est le premier modèle multi-modal hybride expert (MoE) open source au monde. Ce modèle est capable de traiter plusieurs types d'entrées et prétend surpasser, voire égaler, les performances de certains modèles commerciaux renommés.
Aria est conçu pour offrir une compréhension et un traitement exceptionnels de diverses formes d'entrée, notamment le texte, le code, les images et les vidéos. Contrairement aux modèles Transformer traditionnels, le modèle MoE remplace ses couches feedforward par plusieurs experts spécialisés. Lors du traitement de chaque jeton d'entrée, un module de routage sélectionne un sous-ensemble d'experts à activer, ce qui améliore l'efficacité du calcul et réduit le nombre de paramètres activés par jeton.
Le décodeur d'Aria peut activer 3,5 milliards de paramètres par jeton de texte, le modèle entier comportant 24,9 milliards de paramètres. Pour traiter les entrées visuelles, Aria utilise un encodeur visuel léger de 438 millions de paramètres, capable de convertir des entrées visuelles de différentes longueurs, tailles et rapports hauteur/largeur en jetons visuels. De plus, la fenêtre contextuelle multimodale d'Aria atteint 64 000 jetons, ce qui lui permet de traiter des données d'entrée plus longues.
L'entraînement d'Aria par Rhymes AI s'est déroulé en quatre phases : pré-entraînement sur des données textuelles, introduction de données multimodales, entraînement sur des séquences longues, puis réglage fin.
Au total, Aria a été pré-entraîné sur 6,4 billions de jetons textuels et 400 milliards de jetons multimodaux provenant de jeux de données renommés tels que Common Crawl et LAION, avec un enrichissement synthétique partiel.
Selon les tests de référence, Aria surpasse des modèles tels que Pixtral-12B et Llama-3.2-11B dans plusieurs tâches multimodales, linguistiques et de programmation. Son coût d'inférence est également plus faible grâce à un nombre réduit de paramètres activés.
En outre, Aria excelle dans le traitement de vidéos sous-titrées ou de documents multipages. Sa capacité à comprendre les vidéos et documents longs dépasse celle d'autres modèles open source comme GPT-4o mini et Gemini 1.5 Flash.
Pour faciliter son utilisation, Rhymes AI a publié le code source d'Aria sous licence Apache 2.0 sur GitHub, autorisant une utilisation académique et commerciale. Un framework d'entraînement est également fourni, permettant le réglage fin d'Aria sur une seule GPU avec diverses sources et formats de données. Il est à noter que Rhymes AI a collaboré avec AMD pour optimiser les performances du modèle et a présenté BeaGo, une application de recherche capable de fonctionner sur du matériel AMD et offrant des résultats de recherche textuels et visuels IA plus complets.
Points clés :
🌟 Aria est le premier modèle d'IA multi-modal hybride expert open source au monde.
💡 Aria excelle dans le traitement de diverses entrées (texte, images, vidéos) et surpasse de nombreux modèles concurrents.
🤝 Rhymes AI a collaboré avec AMD pour optimiser les performances du modèle et a lancé l'application de recherche BeaGo, riche en fonctionnalités.