Rhymes AI lance Aria, son premier modèle d'IA multimodale open source, surpassant des modèles renommés comme GPT-4o mini

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Oct 11, 2024

805

Récemment, la startup tokyoïte Rhymes AI a lancé son premier modèle d'intelligence artificielle : Aria. L'entreprise affirme qu'Aria est le premier modèle multi-modal hybride expert (MoE) open source au monde. Ce modèle est capable de traiter plusieurs types d'entrées et prétend surpasser, voire égaler, les performances de certains modèles commerciaux renommés.

Aria est conçu pour offrir une compréhension et un traitement exceptionnels de diverses formes d'entrée, notamment le texte, le code, les images et les vidéos. Contrairement aux modèles Transformer traditionnels, le modèle MoE remplace ses couches feedforward par plusieurs experts spécialisés. Lors du traitement de chaque jeton d'entrée, un module de routage sélectionne un sous-ensemble d'experts à activer, ce qui améliore l'efficacité du calcul et réduit le nombre de paramètres activés par jeton.

Le décodeur d'Aria peut activer 3,5 milliards de paramètres par jeton de texte, le modèle entier comportant 24,9 milliards de paramètres. Pour traiter les entrées visuelles, Aria utilise un encodeur visuel léger de 438 millions de paramètres, capable de convertir des entrées visuelles de différentes longueurs, tailles et rapports hauteur/largeur en jetons visuels. De plus, la fenêtre contextuelle multimodale d'Aria atteint 64 000 jetons, ce qui lui permet de traiter des données d'entrée plus longues.

L'entraînement d'Aria par Rhymes AI s'est déroulé en quatre phases : pré-entraînement sur des données textuelles, introduction de données multimodales, entraînement sur des séquences longues, puis réglage fin.

Au total, Aria a été pré-entraîné sur 6,4 billions de jetons textuels et 400 milliards de jetons multimodaux provenant de jeux de données renommés tels que Common Crawl et LAION, avec un enrichissement synthétique partiel.

Selon les tests de référence, Aria surpasse des modèles tels que Pixtral-12B et Llama-3.2-11B dans plusieurs tâches multimodales, linguistiques et de programmation. Son coût d'inférence est également plus faible grâce à un nombre réduit de paramètres activés.

En outre, Aria excelle dans le traitement de vidéos sous-titrées ou de documents multipages. Sa capacité à comprendre les vidéos et documents longs dépasse celle d'autres modèles open source comme GPT-4o mini et Gemini 1.5 Flash.

Pour faciliter son utilisation, Rhymes AI a publié le code source d'Aria sous licence Apache 2.0 sur GitHub, autorisant une utilisation académique et commerciale. Un framework d'entraînement est également fourni, permettant le réglage fin d'Aria sur une seule GPU avec diverses sources et formats de données. Il est à noter que Rhymes AI a collaboré avec AMD pour optimiser les performances du modèle et a présenté BeaGo, une application de recherche capable de fonctionner sur du matériel AMD et offrant des résultats de recherche textuels et visuels IA plus complets.

Points clés :
🌟 Aria est le premier modèle d'IA multi-modal hybride expert open source au monde.
💡 Aria excelle dans le traitement de diverses entrées (texte, images, vidéos) et surpasse de nombreux modèles concurrents.
🤝 Rhymes AI a collaboré avec AMD pour optimiser les performances du modèle et a lancé l'application de recherche BeaGo, riche en fonctionnalités.

CoreWeave et OpenAI signent un accord de 11,9 milliards de dollars pour les infrastructures d'IA, renforçant leur partenariat

CoreWeave, une entreprise de services cloud GPU, a récemment annoncé un partenariat stratégique de 11,9 milliards de dollars sur cinq ans avec OpenAI. Cet accord verra CoreWeave fournir à OpenAI la puissance de calcul nécessaire pour l'entraînement et le déploiement de ses modèles d'IA. Cette transaction majeure souligne la collaboration approfondie des deux entreprises dans le domaine de l'intelligence artificielle. Dans le cadre de ce partenariat, CoreWeave émettra également des actions d'une valeur de 3...

L'efficacité des grands modèles explose : la technologie COMET de ByteDance est open source, accélérant la vitesse de 1,7 fois

L'équipe du modèle de langage large Doubao de ByteDance a récemment annoncé avoir réussi à surmonter les goulots d'étranglement clés de l'architecture du modèle d'expert mixte (MoE) et a publié en open source une technologie d'optimisation majeure nommée COMET. Cette technologie améliore considérablement l'efficacité de l'entraînement des grands modèles, permettant une augmentation de l'efficacité allant jusqu'à 1,7 fois et réduisant efficacement les coûts de formation de 40 %. Remarque sur l'image : l'image a été générée par l'IA, le fournisseur de services d'autorisation d'image étant Midjourney. COMET a déjà été appliquée à l'entraînement en cluster de plusieurs milliers de cartes chez ByteDance, permettant des économies de plusieurs millions de GP.

Navigateur possédé par l'IA ? L'outil open source Browser Use enflamme le monde de la technologie ! Les développeurs crient au génie !

Récemment, le monde de la technologie et la communauté des développeurs ont été submergés par un projet open source nommé Browser Use ! Cet outil est comme des ailes pour l'IA, lui permettant de contrôler un navigateur aussi facilement qu'un humain. Il suffit d'un langage naturel pour commander à l'IA d'effectuer automatiquement diverses tâches sur le Web. Ses puissantes capacités d'automatisation et sa flexibilité de déploiement ont instantanément enflammé la passion des amateurs de technologie du monde entier, déclenchant une vague immense sur la plateforme X (anciennement Twitter). Browser Use se propage à une vitesse fulgurante, propulsant l'IA dans le domaine de l'automatisation des navigateurs.

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Récemment, la communauté Modelers a officiellement lancé Step-Video et Step-Audio, deux grands modèles multimodaux open source développés par Step-Video. Ces deux modèles sont respectivement utilisés pour la génération de vidéo et l'interaction vocale, visant à fournir aux développeurs et aux entreprises des outils IA plus performants. Step-Video, dont le nom complet est Step-Video-T2V, est un modèle de génération de vidéo open source parmi les plus grands au monde, avec un nombre de paramètres atteignant 30 milliards. Ce modèle est capable de générer directement des vidéos de 20...