Le laboratoire de recherche à but non lucratif de la startup d'intelligence artificielle Cohere a publié cette semaine Aya Vision, un modèle d'IA « ouvert » multimodale. Le laboratoire affirme que ce modèle est un leader de l'industrie.

QQ_1741243943019.png

Aya Vision est capable d'effectuer plusieurs tâches, notamment la rédaction de légendes d'images, la réponse à des questions relatives aux photos, la traduction de texte et la génération de résumés dans 23 langues principales. Cohere indique qu'il fournit Aya Vision gratuitement via WhatsApp afin de faciliter l'accès des chercheurs du monde entier à cette avancée technologique.

QQ_1741243964274.png

Cohere souligne dans son blog que, malgré les progrès significatifs de l'intelligence artificielle, des écarts importants subsistent dans les performances des modèles entre les différentes langues, en particulier pour les tâches multimodales impliquant du texte et des images. « L'objectif d'Aya Vision est de contribuer à réduire cet écart. »

Aya Vision est disponible en deux versions : Aya Vision 32B et Aya Vision 8B. La version la plus avancée, Aya Vision 32B, qualifiée de « nouvelle frontière », surpasse dans certains benchmarks de compréhension visuelle des modèles deux fois plus grands, notamment Llama-3.290B Vision de Meta. Simultanément, Aya Vision 8B surpasse également certains modèles dix fois plus grands dans certaines évaluations.

QQ_1741243979235.png

Ces deux modèles sont disponibles sur la plateforme de développement d'IA Hugging Face sous licence Creative Commons 4.0, sous réserve du respect de l'annexe d'utilisation acceptable de Cohere et ne peuvent pas être utilisés à des fins commerciales.

Cohere précise qu'Aya Vision a été entraîné à l'aide d'un ensemble de données anglais « diversifié », que le laboratoire a traduit puis utilisé avec des annotations synthétiques. Les annotations synthétiques sont des annotations générées par l'IA, qui aident le modèle à comprendre et à interpréter les données pendant l'entraînement. Bien que les données synthétiques présentent des inconvénients potentiels, des concurrents comme OpenAI les utilisent de plus en plus pour entraîner leurs modèles.

Cohere souligne que l'entraînement d'Aya Vision avec des annotations synthétiques lui a permis de réduire l'utilisation des ressources tout en obtenant des performances compétitives. « Cela démontre notre engagement envers l'efficacité, en obtenant plus de résultats avec moins de ressources informatiques. »

Pour soutenir davantage la communauté de recherche, Cohere a également publié un nouvel ensemble d'outils d'évaluation de référence, AyaVisionBench, destinés à évaluer les capacités du modèle dans les tâches combinant vision et langage, telles que l'identification des différences entre deux images et la conversion de captures d'écran en code.

Actuellement, l'industrie de l'intelligence artificielle est confrontée à ce que l'on appelle la « crise de l'évaluation », principalement due à l'utilisation généralisée de benchmarks populaires dont les scores globaux sont faiblement corrélés aux capacités pour les tâches qui intéressent la plupart des utilisateurs d'IA. Cohere affirme qu'AyaVisionBench offre un cadre « large et stimulant » pour évaluer la compréhension multimodale et multilingue des modèles.

Blog officiel : https://cohere.com/blog/aya-vision

Points clés :

🌟 Aya Vision, qualifié de meilleur de sa catégorie par Cohere, est capable d'exécuter de multiples tâches linguistiques et visuelles.

💡 Aya Vision est disponible en deux versions, 32B et 8B, surpassant des modèles concurrents plus importants.

🔍 Cohere a également publié un nouvel outil d'évaluation de référence, AyaVisionBench, visant à améliorer l'évaluation des modèles d'IA.