MEGVII Technology a publié Vary-toy, un grand modèle linguistique de vocabulaire visuel avancé adapté aux GPU standard. Optimisé pour la création de vocabulaire visuel, il vise à améliorer les capacités de perception d'image. Vary-toy a obtenu des résultats remarquables dans plusieurs tests de référence, notamment DocVQA, ChartQA et RefCOCO. Sa petite taille en fait un outil pratique pour les chercheurs disposant de ressources limitées. Les chercheurs prévoient de publier le code en open source afin de stimuler la recherche et l'adoption.
Vary-toy : un modèle linguistique de grande taille et compact pour le vocabulaire visuel avancé, permettant une identification facile des objets cibles

站长之家
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.