MEGVII Technology lance Vary-toy

MEGVII Technology a publié Vary-toy, un grand modèle linguistique de vocabulaire visuel avancé adapté aux GPU standard. Optimisé pour la création de vocabulaire visuel, il vise à améliorer les capacités de perception d'image. Vary-toy a obtenu des résultats remarquables dans plusieurs tests de référence, notamment DocVQA, ChartQA et RefCOCO. Sa petite taille en fait un outil pratique pour les chercheurs disposant de ressources limitées. Les chercheurs prévoient de publier le code en open source afin de stimuler la recherche et l'adoption.