Des chercheurs de l'Université de Nanjing et de Megvii Research ont révolutionné les grands modèles visuels. Leur paradigme non supervisé, SeVa, résout avec succès le problème de l'alignement des préférences des modèles linguistiques visuels, et ce, sans intervention humaine ni recours à GPT-4, réduisant ainsi considérablement les coûts d'alignement.

Au cœur de cette technologie se trouve un pipeline automatisé de construction de données de préférence. La comparaison des sorties du modèle avant et après l'alignement des préférences révèle des changements significatifs. Les chercheurs ont constaté que même de légères augmentations d'images pouvaient amener le VLM à fournir des réponses différentes à la même question. Ils utilisent donc la réponse à l'image originale comme échantillon positif et la réponse à l'image augmentée comme échantillon négatif pour l'entraînement.

image.png

Les résultats expérimentaux de SeVa sont remarquables. En utilisant seulement 8 000 données non supervisées, SeVa améliore considérablement le respect des instructions par le VLM, réduit les hallucinations et obtient des améliorations significatives sur plusieurs benchmarks multimodaux. Plus important encore, cette méthode est simple, facile à mettre en œuvre et peu coûteuse, ne nécessitant aucune annotation humaine ni l'utilisation de GPT-4.

Les résultats des tests sur plusieurs benchmarks montrent que SeVa présente un avantage significatif pour l'alignement des préférences humaines des modèles visuels. Ses performances sont particulièrement remarquables sur MMVet et LLaVA-bench, évalués par GPT-4. De plus, SeVa produit des réponses plus longues et plus détaillées, avec une cohérence accrue entre les réponses et une plus grande robustesse aux variations de température.

Cette recherche fournit non seulement une solution efficace au problème de l'alignement des grands modèles visuels, mais ouvre également de nouvelles perspectives pour le développement de l'IA. Avec l'open-source de SeVa, on peut prévoir que de nombreux chercheurs et développeurs utiliseront ce paradigme pour faire progresser les technologies de l'IA. Dans cette ère pleine de possibilités, attendons avec impatience les nouvelles surprises que les technologies de l'IA nous réservent.

Adresse du projet : https://github.com/Kevinz-code/SeVa