Dans le monde du développement de jeux vidéo, les grands modèles linguistiques (LLM) deviennent progressivement des « cerveaux » incontournables, intervenant dans presque toutes les étapes, de la génération de personnages IA à la construction de scènes.

Cependant, malgré leurs capacités impressionnantes, leur compréhension des scènes de jeu, leur reconnaissance d'images et leur description de contenu nécessitent encore des améliorations. Pour résoudre ces problèmes, une équipe de recherche de l'Alberta au Canada a lancé un grand modèle linguistique open source spécialement conçu pour les jeux vidéo : VideoGameBunny (ou « VGB »).

image.png

Points forts :

- Prise en charge de plusieurs langues : capable de traiter et de générer du texte dans plusieurs langues, idéal pour les applications internationales.

- Haute personnalisation : les paramètres du modèle et les fichiers de configuration peuvent être ajustés en fonction des besoins spécifiques.

- Capacités de génération de texte puissantes : génère des dialogues cohérents et naturels, excellant dans les jeux vidéo et les chatbots.

- Open source et facilement accessible : disponible sur la plateforme Hugging Face, permettant à quiconque de l'utiliser et d'y contribuer facilement.

- Compatibilité avec plusieurs environnements de développement : fonctionne avec des langages de programmation populaires comme Python, facilitant son intégration dans différents projets.

- Fichiers de modèle variés : propose des fichiers de modèle dans différents formats, permettant aux utilisateurs de réaliser différentes formations et applications.

- Communauté active : les utilisateurs peuvent obtenir de l'aide et échanger au sein de la communauté, favorisant le partage de connaissances et la collaboration.

Adresse du projet : https://huggingface.co/VideoGameBunny/VideoGameBunny-V1/tree/main

Le potentiel de VGB est énorme. Il agit comme un assistant IA visuel intelligent, capable de comprendre l'environnement du jeu et de fournir des retours instantanés. Dans les jeux AAA en monde ouvert, il peut aider les joueurs à identifier rapidement des objets clés ou à répondre à diverses questions, permettant une meilleure maîtrise du jeu et augmentant considérablement l'interactivité et l'immersion.

Plus impressionnant encore, VGB peut analyser un grand nombre d'images de jeu, détecter les erreurs de rendu graphique et les incohérences du moteur physique, devenant ainsi un précieux assistant pour les développeurs dans le débogage et la résolution d'anomalies.

Cas d'utilisation :

- Système de dialogue de jeu : permet de développer des dialogues de PNJ plus naturels et intelligents, améliorant l'immersion du joueur.

- Applications éducatives : génération de contenu interactif ou d'exercices pour les logiciels éducatifs, améliorant l'efficacité de l'apprentissage.

- Chatbot de service client : utilisable dans les systèmes de service client en ligne pour fournir une assistance et des réponses en temps réel.

VGB est basé sur le modèle Bunny, un « partenaire » efficace et peu gourmand en ressources. Inspiré par LLaVA, il utilise un réseau de perceptrons multicouches pour convertir les informations visuelles provenant d'un modèle visuel pré-entraîné puissant en marqueurs d'images, garantissant ainsi un traitement efficace des données par le modèle linguistique. Le modèle Bunny prend en charge des images jusqu'à une résolution de 1152 × 1152 pixels, ce qui est particulièrement important pour le traitement des images de jeu, car celles-ci contiennent divers éléments visuels, des petites icônes d'interface aux objets de jeu de grande taille. Sa capacité d'extraction de caractéristiques multi-échelles permet à VGB de mieux comprendre le contenu du jeu.

Pour permettre à VGB de mieux comprendre le contenu visuel des jeux, l'équipe de recherche a utilisé LLaMa-3-8B de Meta en tant que modèle linguistique, combiné à l'encodeur visuel SigLIP et à l'encapsuleur S2. Cette combinaison permet au modèle de capturer les éléments visuels à différentes échelles dans le jeu, des petites icônes d'interface aux grands objets de jeu, fournissant ainsi des informations contextuelles riches.

De plus, pour générer des données d'instructions correspondant aux images du jeu, les chercheurs ont utilisé plusieurs modèles avancés, notamment Gemini-1.0-Pro-Vision, GPT-4V et GPT-4o. Ces modèles ont généré différents types d'instructions, telles que des titres courts et détaillés, des descriptions image-à-JSON et des questions-réponses basées sur des images, aidant VGB à mieux comprendre les requêtes et les instructions des joueurs.