No mundo do desenvolvimento de jogos, os grandes modelos de linguagem estão se tornando “cérebros” indispensáveis, abrangendo desde a geração de personagens de IA até a construção de cenários.

No entanto, apesar de suas capacidades impressionantes, a compreensão de cenários de jogos, o reconhecimento de imagens e a descrição de conteúdo ainda precisam de melhorias. Para resolver esses desafios, uma equipe de pesquisa da Universidade de Alberta, no Canadá, lançou um modelo de linguagem de código aberto, especificamente projetado para jogos – o VideoGameBunny (abreviado como “VGB”).

image.png

Destaques

- Suporte a múltiplos idiomas: capaz de processar e gerar texto em vários idiomas, ideal para aplicações internacionalizadas.

- Altamente personalizável: os parâmetros do modelo e os arquivos de configuração podem ser ajustados de acordo com necessidades específicas.

- Capacidade robusta de geração de texto: gera diálogos coerentes e naturais, com excelente desempenho em jogos e chatbots.

- Código aberto e de fácil acesso: disponível na plataforma Hugging Face, permitindo que qualquer pessoa o utilize e contribua.

- Compatível com diversos ambientes de desenvolvimento: funciona com linguagens de programação populares como Python, facilitando a integração em diferentes projetos.

- Ampla variedade de arquivos de modelo: oferece modelos em diversos formatos, permitindo diferentes tipos de treinamento e aplicação.

- Comunidade ativa e colaborativa: os usuários podem buscar ajuda e trocar experiências na comunidade, promovendo o compartilhamento de conhecimento e a colaboração.

Endereço do projeto: https://huggingface.co/VideoGameBunny/VideoGameBunny-V1/tree/main

O VGB possui um enorme potencial. Ele funciona como um assistente de IA visual inteligente, capaz de entender o ambiente do jogo e fornecer feedback instantâneo. Em jogos AAA de mundo aberto, ele pode ajudar os jogadores a identificar rapidamente itens importantes ou responder a várias perguntas, permitindo que você domine as habilidades do jogo mais rapidamente e aumente significativamente a interação e a imersão.

Ainda mais impressionante, o VGB pode analisar uma grande quantidade de imagens de jogos, detectar erros de renderização gráfica e inconsistências no motor físico, tornando-se uma ferramenta poderosa para desenvolvedores na detecção de bugs e anomalias.

Cenários de Aplicação

- Sistemas de diálogo em jogos: pode ser usado para desenvolver diálogos de NPCs mais naturais e inteligentes, melhorando a imersão do jogador.

- Aplicações educacionais: gera conteúdo interativo ou exercícios para softwares educacionais, aumentando a eficiência do aprendizado.

- Chatbots de atendimento ao cliente: pode ser aplicado em sistemas de atendimento ao cliente online, fornecendo suporte e respostas em tempo real.

O VGB é baseado no modelo Bunny, um “parceiro” eficiente e de baixo consumo. Sua inspiração de design é semelhante ao LLaVA, usando uma rede de perceptrons multicamadas para converter informações visuais de um modelo de visão pré-treinado em marcadores de imagem, garantindo que o modelo de linguagem possa processar dados de forma eficiente. O modelo Bunny suporta resoluções de imagem de até 1152×1152 pixels, o que é particularmente importante no processamento de imagens de jogos, pois as imagens de jogos contêm vários elementos visuais, de pequenos ícones de interface do usuário a objetos de jogo grandes. A capacidade de extração de recursos em várias escalas permite que o VGB tenha uma compreensão ainda melhor do conteúdo do jogo.

Para permitir que o VGB compreenda melhor o conteúdo visual dos jogos, a equipe de pesquisa utilizou o LLama-3-8B de código aberto do Meta como modelo de linguagem, combinado com o codificador visual SigLIP e o wrapper S2. Essa combinação permite que o modelo capture elementos visuais em diferentes escalas no jogo, desde pequenos ícones de interface até objetos de jogo grandes, fornecendo informações de contexto ricas.

Além disso, para gerar dados de instruções que correspondam às imagens do jogo, os pesquisadores usaram vários modelos avançados, incluindo Gemini-1.0-Pro-Vision, GPT-4V e GPT-4o. Esses modelos geraram vários tipos de instruções, como títulos curtos e detalhados, descrições de imagem para JSON e perguntas e respostas baseadas em imagens, ajudando o VGB a entender melhor as consultas e instruções do jogador.