Recentemente, uma avaliação de capacidade de IA incomum foi realizada na plataforma Minecraft, atraindo muita atenção. Duas versões, uma antiga e uma nova, do Claude3.5Sonnet participaram de uma competição de construção no jogo, mostrando diferenças significativas de capacidade, com a nova versão (chamada provisoriamente de "Sonnet3.6") se destacando.
Este teste, iniciado pelo desenvolvedor adi, foi apelidado de "o único benchmark confiável". O pesquisador de benchmarks Aidan McLau acredita que este método atende às necessidades atuais de avaliação de IA e aponta que a capacidade estética está intimamente relacionada ao nível de inteligência. O projeto rapidamente recebeu o apoio da comunidade open source, e o código relevante já está disponível no GitHub.
Os resultados do teste mostraram que os diferentes modelos exibiram "personalidades" únicas:
O Sonnet3.6 se destacou em criatividade, recebendo o apoio de mais de 2.000 usuários.
O o1-preview da OpenAI, embora mais lento na construção, se destacou na reprodução de edifícios reais (como o Taj Mahal).
O o1-mini não conseguiu concluir as tarefas.
O Llama3405B construiu uma "parede de diamantes em uma fogueira", representando a si mesmo.
O Qwen2.5-14B da Alibaba também demonstrou boa capacidade.
É importante notar que o processo de construção da IA no jogo não depende da compreensão visual ou do controle direto dos dispositivos de entrada, mas sim da geração de instruções de operação por meio de texto, semelhante a jogar xadrez às cegas. A implementação técnica se baseia principalmente em:
Biblioteca open source mineflayer: converte as instruções geradas pela IA em chamadas de API executáveis.
Biblioteca open source mindcraft: fornece prompts e exemplos genéricos, permitindo a integração de vários modelos no jogo.
A equipe do projeto planeja aprimorar ainda mais esse mecanismo de avaliação, criando um sistema de pontuação semelhante ao da arena Lmsys, usando o algoritmo Elo para classificação com base nos votos dos usuários. Segundo informações, o ambiente de teste completo pode ser configurado em apenas 15 minutos.
Este novo método de avaliação não apenas demonstra a criatividade da IA, mas também oferece uma nova perspectiva para a avaliação objetiva da capacidade dos grandes modelos. Assim como o o1-preview escolheu construir um robô e soletrar "GPT" quando teve liberdade criativa, a IA parece estar começando a mostrar sua "personalidade" neste mundo virtual. À medida que mais modelos se juntam aos testes, este jogo clássico está se tornando uma plataforma única para testemunhar o desenvolvimento da IA.
Tutorial em vídeo:
https://x.com/mckaywrigley/status/1849613686098506064
Código aberto:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator