A colaboração entre a Baichuan Intelligence e a Universidade de Tianjin resultou na criação da estrutura de agente inteligente "Sibyl System", que alcançou o primeiro lugar no GAIA Leader Board. O GAIA, uma nova metodologia de avaliação proposta pela Meta, Huggingface e AutoGPT em novembro de 2023, foca principalmente na capacidade e nas estratégias dos agentes na execução de tarefas complexas. Essa metodologia de avaliação revelou deficiências nas capacidades dos modelos existentes e forneceu direções para melhorias no desenvolvimento de modelos e agentes.

As questões do teste GAIA se aproximam mais da realidade, exigindo que a IA possua habilidades de raciocínio, compreensão multimodal (texto, imagens, áudio/vídeo), navegação na web e uso de ferramentas. Essas questões são facilmente compreendidas por humanos, mas representam um desafio considerável para os modelos. Por exemplo, a taxa de sucesso do GPT-4 no teste foi de apenas 15%, enquanto os humanos participantes alcançaram 92%. A resolução dessas questões geralmente requer longas cadeias lógicas e tempo, envolvendo múltiplas etapas e ferramentas.

微信截图_20240724082043.png

As características de design da estrutura "Sibyl System" incluem:

  • Interface de navegador semelhante à humana em substituição à recuperação aprimorada de geração.

  • Perguntas e respostas em substituição ao diálogo, utilizando funções de perguntas e respostas sem estado, simplificando a arquitetura do sistema.

  • Uso apenas de navegador web e ambiente Python como ferramentas gerais, reduzindo a dependência de ferramentas especializadas.

  • Introdução do mecanismo de "júri" do System1 ao System2, por meio de debates entre múltiplos agentes para autocrítica e correção, utilizando as informações da área de trabalho global para melhorar a precisão das respostas.

O Sibyl System é uma estrutura de agente baseada em modelos de linguagem grandes, simples em sua estrutura, mas poderosa em sua funcionalidade. Ele consegue resolver problemas complexos de raciocínio usando poucas ferramentas. Através da introdução do Espaço de Trabalho Global e do mecanismo Multi-Agente, além de um canal de obtenção de informações genérico baseado em navegador, a complexidade do sistema é reduzida, enquanto a complexidade da resolução de problemas é expandida, permitindo a transição do modelo do "pensamento rápido" para o "pensamento lento". O Sibyl System também apresenta excelente escalabilidade e facilidade de depuração, permitindo a substituição fácil dos módulos de agente de outros modelos, melhorando assim as capacidades do modelo.

Relatório técnico:https://arxiv.org/pdf/2407.10718